Machine learning Flashcards
¿Qué es un array o lista?
Almacenar una colección de datos ordenados por medio de un índice
Machine Learning
Es una rama de la inteligencia artificial.
Es un sistema complejo que aprende y mejora su respuesta con los datos que recibe de entrada.
Algoritmos y técnicas que permiten a las computadoras aprender y mejorar su desempeño en tareas específicas a partir de datos, sin necesidad de programación explícita para cada acción.
Se basa en el concepto de que las máquinas pueden aprender patrones, reconocer tendencias y tomar decisiones con mínima intervención humana, utilizando modelos y algoritmos que se entrenan con conjuntos de datos para hacer predicciones o tomar decisiones basadas en esa información.
¿Cómo funciona el proceso de aprendizaje de Machine learning?
Se le dan datos, instrucciones y ejemplos para que el programa comience a interpretar patrones y con esto tome decisiones con la información que tiene.
Ejemplos de algoritmos de aprendizaje
- Supervised machine learning algorithms (Algoritmos supervisados de ML)
- Unsupervised machine learning algorithms (Algoritmos no supervisados de ML)
- Semi-supervised machine learning algorithms (Algoritmos semi-supervisados de ML)
- Reinforcement machine learning algorithms (Algoritmos de aprendizaje por refuerzo)
Supervised machine learning algorithms (Algoritmos supervisados de ML)
Aprenden a través de datos etiquetados.
Usan data histórica.
Tienen datos de entrada y salida .
Tienen una función para asignar etiquetas a los datos de salida.
sirven para clasificación y regresión.
Ejemplos: mails de spam, detección de fraude de identidad (clasificación), predicción del clima (regresión).
Unsupervised machine learning algorithms (Algoritmos no supervisados de ML)
No tienen datos etiquetados.
Tratan de encontrar patrones, estructuras e inferencias de la data.
Ejemplo: agrupamiento de clientes basado en patrones de compra.
Semi-supervised machine learning algorithms (Algoritmos semi-supervisados de ML)
Tienen una pequeña cantidad de datos etiquetados.
Para realizar predicciones.
Ejemplo: análisis de redes sociales dónde se tiene alguna información etiquetada y se intenta predecir otras relaciones entre usuarios basadas en esta información limitada.
Algoritmos de aprendizaje por refuerzo (Reinforcement Learning Algorithms)
Aprenden a través de la interacción con su entorno (ensayo y error).
Toman decisiones y reciben retroalimentación (castigos y recompensas).
Ejemplo: los juegos, el programa aprende a tomar decisiones para maximizar su recompensa.
¿Qué es una derivada?
Una derivada es una razón de cambio.
Una derivada nos dice que tantos cambios hay entre dos puntos.
¿Para qué sirven las matemáticas?
Son una herramienta para traducir fenómenos del mundo real e insertarlos en las computadoras.
¿Qué es un mínimo local?
Cuándo el sistema no ha aprendido eficazmente y se estanca (el error no se reduce. cero). No sirve porque la AI puede fallar mucho.
Distancia euclidiana
La medida de la distancia entre dos puntos en un espacio euclidiano.
La distancia es la resta entre dos puntos.
Pero se elevan al cuadrado y luego se saca la raín cuadrada para trabajar con positivos.
¿Qué es un descriptor en ML?
Es la representación numérica (o simbólica) de una caracteristica específica de un dato o entidad.
La idea es usar un formato que pueda ser procesado por los algoritmos de aprendizaje automático.
¿Qué es overfitting?
Cuando entrenas de más un modelo y ya es incapaz de predecir. (ejemplo de aprenderse las preguntas exactas para un examen)
Good performance on the training data, poor generliazation to other data.
¿Qué es Underfitting?
No entrenar lo suficiente el modelo.
Poor performance on the training data and poor generalization to other data
¿Qué es generalización?
Capacidad de un modelo entrenado para hacer predicciones precisas o tomar decisiones acertadas con datos nuevos que nunca ha visto antes.
¿Qué significa la función Y = f(X)?
Una función (f) que usa las cosas en X para determinar o predecir lo que sucede en Y.
¿Qué es Statistical Fit? (Ajuste estadístico)
Medida cuantitativa de qué tan bien el modelo se ajusta a los datos con los que fue entrenado y cómo se desempeña al hacer predicciones en datos nuevos o no vistos.
Un modelo con un buen ajuste es aquel que puede predecir con precisión los datos con los que fue entrenado y que tiene la capacidad de hacer predicciones útiles y certeras en nuevos conjuntos de datos.
¿Qué es un dataset de validación?
Un conjunto de datos que se retuvo para probar el modelo después del entrenamiento.
¿Qué son las resampling techniques o técnicas de remuestreo?
Son técnicas útiles para evitar el sobre entrenamiento. En una técnica de remuestreo, (como la validación cruzada k-fold), se dividen los datos en conjuntos de entrenamiento y prueba repetidamente para evaluar el rendimiento del modelo en diferentes subconjuntos de datos.
¿Qué es una falacia?
Un argumento que parece lógico o verdadero, pero en realidad es incorrecto.
¿Qué es la validación cruzada?
Cuando se rotan los datos entre entrenamiento y prueba. Ayuda a evitar el cherry picking.
¿Qué es la validación cruzada K-fold?
El método k-fold es una técnica específica de validación cruzada en la que los datos se dividen en k subconjuntos (llamados “folds”) del mismo tamaño. Luego, el modelo se entrena k veces, cada vez utilizando k-1 de esos subconjuntos como datos de entrenamiento y uno como datos de prueba. El rendimiento del modelo se calcula como el promedio de los resultados obtenidos en cada iteración.
¿Qué es una matriz de confusión?
Es una tabla que muestra la cantidad de predicciones correctas e incorrectas hechas por un modelo en comparación con los valores reales en un problema de clasificación.
Train, Validation and Test
Se refiere a la división de un conjunto de datos en tres partes principales.