Análisis de datos con python Flashcards
Números discretos
Datos con números enteros (edades, conteos, etc).
Números contínuos
Que pueden tomar cualquier valor, pueden tener decimales (temperatura, precios).
Datos numéricos
Valores que son representados con números.
Datos categóricos
Solo pueden tomar unos valores específicos dentro de una categoría.
Datos categóricos binarios
Solo hay dos opciones.
Datos categóricos ordinales
Tienen un orden explícito (ranking del 1-10).
Estimados de locación
Nos ayudan a ubicar un valor típico que sea representativo del conjunto de datos.
Estimados de variabilidad (o dispersión)
Miden qué tan dispersos están los demás datos respecto al valor típico.
Población
Totalidad de elementos sobre los que se está haciendo el análisis.
Muestra de población
Subconjunto o parte de la población en la que se estará llevando a cabo el análisis.
Ejemplos de estimados de locación
Media, mediana, moda, media truncada, media ponderada, percentiles.
Promedio (mean)
Se obtiene sumando todos los datos y luego dividiéndolos entre la cantidad de datos que tenemos.
Mediana
Se obtiene ordenando de menor a mayor nuestros valores y luego obteniendo el valor que está justo a la mitad de la secuencia.
Valores atípicos
Valores que se encuentran tan alejados del valor típico que pueden pensarse como anomalías en nuestro conjunto de datos.
Estimado estadístico robusto
Estimado estadístico que no es tan sensible a la presencia de valores atípicos.
¿Cuándo tenemos valores atípicos qué estimado de locación es preferible?
La mediana
¿Cuándo no tenemos valores atípicos qué estimado de locación podemos utilizar?
Promedio o media.
Media truncada
Los valores que caen por encima o por debajo de ciertos límites predefinidos se “truncan” o eliminan antes de calcular la media.
1) ordenamos nuestros datos de menor a mayor.
2) truncamos un porcentaje de nuestros datos al inicio y al final. Por ejemplo, si elegimos eliminar el 5% de los datos, eliminaríamos 2.5% de los datos al inicio de la secuencia y 2.5% al final.
3) Con los datos restantes, obtenemos el promedio.
Media ponderada
Es similar a la media aritmética, pero se asignan pesos a cada valor antes de calcularla.
Desviación estándar
Es una medida que nos dice cuánto se separan los datos del promedio.
(Recordar ejemplo de la caja de juguetes)
Es sensible a los valores atípicos.
Ejemplos de estimados de variabilidad
Desviación estándar, varianza, rango, rango intercuartílico (RIC), coeficiente de variación, coeficiente de asimetría.
¿Cómo se calcula la desviación estándar?
1) se obtienen todas las diferencias entre cada valor y nuestro valor típico. 2) Después se eleva cada valor al cuadrado para convertir todos los números en positivos.
3) Se suman todos estos valores.
4) Se dividen entre la cantidad de valores
5) - 1 (ajuste de la formula al trabajar con muestras)
6) y finalmente se saca la raíz cuadrada del valor resultante.
Desviación absoluta de la mediana
Estimado de variabilidad más robusto que no se afecta por los valores atípicos.
Estadísticos de Orden
Estimar la dispersión de nuestros datos ordenándolos de forma ascendente (de menor a mayor).
Rango
El rango es la diferencia entre el valor mínimo y el valor máximo de nuestro datos.
No es robusto, ya que dentro de ese rango los valores pueden estar distribuidos de muchas maneras distintas.
Percentiles
Nos ayuda identificar la posición de un valor específico en relación con otros valores en un conjunto de datos ordenados.
En un conjunto de datos, el percentil P es un valor que indica que por lo menos P% de los valores en el conjunto tienen este valor o un valor menor; mientras que (100-P)% de los valores tienen este valor o un valor mayor.
Rango intercuartílico
Diferencia entre el percentil 75 y el percentil 50.
Seaborn
Biblioteca de visualización de datos que está construida sobre Matplotlib.
Matplotlib
Biblioteca de visualización de datos, muy flexible, permite personalizar los gráficos.
Boxplots
Representación gráfica de cómo se distribuyen los datos, resaltando los valores atípicos.
– Componentes:
1) El rango intercuartílico (RIC): Es la caja. Muestra dónde están el 50% de los datos, desde el primer cuartil (el borde inferior de la caja) hasta el tercer cuartil (el borde superior de la caja).
2) La mediana: Es la línea dentro de la caja y representa el valor que está justo en el medio de todos los datos.
3) Los bigotes: Son líneas que se extienden desde la caja y muestran el rango de la mayoría de los datos. Longitud máxima de 1.5 * Rango Intercuartílico
4) Los valores atípicos: Son puntos que están más allá de los bigotes y pueden indicar datos poco comunes o extremos.
¿Qué hacen los percentiles?
segmentan nuestros datos en grupos de diferente tamaño de rango pero con la misma cantidad de muestras.
tablas de frecuencias
segmentan nuestros datos en segmentos que miden lo mismo pero que contienen una cantidad distinta de muestras.
Histogramas
una tabla de frecuencias hecha gráfica.
X = rangos de datos
Y = rango de conteos
Distribución Simétrica
Es la que, al ser dividida a la mitad por una línea, tiene un lado izquierdo prácticamente idéntico pero en espejo al lado derecho.
Distribución normal
La distribución normal tiene un promedio de 0 y una desviación estándar de 1. Se utiliza como estándar para comparar todas las demás distribuciones.
Distribución asimétrica
Una distribución tiene asimetría positiva (o a la derecha) cuando la “cola” a la derecha de la media es más larga que a la izquierda.
Una distribución tiene asimetría negativa (o a la izquierda) cuando la “cola” a la izquierda de la media es más larga que a la derecha.
Distribuciones de cola larga y corta
Larga: aquellas cuyas colas (o cola) se extienden mucho más allá de la mayoría de los datos.
Corta: que rápidamente se aproximan a un conteo de 0 alrededor de la media.
Distribución Uniforme o Aproximadamente Uniforme
Aquella donde la probabilidad de obtener alguno de los valores dentro del rango total es prácticamente la misma.
Distribución bimodal
Que tiene dos aglomeraciones de datos.
Asimetría
medida de simetría o asimetría de la distribución de datos
Curtosis
mide si los datos tienen cola pesada o cola ligera en una distribución .
Gráficas de densidad
una versión “suavizada” de los histogramas.
visualiza la distribución de datos cuantitativos en un intervalo o período de tiempo continuo.
usa suavizado de kernel para trazar valores, lo que permite distribuciones más suaves suavizando el ruido.
nos puede servir para comparar múltiples distribuciones en la misma gráfica.
Gráficas anotadas
Con elementos que permiten que sea más comprensible para las usuarias y usuarios.
- titulo
- Nombres de ejes
- Leyendas
- Tamaño de la gráfica
- Dirección de los tics
Gráficas de barras
Para variables categóricas, no hay rangos sino categorías ya definidas, no hay un orden específico, barras espaciadas.
Gráficas de pie
Muy poco informativas, no suele utilizarse en análisis más profesionales.
Moda
La moda es el valor (o los valores) categórico que más se repite en un conjunto de datos.
Tablas de contingencia
Una tabla de contingencia toma una de las variables categóricas como índice y otra (o más de una) de estas variables para crear columnas. Una tabla de contingencia es básicamente una tabla de conteos dividida por categorías.
Correlación entre variables
Implica que existe un cierto nivel de dependencia directa o indirecta entre ellas. Si una de las variables cambia de valor, la otra cambia también de una forma parcialmente predecible.
Correlación positiva
Cuando el aumento de valores en una de ellas está relacionado con el aumento de valores en la otra. También están correlacionadas positivamente si la disminución de valores en una de ellas está relacionado con la disminución de valores en la otra.
Correlación negativa
Cuando el aumento en los valores de una está relacionado a la disminución de los valores en la otra, y viceversa.
Coeficiente de Correlación de Pearson
nos sirve para calcular la correlación entre dos variables numéricas, y que depende de la desviación estándar de nuestras variables. Nos indica si la correlación es negativa o positiva, y también la fuerza de esa correlación.
Fuerzas de correlación
Es un valor entre -1 (correlación negativa perfecta) y 1 (correlación positiva perfecta). 0 indica que no hay ninguna correlación entre las variables (es decir, son totalmente independientes).
Un coeficiente de 0.7, por ejemplo, significa que tienes una correlación bastante fuerte pero no perfecta. Un coeficiente de -0.2 significa que tu correlación es negativa y bastante débil, lo cual podría incluso indicar que es una relación debida al azar.
Matriz de correlaciones
Cada celda representa la intersección entre la columna y la fila correspondiente. El valor que contiene es el coeficiente de correlación de Pearson. Observa que hay una línea diagonal justo a la mitad de la matriz que contiene puros 1s. Esta diagonal es la intersección de cada variable consigo misma, por lo que obviamente la correlación es perfecta. También observa la redundancia en los datos arriba y debajo de la diagonal.
Heatmaps o Mapas de Calor
Para representar visualmente nuestra matriz de correlaciones.
Scatterplots o Gráficas de Dispersión
Grafican una de las variables en el eje x y la otra variable en el eje y de un plano cartesiano. Cada muestra es un punto en el plano que tiene su respectivo valor para x y para y.
Pairplots o Gráficas de Pares
Los pairplots usan gráficas de dispersión (scatterplots) para graficar todas las posibles combinaciones de relaciones entre las variables de un dataset.
Regresión Linear Simple
Proceso a través del cual intentamos crear una ecuación que pueda predecir una variable utilizando la otra como punto de partida. Lo interesante es que dicha ecuación representa, (lo adivinaste) una línea en un plano.
Y= mx + b
El objetivo de la regresión linear es encontrar los valores para m y b.
Entre más fuerte sea la relación entre dos variables, más precisa será la predicción.
El proceso a través del cual encontramos los valores para el coeficiente m y el intercepto b se llama ‘entrenamiento’. El algoritmo y los parámetros que estamos utilizando (en este caso los que definen cómo llevar a cabo la regresión linear) los llamamos el modelo.
Coeficiente de determinación o R2 (R squared)
Una de las medidas que utilizamos para medir la efectividad de nuestro modelo de regresión lineal (valor entre el rango 0 y 1)