Análisis de datos con python Flashcards
Números discretos
Datos con números enteros (edades, conteos, etc).
Números contínuos
Que pueden tomar cualquier valor, pueden tener decimales (temperatura, precios).
Datos numéricos
Valores que son representados con números.
Datos categóricos
Solo pueden tomar unos valores específicos dentro de una categoría.
Datos categóricos binarios
Solo hay dos opciones.
Datos categóricos ordinales
Tienen un orden explícito (ranking del 1-10).
Estimados de locación
Nos ayudan a ubicar un valor típico que sea representativo del conjunto de datos.
Estimados de variabilidad (o dispersión)
Miden qué tan dispersos están los demás datos respecto al valor típico.
Población
Totalidad de elementos sobre los que se está haciendo el análisis.
Muestra de población
Subconjunto o parte de la población en la que se estará llevando a cabo el análisis.
Ejemplos de estimados de locación
Media, mediana, moda, media truncada, media ponderada, percentiles.
Promedio (mean)
Se obtiene sumando todos los datos y luego dividiéndolos entre la cantidad de datos que tenemos.
Mediana
Se obtiene ordenando de menor a mayor nuestros valores y luego obteniendo el valor que está justo a la mitad de la secuencia.
Valores atípicos
Valores que se encuentran tan alejados del valor típico que pueden pensarse como anomalías en nuestro conjunto de datos.
Estimado estadístico robusto
Estimado estadístico que no es tan sensible a la presencia de valores atípicos.
¿Cuándo tenemos valores atípicos qué estimado de locación es preferible?
La mediana
¿Cuándo no tenemos valores atípicos qué estimado de locación podemos utilizar?
Promedio o media.
Media truncada
Los valores que caen por encima o por debajo de ciertos límites predefinidos se “truncan” o eliminan antes de calcular la media.
1) ordenamos nuestros datos de menor a mayor.
2) truncamos un porcentaje de nuestros datos al inicio y al final. Por ejemplo, si elegimos eliminar el 5% de los datos, eliminaríamos 2.5% de los datos al inicio de la secuencia y 2.5% al final.
3) Con los datos restantes, obtenemos el promedio.
Media ponderada
Es similar a la media aritmética, pero se asignan pesos a cada valor antes de calcularla.
Desviación estándar
Es una medida que nos dice cuánto se separan los datos del promedio.
(Recordar ejemplo de la caja de juguetes)
Es sensible a los valores atípicos.
Ejemplos de estimados de variabilidad
Desviación estándar, varianza, rango, rango intercuartílico (RIC), coeficiente de variación, coeficiente de asimetría.
¿Cómo se calcula la desviación estándar?
1) se obtienen todas las diferencias entre cada valor y nuestro valor típico. 2) Después se eleva cada valor al cuadrado para convertir todos los números en positivos.
3) Se suman todos estos valores.
4) Se dividen entre la cantidad de valores
5) - 1 (ajuste de la formula al trabajar con muestras)
6) y finalmente se saca la raíz cuadrada del valor resultante.
Desviación absoluta de la mediana
Estimado de variabilidad más robusto que no se afecta por los valores atípicos.