Narrativa con datos Flashcards
Uso de análisis exploratorio
- Conocer estructura y distribución de datos.
- Encontrar las relaciones entre las variables explicatorias.
- Encontrar la relación entre variables explicatorias y variable respuesta
- Encontrar posibles errores, puntos extremos y anomalías en los datos
- Refinar nuestras hipótesis o generar nuevas preguntas sobre los datos.
Caractaerísticas generales del análisis exploratorio de datos
Engloba conjunto de técnicas para comprender naturaleza de colección de datos o dataset.
Creado por el estadístico John Turkey.
Su base son dos criterios: Estadísticas de resumen y visualización de datos
Estadísticas de resumen
Valores que explican propiedades de los datos (frecuencias, medidas de tendencia central y dispersión)
Dato1:
Tendencia central: media, mediana y moda.
Dispersión: Mide variabilidad de los datos (desviación estándar, rango, etc.)
Dato2:
Frencuencia: El procentaje de veces que éste es observado.
Moda: El valor más frecuente observado
Media: Medida más común de tendencia central para variable numérica.
Mediana: Posición central de la variable (separa mitad inferior y superior)
Medidas de dispersión
Medidas que dicen que tan distintas o similares tienden a ser las observaciones respecto a un valor particular (generalmente el valor es alguna medida de tendencia central).
Rango: Diferencia entre el valor máximo y el mínimo
Desviación estándar : Raíz cuadrada de la varianza. Mide las diferencias cuadráticas promedio de las observaciones con la media.
Dato1. Igual que la media, la desviación estándar es sensible a outliers.
Qué es visualización de datos
Es la transformación de un dataset a un formato visual que permite identificar características y relaciones entre los elementos del dataset.
Permite identificar patrones o tendencias en base a criterio.
Representación en visualización de datos
Es el mapeo a partir de datos hacia un formato visual.
Se traducen datos, atributos y relaciones a elementos gráficos como puntos, líneas, formas y colores.
Objetos usualmente como puntos.
Valores como la posición de los puntos o características de los puntos (color, tamaño, forma, etc.)
Histogramas
Muestran la distribución de los valores de una variable.
Cómo se dividen los valores de los elementos del histograma
Los valores se dividine en contenedores (bins) y se crean gráficos de barras por cada contenedor.
Qué indica la altura de cada barra en el histograma
Número de elementos o frecuencia del contenedor(bin).
Densidad en visualización de datos
Es una versión suavizada del histograma que permite determinar si los datos observados se comportan como una densidad conocida (normal por ejemplo).
Se calcula usando técnicas estadísticas no paramétricas llamadas estimación de densidad de Kernel.
Gráfico de Torta o Pie charts
Representan frecuencia de elementos en un círculo.
Cada elemento tiene participación proporcional a su frecuencia relativa.
Generalmente usada para variables categóricas.
Uno de los objetivos de la estadística
Describir en pocas medidas resumen principales características de un conjunto de datos y refleje principales peculiaridades (estadística descriptiva)
Otro objetivo de la estadística
Realizar conjeturas acerca de las medidas resumen de un conjunto de datos cuando se conoce una parte del mismo (estadística inferencial)
Qué es población en estadística
Conjunto definido de objetos (elementos de la población).
Dado el objeto se debe tener regla que determine si pertenece o no a la población.
Muestra en estadística
Subconjunto de la población.
Dato1. Si es toda la población se llama censo.