Estadistica Flashcards
Que es la estadistica?
La estadistica es la ciencia que sirve para recolectar, organizar, analizar, interpretar y presentar los datos
Con esto podemos entender patrones y hacer predicciones que sirven para tomar decisiones empresariales
Tipos de estadistica
1) Estadistica descriptiva –> Organiza y resume los datos (no saca conclusiones)
2) Estadistica inferencial –> Saca conclusiones o inferencias (predicciones y generalizaciones) mediante experimentos usando datos de muestra
Herramientas de la estadistica descriptiva
1) Medidas de tendencia central: media, mediana, moda
2) Medidas de dispersion: rango, varianza y desviacion estandar
3) Tablas y graficos: histogramas, diagramas de disperción
Herramientas de la estadistica inferencial
1) Pruebas de hipotesis
2) Intervalos de confianza
3) Regresion y correlacion
Datos de poblacion (N) vs datos de muestra (n)
Poblacion: conjunto completo de individuos o elementos, puede ser finita o infintita
Muestra: es un subconjunto de la poblacion, se usa cuando estudiar la poblacion es imposible o poco practico
Ejemplo:
* Poblacion: todos los clientes de una empresa
* Muestra: analizar el rendimiento de 100 clientes para inferir el comportamiento de toda la base de clientes
Medidas de tendencia central
1) Media
2) Mediana
3) Moda
Que es la media? y cuando usarla?
Media(Repasar con formula para poblacion y muestra): se obtiene de sumar todos los datos y divir entre la cantidad de datos
Cuando usarla?:es util para datos simetricos y cuandos los datos son numericos y no hay valores atipicos(outliers)
Porque la media es sensible a valores atipicos?
La media es sensible a valores extremos porque todos los valores del conjunto influyen en su calculo
Que es la mediana? y cuando usarla?
Mediana: valor que se encuentra en el centro de los datos cuando estan ordenados
REGLAS:
- N° impar de datos: la mediana es el valor central
- N° par de datos, la mediana es el promedio de los 2 valores centrales
Cuando usarla?: Cuando los datos tiene valores extremos(outliers) porque la mediana no se ve afectada por ellos
Entonces la mediana es mas confiable para entender el centro real de los datos
Porque la mediana no se ve afectada por valores atipicos?
La mediana no se ve afectada por valores atipicos porque la mediana solo depende de la posicion central de los datos ordenados, no de los valores en si
Que es la moda? y cuando usarla?
Moda: es el valor que aparece con mayor frecuencia
- 1 moda –> 1 solo numero mas frecuente
- multimodal –> mas de un numero con la misma frecuencia maxima
- sin moda –> valores con la misma cantidad de veces
Cuando usarla?: en datos cualitativos o categoricos y para identificar preferencias
Por ejemplo: saber que talla de camiseta es la mas vendida
Que medida usarias para analizar los sueldos de los empleados de una empresa ? (media o mediana?)
La mediana porque los salarios de los ejecutivos con sueldos superiores que suelen que suelen ser mas altos a la mayoria de empleados puede afectar mi calculo a menos que use la mediana para que esos valores extremos no lo afecten
Como puede afectar la media? ejemplo
usar la media para analizar ingresos, ventas o gastos puede llevar a decisiones erroneas si hay valores extremos
por ejemplo: Si la media de ventas es alta por un cliente excepcional, podriamos subestimar la demanda real
Medidas de dispersion
Las medidas de dispersion indican que tan dispersos o agrupados estan los datos respecto a un valor central(como la media). Nos ayudan a entender la variabilidad de los datos
1) Varianza
2) Desviacion estandar
3) Rango
4) Coeficiente de variacion
5) Rango intercuartil?
Que es la varianza? como interpretarla?
(Repasar con formula)
La varianza mide que tanto varian los datos (que tan dispersos estan) respecto del promedio.
Por ejemplo: En un negocio se analizan las ventas del mes y obtengo un determinado promedio, pero ese promedio puede deberse a una venta grande que se tuvo en algun momento del mes, entonces para saber si los datos son datos estables( es decir que se mantienen constantes) tengo que ver que tanto varian los datos
-Que mide? –>Promedio de las diferencias al cuadrado respecto a la media
-Como interpretarlo? –>Si es alta, los datos estan muy dispersos, si la varianza es baja los datos estan agrupados
de KrishNaik: la varianza puede cambiar ligeramente los datos de la muestra
El centro que tiene en cuenta las medidas de dispersion siempre es la media o puede ser la mediana?
Depende de los datos y lo que se quiera comunicar:
Media –> varianza - Desviacion standar –> datos simetricos, sin outliers
Mediana –> IQR - desviacion absoluta media(MAD) –> datos Asimetrios o con outliers
Que es la desviacion estandar?
(Repasar con formula)
La desviación estándar es una medida que nos dice cuánto se alejan, en promedio, los datos del valor medio. Es como la vara de medir la dispersión en las mismas unidades que los datos originales. Por ejemplo:
Si el tiempo de entrega promedio de un producto es 5 días y la desviación estándar es 2 días, significa que la mayoría de las entregas varían entre 3 y 7 días.
Se calcula como la raíz cuadrada de la varianza, y su gran ventaja es que es más fácil de interpretar, porque no está en unidades al cuadrado. En esencia, responde a la pregunta: ¿Qué tan predecible o volátil es este conjunto de datos?.”
Comparación con la varianza:
“La varianza nos da una idea de la dispersión, pero al estar en unidades cuadradas (como euros² o días²), es difícil traducirla al mundo real. La desviación estándar resuelve eso.”
-Que mide? –>Raiz cuadrada de la varianza
-Como interpretarlo? –>Indica cuanto se alejan los datos en promedio de la media.
Si la desviacion estandar es pequeña, los datos estan cerca de la media, si es grande entonces los datos estan muy dispersos
Que es el rango?
(Repasar con formula)
Es útil para entender rápidamente la amplitud de los datos, pero tiene una limitación: no considera cómo se distribuyen los valores entre el mínimo y el máximo. Por eso, se suele complementar con medidas como la desviación estándar o el rango intercuartílico (IQR).
Ejemplo práctico:
“En logística, si los tiempos de entrega de un camión van de 2 a 8 horas (rango = 6 horas), sabemos que hay variabilidad, pero no si la mayoría de entregas están cerca de 2, 8, o distribuidas uniformemente. Por eso, el rango es un primer vistazo, pero no la historia completa.”
-Que mide? –> diferencia entre el valor maximo y minimo
-Como interpretarlo? –>Cuanto mayor sea, mas dispersos estaran lso datos
-Desventaja: no muestra como se distribuyen los datos solo su diferencia extrema
Que es el coeficiente de variacion?
(Repasar con formula)
-Que mide? –>Relacion entre la desviacion estandar y la media
-Como interpretarlo? –>Se usa para comparar dispersion entre conjuntos de datos con diferentes unidades o escalas
Si el CV es mayor –>mayor dispersion relativa
menor CV–> datos mas consistentes
pregunta de entrevista muy importante:
Porque dividimos por n - 1 en la varianza muestral?
La variacion de los datos es mayor en la poblacion que en la muestra, porque la poblacion tiene un tamaño mayor( a mayor tamaño, mayor posibilidad de variacion) y por eso dividimos por n-1 para que el resultado sea un poco mas alto, ya que si divido el calculo por n y despues divido el calculo por n-1 me va a dar un resultado mas grande porque divido en un numero mas chico
Esto se llama correccion basal
Que es correccion basal?
Que son grados de libertad?
El término grados de libertad se refiere a la cantidad de valores independientes que podemos elegir en un cálculo.
varianza vs desviacion estandar?
¿Por qué existen ambas?
La varianza es esencial para cálculos matemáticos (como en modelos estadísticos o machine learning), pero sus unidades son incómodas para comunicar resultados.
La desviación estándar “traduce” la varianza a unidades comprensibles, haciendo posible decir: “Los salarios se desvían, en promedio, $5k del sueldo medio”.
Que es variable?
En estadística, una variable es cualquier característica, atributo o dato que puede variar (cambiar) entre individuos, objetos o situaciones
Tipos de variables
- Variable cuantitativa
-Cuantitativo Discreto
-Cuantitativo Continuo - Variable categorica o cualitativa
-Nominal
-Ordinal
Variable cuantitativa
Variable cualitativa o categorica