Unidad 1: Tratamiento de Datos Flashcards
Procesos y Variabilidad
Un proceso es un conjunto de etapas, ordenadas con cierta lógica, para obtener resultados.
Conceptos fundamentales que intervienen en un problema “Estadístico”
La o las características de interés y el conjunto para el cual se requieren obtener conclusiones.
Población
La población es el conjunto de todos los elementos bajo estudio. Una población puede ser finita o infinita y el método de estudio es exhaustivo.
Unidad elemental
A cada uno de los elementos que componen la población se lo denomina unidad elemental. La UE es ¿A quién estudio?
Variable
Una variable es cualquier característica que puede tomar diferentes valores o categorías en la unidades elementales. Para identificar una variable debemos preguntarnos ¿A qué estudio?. Se dividen en dos categorías:
- Cualitativas
- Cuantitativas
Variable cualitativas
Clasifica a las unidades elementales en categorías o niveles.
Variables Cuantitativas
Le asigna a cada unidad elemental un número. Se pueden clasificar en discretas o continuas
Variables Cuantitativas Discretas
El conjunto de valores posibles es finito o infinito numerable, y se asocia a un subconjunto de números enteros Z. NO EXISTE VALOR ENTREMEDIO DE ELLOS
Variables Cuantitativas Continuas
El conjunto de valores posibles es un intervalo o conjunto de intervalos de números reales R. Entre dos valores cualesquiera puede existir un valor entremedio de ellos.
Muestra
Una muestra es un subconjunto de elementos de la población bajo estudio. Su tamaño o cantidad de elementos se simbolizarán con a letra “n”. Sus métodos de estudio son por muestras aleatorias, probabilísticas o conveniencia).
Parámetro
Cualquier medida que resuma información de la población se denomina Parámetro
Estadístico
Se denomina estadístico a cualquier medida que resuma información de una muestra.
Análisis descriptivo de los datos
Son tablas, gráficos o indicadores que se usan para resumir y/o presentar un conjunto de datos, sean estos de una muestra o de una población finita.
Análisis inferencial de los datos
Son intervalos de confianza y/o pruebas de hipótesis que permiten extender las conclusiones de una muestra a la población, con riesgos controlados.
Características de una variable cualitativa: Frecuencia Absoluta (nK)
El número de elementos que pertenecen a cada clase recibe el nombre de frecuencia absoluta (nK)
Características de una variable cualitativa: Frecuencia Relativa (fK)
El cociente entre la frecuencia absoluta y el número total de observaciones recibe el nombre de frecuencia relativa (fK)
Características de una variable cualitativa: Representación gráfica
-Gráfico circular (Torta)
- Gráfico de barras
- Diagrama de Pareto
Características de una variable cuantitativa Discreta: Frecuencia Absoluta acumulada (NK)
Es la cantidad de elementos correspondientes a valores de la variable menores o iguales a xK
Características de una variable cuantitativa Discreta: Frecuencia Relativa acumulada (NK)
Es la proporción de elementos cuyo valor de la variable es menor o igual que xK
Características de una variable cuantitativa Discreta: Representación gráfica
- Gráfico de bastones
- Tablas
Características de una variable cuantitativa Continua
- Tallo y Hoja
Características de una variable cuantitativa Continua: Representación gráfica
- Histograma
- Polígono de frecuencias acumuladas
- Gráficos de serie de tiempo
- Tablas
Medidas de Posición
- Media
- Moda
- Mediana
- Cuartiles
- Percentiles
Media aritmética o Promedio
No coincide necesariamente con un valore de la variable. Es el valor medio de los valores de la variable.
Si se trata de una población se utiliza la letra griega μ.
Moda
Es el valor de la variable con mayor frecuencia.
Mediana
Es el mínimo valor de la variable que acumula, por lo menos, el 50% de las observaciones ordenadas en forma creciente.
Cuartiles y Percentiles
Se definen de forma similar a la mediana, pero en vez de acumular el 50% acumulan el valor indicando (cuartil 1 q1=25%, cuartil 2 q2=50%,.., percentil 1 p1= 1%, etc).
Si se trata de una población se puede utilizar letras mayúsculas para su simbología.
Comparación de media, mediana y moda
Si la media, mediana y moda coinciden es una distribución simétrica.
Si no coinciden se les llama distribuciones Asimétricas.
Si todos los datos se acumulan en la izquierda del gráfico, entonces es una distribución asimétrica a la derecha.
Si todos los datos se acumulan a la derecha del gráfico, entonces, es una distribución asimétrica a la izquierda.
Medidas de dispersión
Estas medidas dan información de la variabilidad o el alejamiento que tienen los datos entre sí.
Si las medidas de dispersión son altas, entonces significa que existe mucha dispersión.
Las medidas de dispersión son:
- Rango
- Varianza Muestral
- Desvío estándar muestral
- Recorrido Intercuartílico
- Coeficiente de Variación
Medidas de dispersión: Rango
Es la diferencia entre el mayor y menor de las observaciones. Se simboliza con la letra r
Medidas de dispersión: Varianza Muestral
Es el promedio, aproximado, de los cuadrados de las diferencias entre los valores de las observaciones y su correspondiente media aritmética.
Se simboliza en un estadístico como : (s)^2.
Se simboliza en un parámetro como: (σ)^2
Medidas de dispersión: Desvío Estándar Muestral
Es la raíz cuadrada positiva de la varianza.
Se simboliza con la letra s.
Medidas de dispersión: Recorrido Intercuartílico
Es la diferencia entre el cuartil 3 y el cuartil 1.
Se simboliza como: riq.
Medidas de dispersión: Coeficiente de Variación
Es el cociente entre el desvío estándar y la media aritmética.
Se simboliza como cv si es una muestra o CV si es una población.
Regla empírica
Si un conjunto de datos tiene una distribución aproximadamente simétrica y de forma campanular (se le llama distribución normal) verifica lo siguiente en cuanto a porcentaje de datos que pertenecen, aproximadamente, a cada intervalo:
media+-k*desvío estándar
media +- 1desvío estándar = 68% de los datos
media +- 2 desvío estándar = 95% de los datos
media +- 3*desvío estándar = 99.7% de los datos
Detección de valores anómalos o muy extremos
Hay ocasiones que un conjunto contiene observaciones muy alejadas del resto. Para determinar si estas observaciones son anomalas o no es observar si se aleja demasiado de la media.
Para determinar si z o Z es muy grande hay que tener en cuenta la regla empírica, que indica que el 100% de los datos se cubren, aproximadamente, con 3 desvíos de la media. Esto significa que z puede considerarse grande si es mayor a 3.
Diagrama de caja
Se utiliza para representar la distribución de los datos de variables cuantitativas. El mismo se realiza a partir de los cuartiles junto con el rango.