Narrativa con datos Flashcards

1
Q

Uso de análisis exploratorio

A
  1. Conocer estructura y distribución de datos.
  2. Encontrar las relaciones entre las variables explicatorias.
  3. Encontrar la relación entre variables explicatorias y variable respuesta
  4. Encontrar posibles errores, puntos extremos y anomalías en los datos
  5. Refinar nuestras hipótesis o generar nuevas preguntas sobre los datos.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Caractaerísticas generales del análisis exploratorio de datos

A

Engloba conjunto de técnicas para comprender naturaleza de colección de datos o dataset.

Creado por el estadístico John Turkey.

Su base son dos criterios: Estadísticas de resumen y visualización de datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Estadísticas de resumen

A

Valores que explican propiedades de los datos (frecuencias, medidas de tendencia central y dispersión)

Dato1:

Tendencia central: media, mediana y moda.
Dispersión: Mide variabilidad de los datos (desviación estándar, rango, etc.)

Dato2:

Frencuencia: El procentaje de veces que éste es observado.
Moda: El valor más frecuente observado
Media: Medida más común de tendencia central para variable numérica.
Mediana: Posición central de la variable (separa mitad inferior y superior)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Medidas de dispersión

A

Medidas que dicen que tan distintas o similares tienden a ser las observaciones respecto a un valor particular (generalmente el valor es alguna medida de tendencia central).

Rango: Diferencia entre el valor máximo y el mínimo

Desviación estándar : Raíz cuadrada de la varianza. Mide las diferencias cuadráticas promedio de las observaciones con la media.

Dato1. Igual que la media, la desviación estándar es sensible a outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qué es visualización de datos

A

Es la transformación de un dataset a un formato visual que permite identificar características y relaciones entre los elementos del dataset.
Permite identificar patrones o tendencias en base a criterio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Representación en visualización de datos

A

Es el mapeo a partir de datos hacia un formato visual.

Se traducen datos, atributos y relaciones a elementos gráficos como puntos, líneas, formas y colores.

Objetos usualmente como puntos.
Valores como la posición de los puntos o características de los puntos (color, tamaño, forma, etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Histogramas

A

Muestran la distribución de los valores de una variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Cómo se dividen los valores de los elementos del histograma

A

Los valores se dividine en contenedores (bins) y se crean gráficos de barras por cada contenedor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qué indica la altura de cada barra en el histograma

A

Número de elementos o frecuencia del contenedor(bin).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Densidad en visualización de datos

A

Es una versión suavizada del histograma que permite determinar si los datos observados se comportan como una densidad conocida (normal por ejemplo).

Se calcula usando técnicas estadísticas no paramétricas llamadas estimación de densidad de Kernel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Gráfico de Torta o Pie charts

A

Representan frecuencia de elementos en un círculo.
Cada elemento tiene participación proporcional a su frecuencia relativa.
Generalmente usada para variables categóricas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Uno de los objetivos de la estadística

A

Describir en pocas medidas resumen principales características de un conjunto de datos y refleje principales peculiaridades (estadística descriptiva)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Otro objetivo de la estadística

A

Realizar conjeturas acerca de las medidas resumen de un conjunto de datos cuando se conoce una parte del mismo (estadística inferencial)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qué es población en estadística

A

Conjunto definido de objetos (elementos de la población).

Dado el objeto se debe tener regla que determine si pertenece o no a la población.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Muestra en estadística

A

Subconjunto de la población.

Dato1. Si es toda la población se llama censo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Variable de estudio

A

Característica a observar de los elementos de población o muestra.

17
Q

Distribución de frecuencias de la variable

A

Valores observados y sus frecuencias relativas o absolutas.

18
Q

Ejemplo de método de selección de la muestra

A

Población: la formada por todos los hogares de la Comunidad de
Madrid.
• Elementos de la población: todos y cada uno de los hogares de la
Comunidad de Madrid.
• Muestra: un determinado subconjunto de hogares.
• Variable: es la característica observada en cada elemento de la muestra
en este caso será el número de personas que viven en cada hogar
examinado.
• Distribución de la variable: son los valores observados y sus
frecuencias.
• Método de selección: es el método empleado para seleccionar los
hogares que van a ser observados, por ejemplo muestreo aleatorio
simple sin reposición.

19
Q

Niveles de medida de las variables de más débil a más fuerte.

A

Nominal
Ordinal
Intervalo
Razón

20
Q

Nivel de medida de variable nominal

A

Cada valor de la variable nominal corresponde a una categor´´ia de la variable; por lo generla de manera arbitraria.

Estadísticos habituales: frecuencia y porcentajes.

Ej. 1 = hombre, 2 = mujer. Aunque estamos usando los números 1 y 2, estos no indican cantidad.

21
Q

Nivel de medida de variable Ordinal

A

Cada valor representa orden o ranking.

Ej. 1 = primero, 2 = segundo

Se sabe el lugar pero no el cuánto de eso.

Estadísticos habituales: frecuencia, procentajes, moda y la mediana.

22
Q

Nivel de medida de variable Intervalo

A

Incremento de una unidad en el valor numérico
representa el mismo cambio en la magnitud medida

Estadísticos habituales: media, desviación típica y la mediana.

Ej. Salario, temperatura, etc.

23
Q

Nivel de medida de variable Razón

A

Mismas propiedades que intervalo pero un punto cero significativo que representa ausencia completa de característica medida.

Ej. Edad o ganancias anuales de una persona.

24
Q

Cuándo usar tabla de frencuencias

A

Adecuado en análisis de variables con nivel de medida nominal u ordinal.

Frecuencia absoluta
Medida estadística que da información sobre la cantidad de veces que se repite un suceso en un número determinado de experimentos aleatorios. Se representa con las letras f e i.

Frecuencia relativa

25
Q

Tabla de frecuencia de doble entrada

A

Al estar observando dos caracteres simultáneamente en un estudio estadístico.

Representados por x e y (variable estadística bidimensional)

26
Q

Resumen

A
27
Q

Media aritmética

A

Es la suma de todos los valores de la distribución dividida por el número total de datos

28
Q

Propiedades de la media aritmética

A

Propiedades de la media aritmética:
• La media aritmética va en las mismas unidades que la variable
observada.
• Si a todos los valores de la variable les sumamos una constante, la
media aritmética queda aumentada en dicha constante.
• Si a todos los valores de la variable les multiplicamos por una constante,
la media aritmética quedara multiplicada por dicha constante.
• La suma de las desviaciones de los valores de la variable a su media es
0

29
Q

Ventajas y desventajas de la media artimética

A
Ventajas de la media aritmética: 
• En su cálculo intervienen todos los valores de la variable. 
• Es única. 
• Siempre es calculable.
• Es de fácil interpretación.

La media aritmética es la medida más adecuada para el resumen de variables
de escala y proporciones.

Inconvenientes de la media aritmética:
• Es muy sensible a valores anormalmente altos o bajos pudiendo inducir
a conclusiones poco atinadas.