Análisis de datos con python Flashcards

1
Q

Números discretos

A

Datos con números enteros (edades, conteos, etc).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Números contínuos

A

Que pueden tomar cualquier valor, pueden tener decimales (temperatura, precios).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Datos numéricos

A

Valores que son representados con números.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Datos categóricos

A

Solo pueden tomar unos valores específicos dentro de una categoría.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Datos categóricos binarios

A

Solo hay dos opciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Datos categóricos ordinales

A

Tienen un orden explícito (ranking del 1-10).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Estimados de locación

A

Nos ayudan a ubicar un valor típico que sea representativo del conjunto de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Estimados de variabilidad (o dispersión)

A

Miden qué tan dispersos están los demás datos respecto al valor típico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Población

A

Totalidad de elementos sobre los que se está haciendo el análisis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Muestra de población

A

Subconjunto o parte de la población en la que se estará llevando a cabo el análisis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Ejemplos de estimados de locación

A

Media, mediana, moda, media truncada, media ponderada, percentiles.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Promedio (mean)

A

Se obtiene sumando todos los datos y luego dividiéndolos entre la cantidad de datos que tenemos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Mediana

A

Se obtiene ordenando de menor a mayor nuestros valores y luego obteniendo el valor que está justo a la mitad de la secuencia.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Valores atípicos

A

Valores que se encuentran tan alejados del valor típico que pueden pensarse como anomalías en nuestro conjunto de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Estimado estadístico robusto

A

Estimado estadístico que no es tan sensible a la presencia de valores atípicos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Cuándo tenemos valores atípicos qué estimado de locación es preferible?

A

La mediana

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Cuándo no tenemos valores atípicos qué estimado de locación podemos utilizar?

A

Promedio o media.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Media truncada

A

Los valores que caen por encima o por debajo de ciertos límites predefinidos se “truncan” o eliminan antes de calcular la media.

1) ordenamos nuestros datos de menor a mayor.
2) truncamos un porcentaje de nuestros datos al inicio y al final. Por ejemplo, si elegimos eliminar el 5% de los datos, eliminaríamos 2.5% de los datos al inicio de la secuencia y 2.5% al final.
3) Con los datos restantes, obtenemos el promedio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Media ponderada

A

Es similar a la media aritmética, pero se asignan pesos a cada valor antes de calcularla.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Desviación estándar

A

Es una medida que nos dice cuánto se separan los datos del promedio.
(Recordar ejemplo de la caja de juguetes)

Es sensible a los valores atípicos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ejemplos de estimados de variabilidad

A

Desviación estándar, varianza, rango, rango intercuartílico (RIC), coeficiente de variación, coeficiente de asimetría.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Cómo se calcula la desviación estándar?

A

1) se obtienen todas las diferencias entre cada valor y nuestro valor típico. 2) Después se eleva cada valor al cuadrado para convertir todos los números en positivos.
3) Se suman todos estos valores.
4) Se dividen entre la cantidad de valores
5) - 1 (ajuste de la formula al trabajar con muestras)
6) y finalmente se saca la raíz cuadrada del valor resultante.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Desviación absoluta de la mediana

A

Estimado de variabilidad más robusto que no se afecta por los valores atípicos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Estadísticos de Orden

A

Estimar la dispersión de nuestros datos ordenándolos de forma ascendente (de menor a mayor).

25
Q

Rango

A

El rango es la diferencia entre el valor mínimo y el valor máximo de nuestro datos.

No es robusto, ya que dentro de ese rango los valores pueden estar distribuidos de muchas maneras distintas.

26
Q

Percentiles

A

Nos ayuda identificar la posición de un valor específico en relación con otros valores en un conjunto de datos ordenados.

En un conjunto de datos, el percentil P es un valor que indica que por lo menos P% de los valores en el conjunto tienen este valor o un valor menor; mientras que (100-P)% de los valores tienen este valor o un valor mayor.

27
Q

Rango intercuartílico

A

Diferencia entre el percentil 75 y el percentil 50.

28
Q

Seaborn

A

Biblioteca de visualización de datos que está construida sobre Matplotlib.

29
Q

Matplotlib

A

Biblioteca de visualización de datos, muy flexible, permite personalizar los gráficos.

30
Q

Boxplots

A

Representación gráfica de cómo se distribuyen los datos, resaltando los valores atípicos.
– Componentes:
1) El rango intercuartílico (RIC): Es la caja. Muestra dónde están el 50% de los datos, desde el primer cuartil (el borde inferior de la caja) hasta el tercer cuartil (el borde superior de la caja).
2) La mediana: Es la línea dentro de la caja y representa el valor que está justo en el medio de todos los datos.
3) Los bigotes: Son líneas que se extienden desde la caja y muestran el rango de la mayoría de los datos. Longitud máxima de 1.5 * Rango Intercuartílico
4) Los valores atípicos: Son puntos que están más allá de los bigotes y pueden indicar datos poco comunes o extremos.

31
Q

¿Qué hacen los percentiles?

A

segmentan nuestros datos en grupos de diferente tamaño de rango pero con la misma cantidad de muestras.

32
Q

tablas de frecuencias

A

segmentan nuestros datos en segmentos que miden lo mismo pero que contienen una cantidad distinta de muestras.

33
Q

Histogramas

A

una tabla de frecuencias hecha gráfica.
X = rangos de datos
Y = rango de conteos

34
Q

Distribución Simétrica

A

Es la que, al ser dividida a la mitad por una línea, tiene un lado izquierdo prácticamente idéntico pero en espejo al lado derecho.

35
Q

Distribución normal

A

La distribución normal tiene un promedio de 0 y una desviación estándar de 1. Se utiliza como estándar para comparar todas las demás distribuciones.

36
Q

Distribución asimétrica

A

Una distribución tiene asimetría positiva (o a la derecha) cuando la “cola” a la derecha de la media es más larga que a la izquierda.

Una distribución tiene asimetría negativa (o a la izquierda) cuando la “cola” a la izquierda de la media es más larga que a la derecha.

37
Q

Distribuciones de cola larga y corta

A

Larga: aquellas cuyas colas (o cola) se extienden mucho más allá de la mayoría de los datos.
Corta: que rápidamente se aproximan a un conteo de 0 alrededor de la media.

38
Q

Distribución Uniforme o Aproximadamente Uniforme

A

Aquella donde la probabilidad de obtener alguno de los valores dentro del rango total es prácticamente la misma.

39
Q

Distribución bimodal

A

Que tiene dos aglomeraciones de datos.

40
Q

Asimetría

A

medida de simetría o asimetría de la distribución de datos

41
Q

Curtosis

A

mide si los datos tienen cola pesada o cola ligera en una distribución .

42
Q

Gráficas de densidad

A

una versión “suavizada” de los histogramas.

visualiza la distribución de datos cuantitativos en un intervalo o período de tiempo continuo.

usa suavizado de kernel para trazar valores, lo que permite distribuciones más suaves suavizando el ruido.

nos puede servir para comparar múltiples distribuciones en la misma gráfica.

43
Q

Gráficas anotadas

A

Con elementos que permiten que sea más comprensible para las usuarias y usuarios.
- titulo
- Nombres de ejes
- Leyendas
- Tamaño de la gráfica
- Dirección de los tics

44
Q

Gráficas de barras

A

Para variables categóricas, no hay rangos sino categorías ya definidas, no hay un orden específico, barras espaciadas.

45
Q

Gráficas de pie

A

Muy poco informativas, no suele utilizarse en análisis más profesionales.

46
Q

Moda

A

La moda es el valor (o los valores) categórico que más se repite en un conjunto de datos.

47
Q

Tablas de contingencia

A

Una tabla de contingencia toma una de las variables categóricas como índice y otra (o más de una) de estas variables para crear columnas. Una tabla de contingencia es básicamente una tabla de conteos dividida por categorías.

48
Q

Correlación entre variables

A

Implica que existe un cierto nivel de dependencia directa o indirecta entre ellas. Si una de las variables cambia de valor, la otra cambia también de una forma parcialmente predecible.

49
Q

Correlación positiva

A

Cuando el aumento de valores en una de ellas está relacionado con el aumento de valores en la otra. También están correlacionadas positivamente si la disminución de valores en una de ellas está relacionado con la disminución de valores en la otra.

50
Q

Correlación negativa

A

Cuando el aumento en los valores de una está relacionado a la disminución de los valores en la otra, y viceversa.

51
Q

Coeficiente de Correlación de Pearson

A

nos sirve para calcular la correlación entre dos variables numéricas, y que depende de la desviación estándar de nuestras variables. Nos indica si la correlación es negativa o positiva, y también la fuerza de esa correlación.

52
Q

Fuerzas de correlación

A

Es un valor entre -1 (correlación negativa perfecta) y 1 (correlación positiva perfecta). 0 indica que no hay ninguna correlación entre las variables (es decir, son totalmente independientes).

Un coeficiente de 0.7, por ejemplo, significa que tienes una correlación bastante fuerte pero no perfecta. Un coeficiente de -0.2 significa que tu correlación es negativa y bastante débil, lo cual podría incluso indicar que es una relación debida al azar.

53
Q

Matriz de correlaciones

A

Cada celda representa la intersección entre la columna y la fila correspondiente. El valor que contiene es el coeficiente de correlación de Pearson. Observa que hay una línea diagonal justo a la mitad de la matriz que contiene puros 1s. Esta diagonal es la intersección de cada variable consigo misma, por lo que obviamente la correlación es perfecta. También observa la redundancia en los datos arriba y debajo de la diagonal.

54
Q

Heatmaps o Mapas de Calor

A

Para representar visualmente nuestra matriz de correlaciones.

55
Q

Scatterplots o Gráficas de Dispersión

A

Grafican una de las variables en el eje x y la otra variable en el eje y de un plano cartesiano. Cada muestra es un punto en el plano que tiene su respectivo valor para x y para y.

56
Q

Pairplots o Gráficas de Pares

A

Los pairplots usan gráficas de dispersión (scatterplots) para graficar todas las posibles combinaciones de relaciones entre las variables de un dataset.

57
Q

Regresión Linear Simple

A

Proceso a través del cual intentamos crear una ecuación que pueda predecir una variable utilizando la otra como punto de partida. Lo interesante es que dicha ecuación representa, (lo adivinaste) una línea en un plano.
Y= mx + b

El objetivo de la regresión linear es encontrar los valores para m y b.

Entre más fuerte sea la relación entre dos variables, más precisa será la predicción.

El proceso a través del cual encontramos los valores para el coeficiente m y el intercepto b se llama ‘entrenamiento’. El algoritmo y los parámetros que estamos utilizando (en este caso los que definen cómo llevar a cabo la regresión linear) los llamamos el modelo.

58
Q

Coeficiente de determinación o R2 (R squared)

A

Una de las medidas que utilizamos para medir la efectividad de nuestro modelo de regresión lineal (valor entre el rango 0 y 1)