Ciclo 1- correlación, regresión, pruebas t, anova Flashcards

1
Q

Ejemplos de preguntas en las que se comparen dos o más grupos

A
  1. ¿qué diferencias hay en (variable dependiente) según (grupos)?
  2. ¿Hay diferencias en (variable dependiente) entre (grupo 1) y (grupo 2)?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Ejemplos de preguntas que relacionen 2 o más variables:

A
  1. ¿Qué relación hay entre x1 y x2?
  2. ¿Qué tanto las variables x1, x2, x3, explican (la variable dependiente Y)?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cuáles son las medidas de tendencia central

A

Media (promedio), moda, mediana

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cuáles son las medidas de dispersión

A
  • Máx y min
    -Desviación estandar
  • Varianza
  • Rango inter-cuartil
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

La interpretación de Cohen para el r de pearson

A

Cohen:
- Un r bajo: 0.1
- Un r media: 0.3
- Alto: r: 0.5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Las correlaciones se hacen entre variables _______

A

Continuas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Cuál sería una pregunta de correlación

A

¿qué relación hay entre?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Si las variables independientes son categoricas se realiza:

A

Chi cuadrado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cuando las variables independientes están relacionadas (correlacionadas) entre sí es un problema de:

A

Multicolinealidad

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qué significa un puntaje z igual a cero

A

Implica que está dentro de la media.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qué significa que exista una correlación alta (gráficamente)

A

Se acercan más a la línea.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Por qué no hablamos de x “afecta” y

A

Se habla de asociación entre variables, no significa causalidad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Cuáles son las tres maneras en las que la correlación puede relacionar variables

A
  • A causa b
  • B causa a
  • O hay una tercera variable que las relaciona
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qué significa el r de Pearson y qué valores puede tomar

A

forma de evaluar la magnitud o fuerza de la relación entre dos variables cuantitativas que están siendo correlacionadas.

No tiene que ver con la inclinación de la pendiente.
- Entre -1 y 1
- O no hay correlación

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qué pasa con las hipótesis cuando p es significativo en correlaciones

A
  • p: significativo?
  • H0: nula: correlación= 0
  • Ha: alterna: correlación es diferente de cero.

Si es diferente de cero: rechazo la hipotesis nula.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

P < 0.05, es decir

A
  • P pequeño: es bueno: tengo muy poca probabilidad de equivocarme al decir que hay correlación.
  • Qué tan probable es que aleatoriamente los datos se organicen de esa manera.
  • P de lunares de rector: debe ser alto: porque es aletatorio.
  • P < 0.05, es decir, la probabilidad menos del 5%: entonces rechazo la hipotesis nula. La relación es significativa entre estas dos variables.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Likert con más de cuatro ya lo hace continua. ¿Verdadero o falso?

A

Verdadero

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Procedimiento para correlaciones

A
  1. Identificar tres variables continuas
  2. Preguntas de investigación: “qué relación hay entre (variables)”
  3. Hipotesis conceptuales de cómo se imaginan que va a dar esto: hipotesis conceptuales:
    a. Me imagino que hay relación entre satisfacción y cantidad de créditos
    1. Hacer tabla de correlaciones
    2. Dio significativo? X3
    3. Rx3, ¿dio bajo, medio o alto?
  4. Respuesta a preguntas de investigación
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

**No es no hay correlación, sino que no se encuentra. ¿Verdadero o falso?

A

Verdadero: es no se encuentra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

En regresión lineal, los verbos que se emplean son:

A

Predice, explica, correlaciona, relaciona, asocia,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Cómo se interpretaría un r=0.4 según Cohen

A
  • Si por ejemplo es 0.4: está entre un puntaje medio y alto.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Cómo se interpreta un p=0.055

A
  • P significativo: p= .055: se dice que es una tendencia que no alcanza a ser significativo. Se explica porque la muestra es pequeña.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Cómo se reporta una correlación

A

como puede verse en la tabla 1, se encontró una correlación positiva (+ o -), mediana (según cohen) y significativa (p<0.05) entre importancia de la religión y satisfacción con la vida (r=.262; p<.001)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Cómo se reporta una correlación que no es significativa

A
  • Sin embargo, no se encontró una correlación significativa entre edad e importancia de la religión (r=0.22; p=0.719).
    Ahí no se da más información sobre el resto de cosas porque realmente no importa.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Cuál es el método para encontrar el modelo en regresión lineal

A

Buscar la recta (modelo) que minimice la suma de errores cuadrados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Qué significa el R cuadrado

A

el R cuadrado indica cuánta varianza en la variable dependiente puede ser “explicada” o “capturada” por el modelo de regresión. Varía en un rango de 0 a 1, o a veces se expresa en forma de porcentaje (0% a 100%).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Qué significa un R cuadrado = 0

A

Esto significa que el modelo de regresión no explica ninguna variabilidad en la variable dependiente. En otras palabras, el modelo no es útil para hacer predicciones o explicaciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Qué significa R^2 = 1

A

Esto significa que el modelo de regresión explica toda la variabilidad en la variable dependiente. Es extremadamente raro alcanzar un R^2 de 1 en la práctica y, por lo general, indica que el modelo es demasiado complejo o está sobreajustado a los datos.

29
Q

R^2 =1− (Varianza total de la variable dependiente/
Varianza no explicada por el modelo)

Cómo se puede interpretar​

A

El R cuadrado se calcula mediante la comparación de la varianza de los valores predichos por el modelo de regresión con la varianza de los valores reales de la variable dependiente

30
Q

Cómo se reporta un modelo de regresión lineal

A

El modelo de regresión lineal fue significativo, F(1, 98) = 25.43, p < 0.001, R^2 = 0.206. Esto indica que el modelo fue capaz de explicar el 20.6% de la variabilidad en los puntajes de los exámenes de matemáticas.

La cantidad de horas de estudio semanal se asoció significativamente con los puntajes en el examen de matemáticas (B = 5.32, SE = 1.05, p < 0.001). Esto sugiere que por cada hora adicional de estudio semanal, se espera un aumento de 5.32 puntos en el puntaje del examen de matemáticas.

31
Q

Cuáles son los supestos de la regresión lineal múltiple: (lista)

A
  1. Muestra representativa
  2. Dependiente continua
  3. Independiente relevantes
  4. Relaciones lineales.
  5. Aditividad
  6. Normalidad
  7. Homocedasticidad
  8. Independencia entre predictoras: no multicolinealidad
  9. Independencia de términos de error.
  10. No endogeneidad.
32
Q

Qué otros nombres reciben la variable dependiente (la que queremos predecir)

A

Criterio

33
Q

Cuáles son los métodos de introducción de variables en regresión multiple y describa

A

las tres primeras son más exploratorias.
- Método intro: todas al tiempo.
- Método hacia adelante: las que mejor correlacionan primero.
-Método hacia atrás: excluir primero las que peor correlacionan.
- método de bloques: bloques de variables (ej: sociodemografica, las qu emás interesa, las de control).

34
Q

Cuál es la diferencia entre R cuadrado y R cuadrado ajustado

A

la principal diferencia entre R cuadrado y R cuadrado ajustado radica en cómo manejan la complejidad del modelo. R^2 es una medida simple de bondad de ajuste que no penaliza la inclusión de variables adicionales, mientras que R^2 ajustado ajusta la medida para tener en cuenta el número de variables en el modelo, lo que lo hace más útil para comparar modelos con diferentes números de predictores y evitar el sobreajuste.

35
Q

Cuál es la diferencia hay entre las pruebas t y ANOVA

A

Las pruebas t son apropiadas para comparar dos grupos, mientras que el ANOVA es más adecuado cuando se tienen tres o más grupos.

36
Q

Cuáles son los supuestos de las pruebas t de muestras independientes

A
  1. Las muestras son independientes: seleccionadas aleatoriamente
  2. Distrubución cuasi -normal o muestra grande (30 personas)
  3. Varianzas similares de los dos grupos:
37
Q

Cuando existen problemas con el supuesto de distribución cuasi normal o muestra grande de las pruebas t, cuál es la alternativa:

A

Si la distribución no es normal, si hay menos de 30. Entonecs: hacer U de Mann-whitney

38
Q

Cuando existen problemas en el supuesto de varianzas similares de los grupos en pruebas t, cuáles son las alternativas

A

a. Si no son iguales no se puede hacer (aparece el test levene que sugiere que hay una violación para el supuesto de vianzas igual) y hay que hacer ajustes

b. Si no son similares las varianzas: Hay una prueba para eso prueba de welch

39
Q

Cuál es la medida que se utiliza para saber cual es el mejor modelo de regresión lineal

A

R cuadrado ajustado

40
Q

Cuál es la medida que se utiliza para saber cuanta varianza explica el modelo

A

R cuadrado

41
Q

Antes de hacer el modelo de RL es recomendable introducir las variables en:

A

La matriz de correlaciones.

Sobre todo para evitar problemas de multicolinealidad.

42
Q

Lo más importante para saber qué variables dejar o quitar en un modelo de regresión lineal es:

A

Importa más que las variables sean significativas a que el r cuadrado ajustado mejore.

43
Q

Cuáles son las razones para quitar missing values

A

Cuando es evidente que es un error o cuando hay datos que faltan.

44
Q

Qué tipo de pruebas t existen

A
  • muestras independientes
  • dependientes o pareadas o relacionadas (esto último es pre post: quiere ver el cambio. Persona A en el pre con persona A en el post).
45
Q

Sobre los supuestos de pruebas t se puede decir que:

A

Tienen muy pocos supuestos y si se violan no es tan grave

46
Q

Cómo se reporta un anova

A

El ANOVA reveló diferencias significativas en la altura de las plantas de maíz entre los tres tipos de fertilizantes (F(2, 87) = 7.24, p < 0.001). Esto indica que al menos un tipo de fertilizante es significativamente diferente de los otros en términos de su efecto en el crecimiento de las plantas de maíz.

A continuación, se detallan los resultados de las pruebas post hoc de Tukey para comparar las medias entre los grupos y determinar cuáles son significativamente diferentes entre sí:

Pruebas Post Hoc (Prueba de Tukey):

Fertilizante A vs. Fertilizante B: La diferencia en la altura de las plantas entre Fertilizante A y Fertilizante B fue significativa (p = 0.012).
Fertilizante A vs. Fertilizante C: La diferencia en la altura de las plantas entre Fertilizante A y Fertilizante C fue significativa (p < 0.001).
Fertilizante B vs. Fertilizante C: La diferencia en la altura de las plantas entre Fertilizante B y Fertilizante C fue significativa (p = 0.025).

47
Q

Qué significa el F value de anova

A

F= MSW/MSB

Donde:
- MSB (Mean Square Between) es la media de las diferencias entre las medias de los grupos.

  • MSW (Mean Square Within) es la media de las varianzas dentro de los grupos.

El estadístico F se utiliza para evaluar si las diferencias entre las medias de los grupos (o factores) son estadísticamente significativas. Un valor grande de F indica que las diferencias entre los grupos (o factores) son más grandes que las diferencias dentro de los grupos, lo que sugiere que al menos un grupo (o factor) es significativamente diferente de los demás.

48
Q

Qué pasa con los anovas cuando las desviaciones estandar de los grupos son muy grandes

A

Cuando las desviaciones estándar de los grupos en un análisis de varianza (ANOVA) son muy grandes en comparación con las diferencias entre las medias de los grupos, pueden ocurrir varios efectos y consideraciones:

Inflación de la estadística F: Cuando las desviaciones estándar son grandes, el denominador de la estadística F (el MSW, Mean Square Within) aumenta, lo que puede resultar en una estadística F más pequeña. Esto puede llevar a una disminución de la probabilidad de encontrar diferencias significativas entre los grupos, incluso si realmente existen diferencias en las medias.

Menor poder estadístico: La presencia de desviaciones estándar grandes puede reducir la capacidad del ANOVA para detectar diferencias significativas entre los grupos, lo que se conoce como “poder estadístico”. Esto significa que es menos probable que el ANOVA identifique efectos reales si las desviaciones estándar son extremadamente altas.

Mayor variabilidad dentro de los grupos: Las desviaciones estándar grandes indican que hay una gran variabilidad dentro de cada grupo. Esto puede hacer que sea más difícil distinguir las diferencias entre los grupos de la variabilidad natural dentro de cada grupo, lo que puede llevar a conclusiones erróneas sobre la significancia de los efectos.

Posibles violaciones de supuestos: Un ANOVA asume que las varianzas dentro de los grupos son aproximadamente iguales (homocedasticidad) y que las distribuciones de las observaciones son aproximadamente normales. Desviaciones estándar extremadamente grandes pueden violar estas suposiciones, lo que podría invalidar los resultados del ANOVA.

Consideración del tamaño de muestra: En situaciones con desviaciones estándar muy grandes, es importante considerar el tamaño de la muestra. Un tamaño de muestra grande puede compensar en cierta medida las desviaciones estándar grandes, lo que podría aumentar la capacidad del ANOVA para detectar diferencias significativas.

49
Q

Qué tipos de anovas hay

A
  • Anovas intersujetos: entre grupos distintos
    • Anovas intrasujetos: medidas repetidas
    • Anova mixto: las mismas personas, pero se miden varias veces, hay parte intrasujeto, pero hay varios grupos.
      Grupo experimental y grupo control (intersujeto) y medidas pretest y postest (intrasujeto)
50
Q

Cuáles son las hipotesis en ANOVA

A
  • La h0: todos los promedios son iguales en todos los grupos
    • H1: no todas son iguales: con uno solo que se diferencie se rompe la h0.
51
Q

Cuál es la relación entre p y F en ANOVA

A

p baja si f es grande; p alta si f pequeña

P muy pequeño quiere decir que hay diferencias significativas.

52
Q

¿DÓNDE ESTÁN LAS DIFERENCIAS DE ANOVA?

A

Se hacen los siguientes analisis cuando se encuentra que hay diferencias significativas: POSTHOC
- Tukey
- Bonferroni: si hay muchos grupos la probabilidad de cometer error es alta: esta prueba es más estritcta

53
Q

Cuál es el procedimiento de las ANOVAS

A
  1. Revisar el p del anova: si es menor a 0.05, es significativo
    1. Post hoc:
      a. Tukey: revisar las difrencias significativas a partir del p value
      b. Pedir descriptivos para identificar cuáles son las diferencias.
      c. Resultado: Santafe tiene más creencias que legitiman la agresión instrumental
54
Q

Cuál es la manera de comprobar el supuesto de linealidad en Jamovi

A

Hacer un histograma de variable dependiente split by la variable independiente.

Para hacer esto último hay que cambiar el tipo de variable de continua a nominal.

Después de verificarlo hay que volver a cambiar de nominal a continua.

55
Q

Qué hay que revisar en el histograma de verificación de linealidad entre dependiente e independiente (transformada en nominal):

A
  • Basarse en medianas para ver curvas: bienestar vs alcohol: puede haber una sospecha de linealidad.
    Si existe curvas puede que en los extremos hayan pocas personas: si es así: seguramente no hay una curva. En todo caso es mejor realizar regresión no lineal.
56
Q

Cómo se reporta los problemas de heterocedasticidad:

A
  • Parece haber problemas de heterocedasticidad: hay que chequear si hay muchas personas o no: si hay pocas personas no hay problema.
57
Q

Qué imagen ayuda a interpretar la linealidad en el histograma de dependiente vs independiente:

A

Olas: error aleatorio: se hace la regresión lineal.
Tsunami: si puede ser no linealidad.

58
Q

Cuál es un ejemplo de pregunta al hacer pruebas t

A

“Entre estudiantes de pregrado de la universidad de los andes
¿Cuál es la diferencia entre hombres y mujeres en sus actitudes frente a pensar en otras personas mientras tiene relaciones sexuales con su pareja?”

59
Q

Cuál es el procedimiento para hacer pruebas t

A
  1. Revisar histogramas
  2. Hipotesis:
    a. H0: no hay diferencias entre el promedio de un grupo y el otro
    b. H1: hay diferencias entre los promedios
    c. Qué tan probable es que yo encuentre esos datos si la hipotesis nula se cumple.
    i. Que tanto puedo afirmar algo sobre el universo a partir de la muestra: generalizar afirmaciones sobre el universo con base en la muestra
    ii. P menor a 0.05: la probabilidad de que salgan estos datos como salieron si no hay diferencias. Eso quiere decir hay diferencias. La probabilidad de equivocarme que yo diga que hay diferencias, si la probailidad es pequeña, quiere decir que hay diferencias.
  3. Como son grupos distintos: es independent samples test
    a. Variable de agrupación: género
    b. Le pido descriptivos para saber más.
  4. Reviso p
  5. Luego reviso las medias: me dice cuál es más alto
    a. El promedio de mujeres es más alto.
  6. Se rechaza la hipotesis nula dado porque
    Respuesta a la pregunta: Si hay diferencias entre hombres y mujeres, las mujeres tienden a considerarlo más grave que los hombres
60
Q

Cuál es la formula de t

A

Distribución t: tiene dos parte: una parte es qué tan lejos están los promedios (arriba), y que tan grandes son las desviaciones estandar de los grupos

61
Q

Cuál es la relación entre p y t

A

Cuando t es grande más pequeño es p. Es decir, si la distancia entre los promedios es grande es muy probable que p sea pequeño.

Cuanto mayor sea el valor “t” en comparación con el valor crítico, mayor será la evidencia de diferencias significativas entre los grupos.

62
Q

Cuál es la manera de comparar qué variable explica mejor la variable criterio (dependiente)

A
  • No se pueden comparar los b si tienen diferentes escalas. Para eso hay que estandarizarlas: se genera el beta. Ahí permite comparar qué variable tiene mejor
    ○ Ej: satisfacción con la madre es la que mejor explica la satisfacción con la vida
    Que tanto predice la satisfacción con la vida
63
Q

El estimado o b sirve para explicar

A

○ B: unidades orignales: qué tanto aumenta la variable dependiente si la variable independiente aumenta una unidad

  • Ejemplo: qué tanto aumenta satisfacción con la vida si la variable aumenta una unidad.

-Digame la predicción de la variable Y con las variables x

Si logra mejorar la variable de relación de pareja en una unidad, segun el modelo cuánto aumentaria la satisfacción con la vida

64
Q

Si la pregunta es cuál es la que mejor explica, qué se emplea y cómo se reporta:

A
  • Es mejor usar los betas (estimados estandarizados)
  • Un aumento en una desviación estandar de relación con la madre aumenta en 0.3 desviación estandar de satisfacción con la vida.
  • Los zetas van en desviaciones estandar.
    Intercepto es cero porque el modelo está estandarizado.
65
Q

En regresión multiple cuál es la variable que debe ser necesariamente continua

A

la dependiente.

Las variables independientes pueden ser continuas, dicotomicas (1 o 0) o categoricas (pero requieren tratamiento especial).

66
Q

Lo ideal de una regresión es que la mayoría sean continuas:

A

Verdadero: En jamovi covariadas

○ Categoricas: solo si transformadas en dicotomicas.

67
Q

De qué depende el orden de introducción de variables

A

de si se está haciendo una investigación más confirmatoria o exploratoria.

68
Q

Cómo se resuelve el problema de multicolinealidad

A
  • Soluciones:
    § Cuál es la mejor variable: solo incluir la mejor variable: ver los estimados estandarizados y comparar cuando se saca cada una del modelo.
    § En el caso de que interese ambas: relacion con los padres: crear una nueva variable que es el promedio de las dos.
69
Q
A