Ciclo 1- correlación, regresión, pruebas t, anova Flashcards

Question 1

Q

Ejemplos de preguntas en las que se comparen dos o más grupos

Answer

A

¿qué diferencias hay en (variable dependiente) según (grupos)?
¿Hay diferencias en (variable dependiente) entre (grupo 1) y (grupo 2)?

Question 2

Q

Ejemplos de preguntas que relacionen 2 o más variables:

Answer

A

¿Qué relación hay entre x1 y x2?
¿Qué tanto las variables x1, x2, x3, explican (la variable dependiente Y)?

Question 3

Q

Cuáles son las medidas de tendencia central

Answer

A

Media (promedio), moda, mediana

Question 4

Q

Cuáles son las medidas de dispersión

Answer

A

Máx y min
-Desviación estandar
Varianza
Rango inter-cuartil

Question 5

Q

La interpretación de Cohen para el r de pearson

Answer

A

Cohen:
- Un r bajo: 0.1
- Un r media: 0.3
- Alto: r: 0.5

Question 6

Q

Las correlaciones se hacen entre variables _______

Answer

A

Continuas

Question 7

Q

Cuál sería una pregunta de correlación

Answer

A

¿qué relación hay entre?

Question 8

Q

Si las variables independientes son categoricas se realiza:

Answer

A

Chi cuadrado.

Question 9

Q

Cuando las variables independientes están relacionadas (correlacionadas) entre sí es un problema de:

Answer

A

Multicolinealidad

Question 10

Q

Qué significa un puntaje z igual a cero

Answer

A

Implica que está dentro de la media.

Question 11

Q

Qué significa que exista una correlación alta (gráficamente)

Answer

A

Se acercan más a la línea.

Question 12

Q

Por qué no hablamos de x “afecta” y

Answer

A

Se habla de asociación entre variables, no significa causalidad.

Question 13

Q

Cuáles son las tres maneras en las que la correlación puede relacionar variables

Answer

A

A causa b
B causa a
O hay una tercera variable que las relaciona

Question 14

Q

Qué significa el r de Pearson y qué valores puede tomar

Answer

A

forma de evaluar la magnitud o fuerza de la relación entre dos variables cuantitativas que están siendo correlacionadas.

No tiene que ver con la inclinación de la pendiente.
- Entre -1 y 1
- O no hay correlación

Question 15

Q

Qué pasa con las hipótesis cuando p es significativo en correlaciones

Answer

A

p: significativo?
H0: nula: correlación= 0
Ha: alterna: correlación es diferente de cero.

Si es diferente de cero: rechazo la hipotesis nula.

Question 16

Q

P < 0.05, es decir

Answer

A

P pequeño: es bueno: tengo muy poca probabilidad de equivocarme al decir que hay correlación.
Qué tan probable es que aleatoriamente los datos se organicen de esa manera.
P de lunares de rector: debe ser alto: porque es aletatorio.
P < 0.05, es decir, la probabilidad menos del 5%: entonces rechazo la hipotesis nula. La relación es significativa entre estas dos variables.

Question 17

Q

Likert con más de cuatro ya lo hace continua. ¿Verdadero o falso?

Answer

A

Verdadero

Question 18

Q

Procedimiento para correlaciones

Answer

A

Identificar tres variables continuas
Preguntas de investigación: “qué relación hay entre (variables)”
Hipotesis conceptuales de cómo se imaginan que va a dar esto: hipotesis conceptuales:
a. Me imagino que hay relación entre satisfacción y cantidad de créditos
1. Hacer tabla de correlaciones
2. Dio significativo? X3
3. Rx3, ¿dio bajo, medio o alto?
Respuesta a preguntas de investigación

Question 19

Q

**No es no hay correlación, sino que no se encuentra. ¿Verdadero o falso?

Answer

A

Verdadero: es no se encuentra.

Question 20

Q

En regresión lineal, los verbos que se emplean son:

Answer

A

Predice, explica, correlaciona, relaciona, asocia,

Question 21

Q

Cómo se interpretaría un r=0.4 según Cohen

Answer

A

Si por ejemplo es 0.4: está entre un puntaje medio y alto.

Question 22

Q

Cómo se interpreta un p=0.055

Answer

A

P significativo: p= .055: se dice que es una tendencia que no alcanza a ser significativo. Se explica porque la muestra es pequeña.

Question 23

Q

Cómo se reporta una correlación

Answer

A

como puede verse en la tabla 1, se encontró una correlación positiva (+ o -), mediana (según cohen) y significativa (p<0.05) entre importancia de la religión y satisfacción con la vida (r=.262; p<.001)

Question 24

Q

Cómo se reporta una correlación que no es significativa

Answer

A

Sin embargo, no se encontró una correlación significativa entre edad e importancia de la religión (r=0.22; p=0.719).
Ahí no se da más información sobre el resto de cosas porque realmente no importa.

Question 25

Q

Cuál es el método para encontrar el modelo en regresión lineal

Answer

A

Buscar la recta (modelo) que minimice la suma de errores cuadrados.

Question 26

Q

Qué significa el R cuadrado

Answer

A

el R cuadrado indica cuánta varianza en la variable dependiente puede ser “explicada” o “capturada” por el modelo de regresión. Varía en un rango de 0 a 1, o a veces se expresa en forma de porcentaje (0% a 100%).

Question 27

Q

Qué significa un R cuadrado = 0

Answer

A

Esto significa que el modelo de regresión no explica ninguna variabilidad en la variable dependiente. En otras palabras, el modelo no es útil para hacer predicciones o explicaciones.

Question 28

Q

Qué significa R^2 = 1

Answer

A

Esto significa que el modelo de regresión explica toda la variabilidad en la variable dependiente. Es extremadamente raro alcanzar un R^2 de 1 en la práctica y, por lo general, indica que el modelo es demasiado complejo o está sobreajustado a los datos.

Question 29

Q

R^2 =1− (Varianza total de la variable dependiente/
Varianza no explicada por el modelo)

Cómo se puede interpretar

Answer

A

El R cuadrado se calcula mediante la comparación de la varianza de los valores predichos por el modelo de regresión con la varianza de los valores reales de la variable dependiente

Question 30

Q

Cómo se reporta un modelo de regresión lineal

Answer

A

El modelo de regresión lineal fue significativo, F(1, 98) = 25.43, p < 0.001, R^2 = 0.206. Esto indica que el modelo fue capaz de explicar el 20.6% de la variabilidad en los puntajes de los exámenes de matemáticas.

La cantidad de horas de estudio semanal se asoció significativamente con los puntajes en el examen de matemáticas (B = 5.32, SE = 1.05, p < 0.001). Esto sugiere que por cada hora adicional de estudio semanal, se espera un aumento de 5.32 puntos en el puntaje del examen de matemáticas.

Question 31

Q

Cuáles son los supestos de la regresión lineal múltiple: (lista)

Answer

A

Muestra representativa
Dependiente continua
Independiente relevantes
Relaciones lineales.
Aditividad
Normalidad
Homocedasticidad
Independencia entre predictoras: no multicolinealidad
Independencia de términos de error.
No endogeneidad.

Question 32

Q

Qué otros nombres reciben la variable dependiente (la que queremos predecir)

Question 33

Q

Cuáles son los métodos de introducción de variables en regresión multiple y describa

Answer

A

las tres primeras son más exploratorias.
- Método intro: todas al tiempo.
- Método hacia adelante: las que mejor correlacionan primero.
-Método hacia atrás: excluir primero las que peor correlacionan.
- método de bloques: bloques de variables (ej: sociodemografica, las qu emás interesa, las de control).

Question 34

Q

Cuál es la diferencia entre R cuadrado y R cuadrado ajustado

Answer

A

la principal diferencia entre R cuadrado y R cuadrado ajustado radica en cómo manejan la complejidad del modelo. R^2 es una medida simple de bondad de ajuste que no penaliza la inclusión de variables adicionales, mientras que R^2 ajustado ajusta la medida para tener en cuenta el número de variables en el modelo, lo que lo hace más útil para comparar modelos con diferentes números de predictores y evitar el sobreajuste.

Question 35

Q

Cuál es la diferencia hay entre las pruebas t y ANOVA

Answer

A

Las pruebas t son apropiadas para comparar dos grupos, mientras que el ANOVA es más adecuado cuando se tienen tres o más grupos.

Question 36

Q

Cuáles son los supuestos de las pruebas t de muestras independientes

Answer

A

Las muestras son independientes: seleccionadas aleatoriamente
Distrubución cuasi -normal o muestra grande (30 personas)
Varianzas similares de los dos grupos:

Question 37

Q

Cuando existen problemas con el supuesto de distribución cuasi normal o muestra grande de las pruebas t, cuál es la alternativa:

Answer

A

Si la distribución no es normal, si hay menos de 30. Entonecs: hacer U de Mann-whitney

Question 38

Q

Cuando existen problemas en el supuesto de varianzas similares de los grupos en pruebas t, cuáles son las alternativas

Answer

A

a. Si no son iguales no se puede hacer (aparece el test levene que sugiere que hay una violación para el supuesto de vianzas igual) y hay que hacer ajustes

b. Si no son similares las varianzas: Hay una prueba para eso prueba de welch

Question 39

Q

Cuál es la medida que se utiliza para saber cual es el mejor modelo de regresión lineal

Answer

A

R cuadrado ajustado

Question 40

Q

Cuál es la medida que se utiliza para saber cuanta varianza explica el modelo

Answer

A

R cuadrado

Question 41

Q

Antes de hacer el modelo de RL es recomendable introducir las variables en:

Answer

A

La matriz de correlaciones.

Sobre todo para evitar problemas de multicolinealidad.

Question 42

Q

Lo más importante para saber qué variables dejar o quitar en un modelo de regresión lineal es:

Answer

A

Importa más que las variables sean significativas a que el r cuadrado ajustado mejore.

Question 43

Q

Cuáles son las razones para quitar missing values

Answer

A

Cuando es evidente que es un error o cuando hay datos que faltan.

Question 44

Q

Qué tipo de pruebas t existen

Answer

A

muestras independientes
dependientes o pareadas o relacionadas (esto último es pre post: quiere ver el cambio. Persona A en el pre con persona A en el post).

Question 45

Q

Sobre los supuestos de pruebas t se puede decir que:

Answer

A

Tienen muy pocos supuestos y si se violan no es tan grave

Question 46

Q

Cómo se reporta un anova

Answer

A

El ANOVA reveló diferencias significativas en la altura de las plantas de maíz entre los tres tipos de fertilizantes (F(2, 87) = 7.24, p < 0.001). Esto indica que al menos un tipo de fertilizante es significativamente diferente de los otros en términos de su efecto en el crecimiento de las plantas de maíz.

A continuación, se detallan los resultados de las pruebas post hoc de Tukey para comparar las medias entre los grupos y determinar cuáles son significativamente diferentes entre sí:

Pruebas Post Hoc (Prueba de Tukey):

Fertilizante A vs. Fertilizante B: La diferencia en la altura de las plantas entre Fertilizante A y Fertilizante B fue significativa (p = 0.012).
Fertilizante A vs. Fertilizante C: La diferencia en la altura de las plantas entre Fertilizante A y Fertilizante C fue significativa (p < 0.001).
Fertilizante B vs. Fertilizante C: La diferencia en la altura de las plantas entre Fertilizante B y Fertilizante C fue significativa (p = 0.025).

Question 47

Q

Qué significa el F value de anova

Answer

A

F= MSW/MSB

Donde:
- MSB (Mean Square Between) es la media de las diferencias entre las medias de los grupos.

MSW (Mean Square Within) es la media de las varianzas dentro de los grupos.

El estadístico F se utiliza para evaluar si las diferencias entre las medias de los grupos (o factores) son estadísticamente significativas. Un valor grande de F indica que las diferencias entre los grupos (o factores) son más grandes que las diferencias dentro de los grupos, lo que sugiere que al menos un grupo (o factor) es significativamente diferente de los demás.

Question 48

Q

Qué pasa con los anovas cuando las desviaciones estandar de los grupos son muy grandes

Answer

A

Cuando las desviaciones estándar de los grupos en un análisis de varianza (ANOVA) son muy grandes en comparación con las diferencias entre las medias de los grupos, pueden ocurrir varios efectos y consideraciones:

Inflación de la estadística F: Cuando las desviaciones estándar son grandes, el denominador de la estadística F (el MSW, Mean Square Within) aumenta, lo que puede resultar en una estadística F más pequeña. Esto puede llevar a una disminución de la probabilidad de encontrar diferencias significativas entre los grupos, incluso si realmente existen diferencias en las medias.

Menor poder estadístico: La presencia de desviaciones estándar grandes puede reducir la capacidad del ANOVA para detectar diferencias significativas entre los grupos, lo que se conoce como “poder estadístico”. Esto significa que es menos probable que el ANOVA identifique efectos reales si las desviaciones estándar son extremadamente altas.

Mayor variabilidad dentro de los grupos: Las desviaciones estándar grandes indican que hay una gran variabilidad dentro de cada grupo. Esto puede hacer que sea más difícil distinguir las diferencias entre los grupos de la variabilidad natural dentro de cada grupo, lo que puede llevar a conclusiones erróneas sobre la significancia de los efectos.

Posibles violaciones de supuestos: Un ANOVA asume que las varianzas dentro de los grupos son aproximadamente iguales (homocedasticidad) y que las distribuciones de las observaciones son aproximadamente normales. Desviaciones estándar extremadamente grandes pueden violar estas suposiciones, lo que podría invalidar los resultados del ANOVA.

Consideración del tamaño de muestra: En situaciones con desviaciones estándar muy grandes, es importante considerar el tamaño de la muestra. Un tamaño de muestra grande puede compensar en cierta medida las desviaciones estándar grandes, lo que podría aumentar la capacidad del ANOVA para detectar diferencias significativas.

Question 49

Q

Qué tipos de anovas hay

Answer

A

Anovas intersujetos: entre grupos distintos
- Anovas intrasujetos: medidas repetidas
- Anova mixto: las mismas personas, pero se miden varias veces, hay parte intrasujeto, pero hay varios grupos.
  Grupo experimental y grupo control (intersujeto) y medidas pretest y postest (intrasujeto)

Question 50

Q

Cuáles son las hipotesis en ANOVA

Answer

A

La h0: todos los promedios son iguales en todos los grupos
- H1: no todas son iguales: con uno solo que se diferencie se rompe la h0.

Question 51

Q

Cuál es la relación entre p y F en ANOVA

Answer

A

p baja si f es grande; p alta si f pequeña

P muy pequeño quiere decir que hay diferencias significativas.

Question 52

Q

¿DÓNDE ESTÁN LAS DIFERENCIAS DE ANOVA?

Answer

A

Se hacen los siguientes analisis cuando se encuentra que hay diferencias significativas: POSTHOC
- Tukey
- Bonferroni: si hay muchos grupos la probabilidad de cometer error es alta: esta prueba es más estritcta

Question 53

Q

Cuál es el procedimiento de las ANOVAS

Answer

A

Revisar el p del anova: si es menor a 0.05, es significativo
1. Post hoc:
  a. Tukey: revisar las difrencias significativas a partir del p value
  b. Pedir descriptivos para identificar cuáles son las diferencias.
  c. Resultado: Santafe tiene más creencias que legitiman la agresión instrumental

Question 54

Q

Cuál es la manera de comprobar el supuesto de linealidad en Jamovi

Answer

A

Hacer un histograma de variable dependiente split by la variable independiente.

Para hacer esto último hay que cambiar el tipo de variable de continua a nominal.

Después de verificarlo hay que volver a cambiar de nominal a continua.

Question 55

Q

Qué hay que revisar en el histograma de verificación de linealidad entre dependiente e independiente (transformada en nominal):

Answer

A

Basarse en medianas para ver curvas: bienestar vs alcohol: puede haber una sospecha de linealidad.
Si existe curvas puede que en los extremos hayan pocas personas: si es así: seguramente no hay una curva. En todo caso es mejor realizar regresión no lineal.

Question 56

Q

Cómo se reporta los problemas de heterocedasticidad:

Answer

A

Parece haber problemas de heterocedasticidad: hay que chequear si hay muchas personas o no: si hay pocas personas no hay problema.

Question 57

Q

Qué imagen ayuda a interpretar la linealidad en el histograma de dependiente vs independiente:

Answer

A

Olas: error aleatorio: se hace la regresión lineal.
Tsunami: si puede ser no linealidad.

Question 58

Q

Cuál es un ejemplo de pregunta al hacer pruebas t

Answer

A

“Entre estudiantes de pregrado de la universidad de los andes
¿Cuál es la diferencia entre hombres y mujeres en sus actitudes frente a pensar en otras personas mientras tiene relaciones sexuales con su pareja?”

Question 59

Q

Cuál es el procedimiento para hacer pruebas t

Answer

A

Revisar histogramas
Hipotesis:
a. H0: no hay diferencias entre el promedio de un grupo y el otro
b. H1: hay diferencias entre los promedios
c. Qué tan probable es que yo encuentre esos datos si la hipotesis nula se cumple.
i. Que tanto puedo afirmar algo sobre el universo a partir de la muestra: generalizar afirmaciones sobre el universo con base en la muestra
ii. P menor a 0.05: la probabilidad de que salgan estos datos como salieron si no hay diferencias. Eso quiere decir hay diferencias. La probabilidad de equivocarme que yo diga que hay diferencias, si la probailidad es pequeña, quiere decir que hay diferencias.
Como son grupos distintos: es independent samples test
a. Variable de agrupación: género
b. Le pido descriptivos para saber más.
Reviso p
Luego reviso las medias: me dice cuál es más alto
a. El promedio de mujeres es más alto.
Se rechaza la hipotesis nula dado porque
Respuesta a la pregunta: Si hay diferencias entre hombres y mujeres, las mujeres tienden a considerarlo más grave que los hombres

Question 60

Q

Cuál es la formula de t

Answer

A

Distribución t: tiene dos parte: una parte es qué tan lejos están los promedios (arriba), y que tan grandes son las desviaciones estandar de los grupos

Question 61

Q

Cuál es la relación entre p y t

Answer

A

Cuando t es grande más pequeño es p. Es decir, si la distancia entre los promedios es grande es muy probable que p sea pequeño.

Cuanto mayor sea el valor “t” en comparación con el valor crítico, mayor será la evidencia de diferencias significativas entre los grupos.

Question 62

Q

Cuál es la manera de comparar qué variable explica mejor la variable criterio (dependiente)

Answer

A

No se pueden comparar los b si tienen diferentes escalas. Para eso hay que estandarizarlas: se genera el beta. Ahí permite comparar qué variable tiene mejor
○ Ej: satisfacción con la madre es la que mejor explica la satisfacción con la vida
Que tanto predice la satisfacción con la vida

Question 63

Q

El estimado o b sirve para explicar

Answer

A

○ B: unidades orignales: qué tanto aumenta la variable dependiente si la variable independiente aumenta una unidad

Ejemplo: qué tanto aumenta satisfacción con la vida si la variable aumenta una unidad.

-Digame la predicción de la variable Y con las variables x

Si logra mejorar la variable de relación de pareja en una unidad, segun el modelo cuánto aumentaria la satisfacción con la vida

Question 64

Q

Si la pregunta es cuál es la que mejor explica, qué se emplea y cómo se reporta:

Answer

A

Es mejor usar los betas (estimados estandarizados)
Un aumento en una desviación estandar de relación con la madre aumenta en 0.3 desviación estandar de satisfacción con la vida.
Los zetas van en desviaciones estandar.
Intercepto es cero porque el modelo está estandarizado.

Answer 64

A

la dependiente.

Las variables independientes pueden ser continuas, dicotomicas (1 o 0) o categoricas (pero requieren tratamiento especial).

Answer 65

A

Verdadero: En jamovi covariadas

○ Categoricas: solo si transformadas en dicotomicas.

Answer 66

A

de si se está haciendo una investigación más confirmatoria o exploratoria.

Answer 67

A

Soluciones:
§ Cuál es la mejor variable: solo incluir la mejor variable: ver los estimados estandarizados y comparar cuando se saca cada una del modelo.
§ En el caso de que interese ambas: relacion con los padres: crear una nueva variable que es el promedio de las dos.