Cours 8 Flashcards

1
Q

Qu’est-ce qu’une variable latente?

A

Variable qui n’est pas mesurée directement, qui est inférée par d’autres variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Les équations structurelles sont une famille de techniques permettant d’étudier un ensemble complexe de relations entre une ou plusieurs […] et une ou plusieurs […].

A

Les équations structurelles sont une famille de techniques permettant d’étudier un ensemble complexe de relations entre une ou plusieurs VI et une ou plusieurs VD.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Dans une équation structurelle, chaque VI ou VD peut être mesurée directement (variable […]) ou assumée par un construit (variable […])

A

Dans une équation structurelle, chaque VI ou VD peut être mesurée directement (variable manifeste) ou assumée par un construit (variable latente)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Les techniques utilisées par les équations structurelles consistent en (a) une série de […] ou (b) une combinaison de […] et d’[…]

A

Les techniques utilisées par les équations structurelles consistent en (a) une série de régressions simultanées ou (b) une combinaison de régressions et d’analyse factorielle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Dans les diagrammes des relations des équations structurelles, la variable mesurée/observée/manifeste est représentée par un […]; la variable inférée/non-observée/latente est représenté par un […]; une relation est indiquée par une […]; la direction de la relation est indiquée par la direction de la […]; l’erreur est représentée par un […] et l’erreur de la variable latente est représentée par un […]

A

Dans les diagrammes des relations des équations structurelles, la variable mesurée/observée/manifeste est représentée par un carré/rectangle; la variable inférée/non-observée/latente est représenté par un cercle/ovale; une relation est indiquée par une flèche; la direction de la relation est indiquée par la direction de la flèche; l’erreur est représentée par un E et l’erreur de la variable latente est représentée par un D

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Dans les diagrammes des relations des équations structurelles, une flèche/relation unidirectionnelle indique une relation […] alors qu’une flèche/relation bidirectionnelle indique une […]

A

Dans les diagrammes des relations des équations structurelles, une flèche/relation unidirectionnelle indique une relation causale alors qu’une flèche/relation bidirectionnelle indique une corrélation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelle est la différence principale entre les équations structurelles et l’analyse acheminatoire?

A

Les équations structurelles utilisent des variables latentes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quel figure représente une analyse acheminatoire et laquelle représente des équations structurelles?

A

Figure A: Analyse acheminatoire

Figure B: Équations structurelles

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelles sont les conditions d’utilisation des équations structurelles? (5)

A
  1. Taille d’échantillon (suggestion: 10 sujets par paramètres)
  2. Normalité multivariée
  3. Absence de données extrêmes
  4. Linéarité des relations
  5. Absence de multicollinéarité
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelle est la taille d’échantillon suggérée pour les équations structurelles?

A

Le calcul est effectué selon le nombre de paramètres à estimer, et non selon le nombre de variables

Suggestion: 10 sujets/paramètres

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est-ce qu’un paramètre dans les équations structurelles?

A

Une information qu’on désire estimer: Une moyenne, un coefficient de régression (B), une variance ou une covariance. Dans le cas des équations structurelles, c’est le nombre de flèches dans les modèles d’équations structurelles (donc les coefficients)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que représente ce graphique?

A

Matrice variance-covariance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

VRAI ou FAUX

Dans les équations structurelles, on doit avoir moins de paramètres que d’information

A

VRAI

Dans les équations structurelles, on doit avoir moins de paramètres que d’information.

Ici, on a 11 paramètres et 15 informations (10 covariances et 5 variances)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

VRAI ou FAUX

On peut refaire l’équation structurelle seulement à partir de la matrice de variance/covariance.

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quelles sont les étapes d’une équation structurelle?

A
  1. Identifier les variables endogènes (VD) et exogènes (VI)
  2. Traduire le modèle en une série de régressions linéaires (modèle de mesure et modèle structurel)
  3. Calculer le nombre de paramètres à estimer
  4. Estimation des paramètres par maximum de vraisemblance (maximum likelihood)
  5. Valeur des paramètres (coefficients de régression) brutes ou standardisés
  6. Test statistique pour vérifier si chaque paramètre est significativement différent de zéro
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce qu’une variable endogène et exogène?

A

Variable endogène: Variable dépendante, qui est expliquée. Variables qui reçoivent les flèches (V1-V4 et V5)

Variable exogène: Variable indépendante, explique le phénomène. Variables qui envoient les flèches (F1 et F2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Que veut-on dire par “Traduire le modèle en une série de régressions linéaires”?

A

On transforme notre modèle en deux différents modèles (ce sont des régressions qu’on fait simultanément):

  1. Modèle de mesure: Série de régression qui crée ma variable latente. Donc on peut créer un score factoriel pour mon premier et second facteur (F1 et F2)
  2. Modèle structurelle: Modèle qui capture les relations qui m’intéressent (la question de recherche). Donc, je fais ma régression simple sur les scores factoriels obtenus plus tôt, mais ne prend pas en compte l’erreur (donc moins précis).

* Dans ces formules, le B représente le paramètre qu’on estime (poid de chaque flèche)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Expliquez l’estimation des paramètres par maximum de vraisemblance (maximum likelihood)

A

Méthode d’estimation pour obtenir les valeurs les plus plausibles des 11 (exemple) paramètres permettant de minimiser les différences entre la matrice de variance covariance observée et celle postulée par le modèle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Comment vérifie-t-on si le modèle utilisé en équation structurel reproduit adéquatement les relations existantes entre les variables (i.e. matrice de variance-covariance)?

A
  1. Examiner les covariances « résiduelles » (la partie de la matrice de variance covariance qui n’est pas expliquée par le modèle testé): Quelle est la différence entre la matrice de corrélation prédite par notre modèle et la réalité?
  2. Test de Khi-Carré: Vérifier le degré de similarité entre la matrice VC observée et celle estimée: On souhaite obtenir un khi-carré non significatif, indiquant que les deux matrices sont similaires.
  3. Ajustement relatif: Vérifier jusqu’à quel point le modèle obtenu est meilleur qu’un modèle postulant une absence complète de relations entre les variables (Comparative fit index (CFI); Tucker-Lewis Index (TLI))
  4. Variance résiduelle: Estimer la différence standardisée entre les corrélations prédites et observées (SRMR, ou même RMSEA)
20
Q

Que représente ces deux graphiques?

A

Une test de qualité de l’ajustement de notre modèle (si il prédit proche de la réalité). On prend la matrice variance/covariance réelle et on y soustrait la matrice variance/covariance prédite.

-> Plus le chiffre dans la matrice du bas est haut, plus il y a un problème car on est loin de la réalité

21
Q

VRAI ou FAUX

Le test de khi carré comme test de la qualité d’ajustement de notre modèle d’équation structurelle est un test très conservateur et rarement significatif avec les modèles complexes (avec beaucoup de paramètres)

A

FAUX

Le test de khi carré comme test de la qualité d’ajustement de notre modèle d’équation structurelle est un test très sensible et souvent significatif avec les modèles complexes (avec beaucoup de paramètres)

22
Q

Qu’est-ce que le Comparative fit index (CFI) et le Tucker-Lewis index (TLI) et comment l’interprète-t-on?

A

Indice de l’ajustement relatif (qualité de l’ajustement de notre modèle).

Ce sont des indices entre 0 et 1. Une valeur de .95 indique un bon modèle, alors qu’un modèle de .9 est un modèle acceptable (ne pas aller sous ce seuil)

23
Q

Qu’est-ce que le RMSEA et le SRMR et comment l’interprète-t-on?

A

RMSEA: Residual Mean Square Error of Approximation

SRMR: Standardized Root Mean Square Residual

Indice entre 0 et 1. Un valeur < 0.08 indique un bon modèle

24
Q

Si notre mesure de qualité de l’ajustement nous indique qu’il y a un problème, qu’est-ce que cela signifie?

A

Notre matrice résiduelle nous dit qu’il y a un bon résidu de covariance entre V1 et V5 (exemple) donc probablement qu’il y a une relation qui n’a pas été prise en compte. On peut refaire notre modèle en y ajoutant une relation et voir la différence.

25
Q

Quel est le but des analyses multi-groupes en équations structurelles?

A

Aussi nommé Analyse d’invariance factorielle

Vérifier si les relations postulées entre les variables sont similaires pour 2+ groupes (i.e., variable modératrice).

-> L’idée est de prendre chacune des flèches (poids de nos paramètres) et on va les forcer à avoir la même valeur pour nos groupes (ex: séparer en fonction du sexe). Si avec cette contrainte j’obtiens un mauvais fit dans mes données, on a une preuve qu’il y a un effet de modération.

*Conceptuellement, ce test équivaut à postuler que l’hypothèse nulle que chaque paramètre du modèle est identique pour les 2+ groupes*

26
Q

Quelles sont les étapes de l’analyse multi-groupe en équation structurelle? (3)

A
  1. Appliquer une contrainte forçant l’égalité entre les groupes pour chaque paramètre
  2. Vérifier si l’ajustement du modèle ne se détériore pas significativement suite à l’application des contraintes
  3. Une détérioration signifie que l’hypothèse d’égalité n’est pas valide statistiquement et donc que les relations sont différentes selon le groupe.
27
Q

À quoi sert les regroupements latents?

A

Identifier des sous-populations qui ne sont pas mesurées directement (i.e., latentes). Je ne sais pas quels sont les distributions dans la population où elles existent, mais je viens justement les tester.

28
Q

Quel est donc le but des analyses de regroupements latents?

A

Les analyses ont pour but d’identifier (1) la proportion et (2) les paramètres de ces k sous-populations (des regouprements qui ressortent)

29
Q

VRAI ou FAUX

L’analyse des regroupements latents sont basés sur les variables et non les personnes

A

FAUX

L’analyse des regroupements latents sont basés sur les personnes et non les variables

-> On cherche des paquets d’individus qui se ressemblent

30
Q

Quelle est la principale différence entre l’analyse de regroupements latents et l’analyse factorielle?

A

Analyse de regroupements latents: On cherche des paquets d’individus qui se ressemblent, on classifie des individus

Analyse factorielle: On cherche des paquets de variables qui se ressemblent, on classifie des variables

Comme nous tentons d’identifier la population d’appartenance, on dira que ce sont des analyses « centrées sur les personnes » plutôt que « sur les variables » (comme les analyses factorielles).

31
Q

VRAI ou FAUX

Les analyses de regroupements latents sont basées sur un modèle statistique model based clustering ). Il est donc possible de connaitre la qualité d’ajustement du modèle avec les données, et faire de l’inférence (test d’hypothèse) sur (1) le nombre de classes et (2) la signification de chaque paramètre.

A

VRAI

Les analyses de regroupements latents sont basées sur un modèle statistique model based clustering ). Il est donc possible de connaitre la qualité d’ajustement du modèle avec les données, et faire de l’inférence (test d’hypothèse) sur (1) le nombre de classes et (2) la signification de chaque paramètre.

32
Q

Quelle est la différence entre l’analyse de regroupements latents, l’analyse de cluster et l’analyse hiérarchique puisqu’ils se basent tous sur le regroupement d’individus?

A

L’analyse de cluster et hiérarchique est basée sur des mesures de “distance” entre les sujets. Ce sont plutôt des analyses descriptives qui demandent des variables continues (pour les mesures de distance).

Les analyses de classes/regroupements/proils latents sont basées sur des modèles statistiques.

33
Q

Complétez cette image

(Analyse de classes latentes; analyse factorielle; Analyse de profils latents, Modèle EQs)

A

A. Analyse factorielle

B. Modèle EQs

C. Analyse de profils latents

D. Analyse de classes latentes

34
Q

Les analyses de classes (LCA) ou de profils latents (LPA) sont des analyses qui assument que les variables latentes sont […] ([…] ou […]) et non […].

A

Les analyses de classes (LCA) ou de profils latents (LPA) sont des analyses qui assument que les variables latentes sont catégorielles (nominale ou ordinale) et non continues.

35
Q

À quoi réfère ces questions de recherche?

Déterminer le nombre de sous populations latentes selon une série d’indicateurs catégoriels ou continues
Caractériser chacune de ces sous populations en examinant les patrons de fréquences ou de moyennes

A

Déterminer le nombre de sous populations latentes selon une série d’indicateurs catégoriels (Analyse de classes latentes) ou continues (Analyse de profils latents)
Caractériser chacune de ces sous populations en examinant les patrons de fréquences (Analyse de classes latentes) ou de moyennes (Analyse de profils latents)

*En gros: Est-ce qu’il y a des sous-populations et si oui quelles sont les
proportions de celles-ci?

36
Q

À quoi réfère cette équation? Expliquez là.

A

Modèle fini de mélanges (mixture modeling): Analyse en profils latents

f = loi de la distribution des variables (catégorielle = LCA ou continue = LPA)

  • > Dit que la distribution de toutes mes variables (X1 à Xp (parce qu’on a X dimension)) ensemble est une somme/mélange d’une série de distributions (donc un mélange de sous-populations)
  • *x** = variable dépendante
  • *p** = nombre de variables dépendantes
  • *C** = nombre de classes (sous populations) (ex: Si parle de sexe, 2 classes donc C = 2)
  • *w** = poids de chaque classe/sous-population (sa prévalence dans l’échantillon total). Donc E 𝑤𝑖= 1

* Pourquoi on obtient des f différents? Parce que chaque distribution est différente, a ses propres caractéristiques (mpeme si, par ex, 2 distributions normales).

** La distribution propre est la pondération de chacune de mes distributions, donc je m’intéresse à leur poid, moyenne et écartype/variance.

37
Q

Quel est le problème principale avec l’analyse en profils latents? Quelle est la solution?

A

Le problème de l’analyse en profil latent est un problème de données manquantes (on a l’ordonnée, on sait qu’il y a différentes sous-populations, mais on ne sait pas lesquelles).

-> On va utiliser un algorithme de gestion de données manquantes, ici algorithme EM.

38
Q

À quoi sert l’algorithme EM dans l’analyse en profils latents?

A

Sert à l’estimation des paramètres afin de gérer les données manquantes.

L’algortihme EM va partir avec des définitions de classes qui ne sont pas claires et à chaque itération il va apprendre à trouver les données qui sont proches et au fur et à mesure que ça avance, il va apprendre à distinguer correctement les deux populations.

39
Q

Partie importante à retenir dans les analyses en profils latents:

  • > L’algorithme EM trouve les différences et la […] des sous-populations
  • > L’algorithme EM est un algorithme de […]
A

Partie importante à retenir dans les analyses en profils latents:

  • > L’algorithme EM trouve les différences et la proportion des sous-populations
  • > L’algorithme EM est un algorithme de données manquantes
40
Q

Quelles sont les étapes de l’analyse en profils latents?

A

En pratique, on fait une série de modèles avec nombre croissant de classes (1,2,3…classes) et on choisi le modèle avec les meilleurs indices d’ajustement et une bonne interprétabilité.

  1. Approche similaire à l’analyse factorielle (juste équilibre entre critères statistiques et interprétabilité)
  2. Indices d’ajustement du modèle (AIC et SBC)
  3. Séparation des classes (entropie): Si chacune des classes est bien séparée, distinctes des autres
  4. Taille de chaque classe
    1. Objectif d’obtenir des classes « généralisables à la population ». Donc, éviter des classes de proportion trop petite (p.ex., < 5%) car cela peut indiquer un “outlier” (données/classes extrêmes).
  5. Test statistique du nombre de classes (LMR test): Vient nous dire si ça vaut la peine de rajouter des classes à notre modèle (ce qui n’est pas fait par les autres analyses statistiques)
    1. Teste la différence de la vraisemblance d’un modèle à k classes versus k 1 classes.
      1. Le test de Lo Mendell Rubin (LMR) produit une p valeur qui nous permet de tester si ça vaut la peine d’ajouter une classe
41
Q

Qu’est-ce que le Akaike Information Criteria (AIC), le Bayesian Information Criteria (BIC) ainsi que l’entropie? À quoi sert-ils et comment les interprète-t-on?

A

Permet de déterminer le nombre de classes distinctes dans l’analyse en profils latents.

Indices relatifs (plus bas):

Akaike Information Criteria (AIC): -2LL + 2P

Bayesian Information Criteria (BIC): -2LL+ln(N)P

  • LL = vraisemblance (à quel point il y a un mauvais fit)*
  • ¨P: Pénalité qui est appliqué en fonction du nombre de paramètres utilisés (donc P = # paramètres)*
  • * Tout modèle estimé avec un maximum de vraisemblance vont créer un AIC et un BIC car ce sont des tests classiques.*
  • * Le BIC et AIC va diminuer au fur et à mesure qu’on ajoute des classes, mais de moins en moins (indicateur si on doit continuer à ajouter des classes ou non)*

Indices absolus:

Entropie (0-1), 1 = séparation parfaite (au dessus de .8 = Bon)

Attention : ces indices ne sont pas standardisés (valide uniquement pour comparer le même modèle selon un nombre différent de classes)

42
Q

Les gens ont tendance à prioriser le […] car il y a aussi une pénalité entre fonction du nombre d’échantillon (N; il est plus conservateur). Il arrête donc de baisser plus rapidement. Le […] peut avoir tendance à continuer de baisser même lorsque le […] continue.

A

Les gens ont tendance à prioriser le Bayesian Information Criteria (BIC) car il y a aussi une pénalité entre fonction du nombre d’échantillon (N; il est plus conservateur). Il arrête donc de baisser plus rapidement. L’Akaike Information Criteria (AIC) peut avoir tendance à continuer de baisser même lorsque le BIC continue.

43
Q

Quels informations peut-on tirer de cette sortie LPA (Analyse de profils latents)? (5)

A
  1. Nbr de participants: 369
  2. Nbr de variables dépendantes: 4
  3. Nombre de variables catégorielles latentes: 1
  4. J’ai 4 variables manifestes continues: “DOM”, “LEAD”, “COMP”, “AMB”
  5. J’ai une variable catégorielle latente : “C”
44
Q

Quels informations peut-on tirer de cette sortie LPA (Analyse de profils latents)? (3)

A
  1. ” The best loglikelihood value… the best loglikelihood is still obtained and replicated.”: La meilleure solution de l’algorithme EM a été atteinte. On peut donc interpréter nos résultats
  2. “Information Criteria”: Ici, on veut que les chiffres baissent entre l’analyse 1 classe, 2 classes et 3 classes. Si ces indices (AIC et BIC) diminuent, ça veut dire que l’ajout de la classe vaut la peine. Par contre, la baisse classe 2-3 est moins importante que classe 1-2 (not pictured) donc attention, maybe problématique.
  3. ” Final class counts […] based on the estimated model”:
    1. Dans la 1e classe, il y a 37% de la population (0.37543)
    2. Dans la 2 classe, il y a 21% de la population (0.20932): Petite taille, donc maybe problématique
    3. Dans la 3e classe, il y a 41% de la population (0.41525)
45
Q

Quels informations peut-on tirer de cette sortie LPA (Analyse de profils latents)? (3)

A
  1. “Classification Quality”: Indice d’entropie! Plus c’est près de 1, c’est bon. Ici, on voit qu’il y a encore de la confusion entre les classes.
  2. “Class counts and proportions”:
    1. J’ai 142 personnes dans ma première classe
    2. J’ai 73 personnes dans ma deuxième classe
    3. J’ai 154 personnes dans ma troisième classe
  3. “Average Latent Class Probabilities for Most Likely Latent Class Membership (Row) by Latent Class (column)” : Permet de voir où il y a du chevauchement entre nos classes. L’analyse fait une prédiction pour chaque personne.
    1. En rangée (probabilité de rangement dans une classe)
    2. En colonne (probabilité de classe prédite (probabilité pour chaque classe par participants moyenne par classe; donc ambivalence de classe ici)).
    3. La classe qui a la plus forte prédiction pour un participant lui sera attribué. Sujet 1 80% dans classe 1, 10% dans classe 2, 9% dans classe 3. Ici la classe la plus séparée (qui a le moins d’ambiguité) est la classe 3 (90% de moyenne de probabilité de classement, 10% d’erreur séparé 9% dans classe 1 et 1% dans classe 2). Le problème est entre la classe 1 et 2 car elles ont 10% d’erreur entre elles.
46
Q

Quels informations peut-on tirer de cette sortie LPA (Analyse de profils latents)?

A

Pour la classe 1 voici mes moyennes et mes écart-types. Me donne un point de départ.

On voit que j’ai un groupe qui semble avoir un leadership faible et un élevé (la moyenne de leadership). Il y a aussi une différence avec la compétitivité et la Domination… On voit que une classe leadership faible avec une composante autre élevée.

47
Q

Quels informations peut-on tirer de cette sortie LPA (Analyse de profils latents)? (1)

A
  1. Est-ce que l’ajout des classes est significatifs?
    - > Non (Lo-Mendell-Rubin = p = 0.1368 > 0.05).

ATTENTION: Par contre BIC et AIC dit que oui (il y a une baisse entre classe 2 et 3). Donc c’est le chercheur ici qui prend la décision si on garde la classe 3 (décide s’il préfère 2 ou 3). Nos résultats suggèrent qu’il n’y a pas assez d’évidence pour se rendre à 4 classes.