Cours 6 Flashcards
Quel est le but des analyses en composantes principales et des analyses factorielles?
À partir d’un ensemble de variables dépendantes (généralement continues), établir quel(s) sous-ensemble(s) de variables forment des regroupements cohérents et (le plus souvent) indépendants les uns des autres. Ces regroupements de variables corrélées entre elles forment des composantes (si ACP) ou des facteurs (si AF)
Quel est le point commun des composantes/facteurs?
Ce sont un ensemble de variables corrélées entre elles, indiquant que le patron de réponse des sujets à ces variables est similaire
Que vise l’approche statistiques des analyses en composantes principales et des analyses factorielles? (3)
- Réduire le nombre de variables en leurs substituant quelques facteurs, par la compression de l’espace de données (ACP)
- Résumer le patron de corrélations (AF)
- Vérifier une théorie en évaluant son adéquation à la structure factorielle (AF)
- p.ex., la théorie de la motivation
- p.ex., la théorie factorielle de l’intelligence
L’[…] est une technique de compression de données: On veut partir d’un certain nombre de variables et des composantes qui résument les variables (réduit les dimensions des variables pour être plus “straight forward”). On ne veut pas non plus perdre de l’information même si les questions sont réduites.
L’analyse de composantes principales (ACP) est une technique empirique de compression de données: On veut partir d’un certain nombre de variables et des composantes qui résument les variables (réduit les dimensions des variables pour être plus “straight forward”). On ne veut pas non plus perdre de l’information même si les questions sont réduites.
Analyse factoriel (AF): On veut résumer l’information. Quels sont les variables qui corrèlent ensemble pour savoir quels sont les facteurs qui sont trop fortement liés et qui donnent la même information. On va résumer le patron de corrélation. Je suis dans la confirmation de notre théorie, pas juste de l’exploration (ACP) .
Quelles sont les principales différences entre l’ACP et l’AF? (4)
- Mathématiquement, l’ACP analyse la variance totale de chaque variable alors que l’AF analyse uniquement la variance commune entre les variables. L’ACP va donc expliquer plus de variance.
- L’ACP extrait des composantes alors que l’AF extrait des facteurs.
- L’ACP ne fait que résumer la variance présente dans la matrice de corrélation. C’est une approche empirique. L’AF adopte une approche théorique, en postulant que les facteurs « causent » les variables (i.e., la variable latente explique la variance des variables manifestes).
- L’ACP est utilisée à des fins exploratoires. Elle est plus facile d’interprétation que l’AF. L’AF est utilisée :
- À des fins exploratoires pour déterminer la structure des données
- À des fins confirmatoires pour tester une théorie ou valider la structure d’un questionnaire.
L’ACP s’intéresse à la variance totale, mais pourquoi s’intéresser à cette variance?
Ce qui est commun au problème en psychométrie, chaque question va être poser sur une petite partie de ce grand construit (problème). Ce qui est commun à toutes ses questions, c’est la problématique dans le contexte des questions. Donc on s’intéresse à ce qui est commun souvent. Dans l’ACP, je veux prendre toutes les informations que j’ai pour mieux la comprimer, d’ou l’intéret pour la variance totale.
Quelles sont les principales étapes de l’ACP/AF? (4)
- Préparer la matrice des corrélations, selon la variance à expliquer (totale ou commune)
- Extraire des composantes/facteurs de cette matrice et choisir le nombre de facteurs à retenir
- (généralement) Effectuer une rotation des composantes/facteurs pour en faciliter l’interprétation (Étape qui a pour but de faciliter l’interprétation et l’utilisation de la solution)
- Interpréter les composantes/facteurs selon la nature des variables associées ou non à chaque composante/facteur
Quelles sont les questions de recherche généralement associées à l’ACP et l’AF? (5)
- Déterminer combien de facteurs signifiants et interprétables? Combien sont nécessaires pour résumer l’information disponible (la matrice de corrélation)?
- Quelles variables sont associées à chaque facteur? Quel construit est « représenté » par chaque facteur?
- Quelle est l’importance relative des facteurs en termes de variance expliquée de l’espace de données?
- Est-ce que la structure factorielle observée corresponds à la structure factorielle postulée par la théorie?
- Si les participants avaient été observés directement sur les composantes/facteurs, quels auraient été leurs « scores factoriels »?
- Estimation des scores factoriels: La performance de chacun à chaque facteur
VRAI ou FAUX
L’analyse exploratoire est la plus fréquente utilisation de l’ACP et de l’AF. Dans ce contexte, ces méthodes présentent peu de limites théoriques.
Il existe toutefois plusieurs limites lorsque l’on utilise l’ACP pour tester une théorie (analyse confirmatoire par EQS)
FAUX
L’analyse exploratoire est la plus fréquente utilisation de l’ACP et de l’AF. Dans ce contexte, ces méthodes présentent peu de limites théoriques.
Il existe toutefois plusieurs limites lorsque l’on utilise l’AF pour tester une théorie (analyse confirmatoire par EQS)
Quelles sont les conditions d’utilisation de l’ACP et l’AF?
- Taille d’échantillon
- Il faut des corrélations stables car c’est la base de l’ACP et de l’AF. Le nombre de sujets doit être élevé.
- Conditions pour maximiser la corrélation
- Relations linéaires
- Normalité
- Absence de données extrêmes
- Indépendance des erreurs (pas de données répétées)
- Multicollinéarité (problème en AF, identifiable par une corrélation multiple (SMC) = 1)
- Factoriabilité de la matrice de corrélation
- La matrice doit inclure des corrélations fortes (> 0.30)
- Le but de la factoriabilité est de créer un index qui nous indique qu’il y a assez de corrélation pour les tester.
- Ne pas avoir de « variables extrêmes »
- C’est-à-dire des variables qui ne sont associées à aucun facteur
- Ne pas avoir des données extrêmes multivariées
Dans l’ACP et l’AF, c’est plutôt la […] qui est importante plutôt que la taille d’échantillon.
Dans l’ACP et l’AF, c’est plutôt la stabilité de la corrélation qui est importante plutôt que la taille d’échantillon.
Si les corrélations sont faibles dans notre matrice de corrélation, on peut croire que nos corrélations ne sont pas stables et donc la taille d’échantillon est insuffisante. Si les corrélations sont fortes, elles devraient être stables et donc la taille d’échantillon est bonne.
Pour l’ACP et l’AF, il faut respecter un ratio minimum de […] (sujet:variable), […] (sujet:facteur) et […] sujets. Plusieurs auteurs suggèrent des échantillons de […] sujets.
Pour l’ACP et l’AF, il faut respecter un ratio minimum de 5:1 (sujet:variable), 20:1 (sujet:facteur) et 100 sujets. Plusieurs auteurs suggèrent des échantillons de 150 sujets.
*Il faut rencontrer le minimum de chacun des critères.
Le test de Bartlett est trop […] pour tester la factoriabilité. Une alternative est le test du […]
Le test de Bartlett est trop sensible pour tester la factoriabilité (Dès qu’il y aura une corrélation, il sera significatif). Une alternative est le test du MSA (measure of sampling inadequacy)
-> Indice entre 0 et 1. Si on a un MSA au dessus de .6, on qualifie qu’il y a suffisament de corrélation pour que ça vale la peine de faire une analyse factorielle.
Quoi faire si on doit rejeter une base de donnée en raison d’un MSA trop faible?
Examiner la matrice de corrélation et flusher les variables très peu corrélées avec le reste. La corrélation commune devrait ensuite augmenter, ce qui augmentera le MSA.
Quel est l’objectif du calcul des valeurs propres?
Redistribuer la variance et covariance des variables originales en quelques dimensions indépendantes permettant de résumer la matrice de variance/covariance Σ (ou matrice de corrélation R).
Le calcul des valeurs propres est une opération d’algèbre matricielle consistant à calculer les […] propres (eigenvalues) et […] propres (eigenvectors) de la matrice Σ ou R.
Le calcul des valeurs propres est une opération d’algèbre matricielle consistant à calculer les valeurs propres (eigenvalues) et vecteurs propres (eigenvectors) de la matrice Σ ou R.
Qu’est-ce qu’une valeur et un vecteur propre?
Valeur propre = variance expliquée par une dimension
Vecteur propre = coordonnées de cette dimension dans l’espace
Que représente ce graphique?
Est-ce que j’ai de la variance à distribuer d’après ce tableau?
Calcul des valeurs propres et vecteurs propres sur deux variables non-corrélées (la plus simple matrice de corrélations = 2 variables et 1 corrélation). Ici, on travaille sur la variance totale et il n’y a pas de corrélation entre mes variables.
Valeur 1 = aucune dépendance entre mes variables
Est-ce que j’ai de la variance à distribuer: Non, parce qu’il n’y a aucune corrélation entre mes variables. Le fait que nous avons un angle droit entre mes vecteurs et que leurs valeurs est de 1 nous indique que les variables sont indépendantes.
Que représente ce graphique?
Est-ce que j’ai de la variance à distribuer d’après ce tableau?
Calcul des valeurs propres et vecteurs propres sur deux variables corrélées.
Est-ce que j’ai de la variance à distribuer d’après ce tableau? Oui, nous avons deux unités de variance à « redistribuer » (somme de la diagonale = 1 + 1; vecteurs qui ne sont pas à angle droit) car les vecteurs ne sont pas indépendants
Quoi faire si le calcul des valeurs propres nous montre que nos vecteurs sont corrélés et donc dépendants? (2)
Il faut distribuer les unités de variance en inversant les vecteurs (voir figure)
Constats sur le graphique:
- Mes deux vecteurs sont maintenant à angle droit, donc j’ai maintenant deux dimensions indépendantes (corrélation: 0).
- Pourquoi je finis avec un vecteur de 1.7 et de .3. Si je fais la somme des deux, ça donne 2, ce qui était la variance que j’avais en commençant. Donc on n’a pas perdu la variance du début, on la redistribue.
- Si je veux ramasser toute la variance commune dans une dimension indépendante, elle va ramasser le 1 unité de la première variable + le .7 unité de variance commune et ça va donner notre 1.7 pour le vecteur 1.
- Ensuite, il va retirer le .7 d’une unité de la deuxième variable et ajouter .3. C’est pour ça que nos deux dimensions sont maintenant indépendantes, elles ne partagent plus rien (le .7).
- L’idée de compression de données est qu’on ramasse un paquet de variables communes, on en fait une première dimension puis on fait une seconde dimension avec ce qui reste.
Que représente ce graphique? Quoi faire avec ces résultats?
Calcul des valeurs propres et vecteurs propres sur deux variables parfaitement corrélées. Il va falloir redistribuer les deux unités de variance, mais elles sont très fortement corrélées.
Lorsque je vais distribuer ma variance, la première distribution va prendre la majorité de la variance et, donc, la deuxième dimension n’expliquera plus rien. On va donc pouvoir la retirer.
L’ACP vise à identifier les […] qui permettent de maximiser la variance expliquée.
Les composantes principales correspondent aux vecteurs propres de la matrice des […] (R)
L’espace des données est préservé. Le nombre de dimensions pour représenter les données demeure égal au nombre de […]et les relations entre les […]demeurent intactes.
L’ACP vise à identifier les composantes principales qui permettent de maximiser la variance expliquée.
Les composantes principales correspondent aux vecteurs propres de la matrice des corrélations R
L’espace des données est préservé. Le nombre de dimensions pour représenter les données demeure égal au nombre de variables et les relations entre les sujets demeurent intactes.