Cours 6 Flashcards

1
Q

Quel est le but des analyses en composantes principales et des analyses factorielles?

A

À partir d’un ensemble de variables dépendantes (généralement continues), établir quel(s) sous-ensemble(s) de variables forment des regroupements cohérents et (le plus souvent) indépendants les uns des autres. Ces regroupements de variables corrélées entre elles forment des composantes (si ACP) ou des facteurs (si AF)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quel est le point commun des composantes/facteurs?

A

Ce sont un ensemble de variables corrélées entre elles, indiquant que le patron de réponse des sujets à ces variables est similaire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Que vise l’approche statistiques des analyses en composantes principales et des analyses factorielles? (3)

A
  1. Réduire le nombre de variables en leurs substituant quelques facteurs, par la compression de l’espace de données (ACP)
  2. Résumer le patron de corrélations (AF)
  3. Vérifier une théorie en évaluant son adéquation à la structure factorielle (AF)
    1. p.ex., la théorie de la motivation
    2. p.ex., la théorie factorielle de l’intelligence
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

L’[…] est une technique de compression de données: On veut partir d’un certain nombre de variables et des composantes qui résument les variables (réduit les dimensions des variables pour être plus “straight forward”). On ne veut pas non plus perdre de l’information même si les questions sont réduites.

A

L’analyse de composantes principales (ACP) est une technique empirique de compression de données: On veut partir d’un certain nombre de variables et des composantes qui résument les variables (réduit les dimensions des variables pour être plus “straight forward”). On ne veut pas non plus perdre de l’information même si les questions sont réduites.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
A

Analyse factoriel (AF): On veut résumer l’information. Quels sont les variables qui corrèlent ensemble pour savoir quels sont les facteurs qui sont trop fortement liés et qui donnent la même information. On va résumer le patron de corrélation. Je suis dans la confirmation de notre théorie, pas juste de l’exploration (ACP) .

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les principales différences entre l’ACP et l’AF? (4)

A
  1. Mathématiquement, l’ACP analyse la variance totale de chaque variable alors que l’AF analyse uniquement la variance commune entre les variables. L’ACP va donc expliquer plus de variance.
  2. L’ACP extrait des composantes alors que l’AF extrait des facteurs.
  3. L’ACP ne fait que résumer la variance présente dans la matrice de corrélation. C’est une approche empirique. L’AF adopte une approche théorique, en postulant que les facteurs « causent » les variables (i.e., la variable latente explique la variance des variables manifestes).
  4. L’ACP est utilisée à des fins exploratoires. Elle est plus facile d’interprétation que l’AF. L’AF est utilisée :
    1. À des fins exploratoires pour déterminer la structure des données
    2. À des fins confirmatoires pour tester une théorie ou valider la structure d’un questionnaire.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

L’ACP s’intéresse à la variance totale, mais pourquoi s’intéresser à cette variance?

A

Ce qui est commun au problème en psychométrie, chaque question va être poser sur une petite partie de ce grand construit (problème). Ce qui est commun à toutes ses questions, c’est la problématique dans le contexte des questions. Donc on s’intéresse à ce qui est commun souvent. Dans l’ACP, je veux prendre toutes les informations que j’ai pour mieux la comprimer, d’ou l’intéret pour la variance totale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quelles sont les principales étapes de l’ACP/AF? (4)

A
  1. Préparer la matrice des corrélations, selon la variance à expliquer (totale ou commune)
  2. Extraire des composantes/facteurs de cette matrice et choisir le nombre de facteurs à retenir
  3. (généralement) Effectuer une rotation des composantes/facteurs pour en faciliter l’interprétation (Étape qui a pour but de faciliter l’interprétation et l’utilisation de la solution)
  4. Interpréter les composantes/facteurs selon la nature des variables associées ou non à chaque composante/facteur
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelles sont les questions de recherche généralement associées à l’ACP et l’AF? (5)

A
  1. Déterminer combien de facteurs signifiants et interprétables? Combien sont nécessaires pour résumer l’information disponible (la matrice de corrélation)?
  2. Quelles variables sont associées à chaque facteur? Quel construit est « représenté » par chaque facteur?
  3. Quelle est l’importance relative des facteurs en termes de variance expliquée de l’espace de données?
  4. Est-ce que la structure factorielle observée corresponds à la structure factorielle postulée par la théorie?
  5. Si les participants avaient été observés directement sur les composantes/facteurs, quels auraient été leurs « scores factoriels »?
    1. Estimation des scores factoriels: La performance de chacun à chaque facteur
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

VRAI ou FAUX

L’analyse exploratoire est la plus fréquente utilisation de l’ACP et de l’AF. Dans ce contexte, ces méthodes présentent peu de limites théoriques.
Il existe toutefois plusieurs limites lorsque l’on utilise l’ACP pour tester une théorie (analyse confirmatoire par EQS)

A

FAUX

L’analyse exploratoire est la plus fréquente utilisation de l’ACP et de l’AF. Dans ce contexte, ces méthodes présentent peu de limites théoriques.
Il existe toutefois plusieurs limites lorsque l’on utilise l’AF pour tester une théorie (analyse confirmatoire par EQS)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelles sont les conditions d’utilisation de l’ACP et l’AF?

A
  1. Taille d’échantillon
    1. Il faut des corrélations stables car c’est la base de l’ACP et de l’AF. Le nombre de sujets doit être élevé.
  2. Conditions pour maximiser la corrélation
  3. Relations linéaires
  4. Normalité
  5. Absence de données extrêmes
  6. Indépendance des erreurs (pas de données répétées)
  7. Multicollinéarité (problème en AF, identifiable par une corrélation multiple (SMC) = 1)
  8. Factoriabilité de la matrice de corrélation
    1. La matrice doit inclure des corrélations fortes (> 0.30)
    2. Le but de la factoriabilité est de créer un index qui nous indique qu’il y a assez de corrélation pour les tester.
  9. Ne pas avoir de « variables extrêmes »
    1. C’est-à-dire des variables qui ne sont associées à aucun facteur
  10. Ne pas avoir des données extrêmes multivariées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Dans l’ACP et l’AF, c’est plutôt la […] qui est importante plutôt que la taille d’échantillon.

A

Dans l’ACP et l’AF, c’est plutôt la stabilité de la corrélation qui est importante plutôt que la taille d’échantillon.

Si les corrélations sont faibles dans notre matrice de corrélation, on peut croire que nos corrélations ne sont pas stables et donc la taille d’échantillon est insuffisante. Si les corrélations sont fortes, elles devraient être stables et donc la taille d’échantillon est bonne.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Pour l’ACP et l’AF, il faut respecter un ratio minimum de […] (sujet:variable), […] (sujet:facteur) et […] sujets. Plusieurs auteurs suggèrent des échantillons de […] sujets.

A

Pour l’ACP et l’AF, il faut respecter un ratio minimum de 5:1 (sujet:variable), 20:1 (sujet:facteur) et 100 sujets. Plusieurs auteurs suggèrent des échantillons de 150 sujets.

*Il faut rencontrer le minimum de chacun des critères.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Le test de Bartlett est trop […] pour tester la factoriabilité. Une alternative est le test du […]

A

Le test de Bartlett est trop sensible pour tester la factoriabilité (Dès qu’il y aura une corrélation, il sera significatif). Une alternative est le test du MSA (measure of sampling inadequacy)

-> Indice entre 0 et 1. Si on a un MSA au dessus de .6, on qualifie qu’il y a suffisament de corrélation pour que ça vale la peine de faire une analyse factorielle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quoi faire si on doit rejeter une base de donnée en raison d’un MSA trop faible?

A

Examiner la matrice de corrélation et flusher les variables très peu corrélées avec le reste. La corrélation commune devrait ensuite augmenter, ce qui augmentera le MSA.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quel est l’objectif du calcul des valeurs propres?

A

Redistribuer la variance et covariance des variables originales en quelques dimensions indépendantes permettant de résumer la matrice de variance/covariance Σ (ou matrice de corrélation R).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Le calcul des valeurs propres est une opération d’algèbre matricielle consistant à calculer les […] propres (eigenvalues) et […] propres (eigenvectors) de la matrice Σ ou R.

A

Le calcul des valeurs propres est une opération d’algèbre matricielle consistant à calculer les valeurs propres (eigenvalues) et vecteurs propres (eigenvectors) de la matrice Σ ou R.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Qu’est-ce qu’une valeur et un vecteur propre?

A

Valeur propre = variance expliquée par une dimension
Vecteur propre = coordonnées de cette dimension dans l’espace

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Que représente ce graphique?

Est-ce que j’ai de la variance à distribuer d’après ce tableau?

A

Calcul des valeurs propres et vecteurs propres sur deux variables non-corrélées (la plus simple matrice de corrélations = 2 variables et 1 corrélation). Ici, on travaille sur la variance totale et il n’y a pas de corrélation entre mes variables.

Valeur 1 = aucune dépendance entre mes variables

Est-ce que j’ai de la variance à distribuer: Non, parce qu’il n’y a aucune corrélation entre mes variables. Le fait que nous avons un angle droit entre mes vecteurs et que leurs valeurs est de 1 nous indique que les variables sont indépendantes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Que représente ce graphique?

Est-ce que j’ai de la variance à distribuer d’après ce tableau?

A

Calcul des valeurs propres et vecteurs propres sur deux variables corrélées.

Est-ce que j’ai de la variance à distribuer d’après ce tableau? Oui, nous avons deux unités de variance à « redistribuer » (somme de la diagonale = 1 + 1; vecteurs qui ne sont pas à angle droit) car les vecteurs ne sont pas indépendants

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Quoi faire si le calcul des valeurs propres nous montre que nos vecteurs sont corrélés et donc dépendants? (2)

A

Il faut distribuer les unités de variance en inversant les vecteurs (voir figure)

Constats sur le graphique:

  1. Mes deux vecteurs sont maintenant à angle droit, donc j’ai maintenant deux dimensions indépendantes (corrélation: 0).
  2. Pourquoi je finis avec un vecteur de 1.7 et de .3. Si je fais la somme des deux, ça donne 2, ce qui était la variance que j’avais en commençant. Donc on n’a pas perdu la variance du début, on la redistribue.
    1. Si je veux ramasser toute la variance commune dans une dimension indépendante, elle va ramasser le 1 unité de la première variable + le .7 unité de variance commune et ça va donner notre 1.7 pour le vecteur 1.
    2. Ensuite, il va retirer le .7 d’une unité de la deuxième variable et ajouter .3. C’est pour ça que nos deux dimensions sont maintenant indépendantes, elles ne partagent plus rien (le .7).
    3. L’idée de compression de données est qu’on ramasse un paquet de variables communes, on en fait une première dimension puis on fait une seconde dimension avec ce qui reste.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Que représente ce graphique? Quoi faire avec ces résultats?

A

Calcul des valeurs propres et vecteurs propres sur deux variables parfaitement corrélées. Il va falloir redistribuer les deux unités de variance, mais elles sont très fortement corrélées.

Lorsque je vais distribuer ma variance, la première distribution va prendre la majorité de la variance et, donc, la deuxième dimension n’expliquera plus rien. On va donc pouvoir la retirer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

L’ACP vise à identifier les […] qui permettent de maximiser la variance expliquée.
Les composantes principales correspondent aux vecteurs propres de la matrice des […] (R)
L’espace des données est préservé. Le nombre de dimensions pour représenter les données demeure égal au nombre de […]et les relations entre les […]demeurent intactes.

A

L’ACP vise à identifier les composantes principales qui permettent de maximiser la variance expliquée.
Les composantes principales correspondent aux vecteurs propres de la matrice des corrélations R
L’espace des données est préservé. Le nombre de dimensions pour représenter les données demeure égal au nombre de variables et les relations entre les sujets demeurent intactes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

VRAI ou FAUX

L’ACP partage (et préserve) la totalité de la variance des données, c’est-à-dire à la fois la variance commune (covariance) et la variance unique de chaque variable

A

VRAI

25
Q

Selon ce graphique, faisons-nous affaire à une ACP ou une AF?

A

ACP

L’ACP partage (et préserve) la totalité de la variance des données, c’est-à-dire à la fois la variance commune (covariance) et la variance unique de chaque variable

26
Q

La matrice de corrélation de l’ACP peut être vue comme le produit de deux matrices. Quelles sont-elles?

A

R = VLV’
R = Matrice de corrélation ACP
L = valeurs propres de la matrice R (variance expliquée)
V = vecteurs propres de la matrice R (coordonnées des axes permettant de capturer
le maximum de variance)

27
Q

Dans l’ACP, la matrice […] est la matrice des saturations factorielles (factor loadings), qui correspondent aux corrélations entre chaque variable et chaque composante. Elle permet de savoir quelle variable permet de savoir quelle variable contribue de quelle façon à quelle dimension.

A

Dans l’ACP, la matrice A est la matrice des saturations factorielles (factor loadings), qui correspondent aux corrélations entre chaque variable et chaque composante. Elle permet de savoir quelle variable permet de savoir quelle variable contribue de quelle façon à quelle dimension

28
Q

Que représente ce graphique?

Qu’est-ce qu’on peut interpréter de ce graphique?

A

La création de la matrice A (des saturations factorielles): L’égalité peut être transformée par substitution en un produit d’une matrice appelée A et de sa transposée.

Quelles sont les variables qui corrèlent le plus dans la première composante:

La 3e et la 4e. À l’origine, ces variables corrélait à .9 et plus. Donc la première composante capte le plus de variance. Par rapport à la première composante, je vois deux valeurs positives. Donc ces facteurs corrèlent positivement avec la composante.

Quelles sont les variables qui corrèlent le plus dans la première composante:

La 1e est corrélé forte et positive et la 2e est corrélé négative et forte

29
Q

VRAI ou FAUX

L’ACP est un cas simple de l’analyse factoriel, elle explique 100% de la variance. Par contre, en général on ne s’intéresse pas à la variance totale.

A

VRAI

30
Q

L‘AF vise à créer un espace artificiel qui possède […] de dimensions que l’espace original. Le but est de représenter l’ensemble des […] en utilisant un nombre restreint de […] (facteurs) tout en maintenant les relations entre les sujets.

La solution factorielle de l’AF ne représente que la variance commune (les covariances) entre les variables

A

L‘AF vise à créer un espace artificiel qui possède moins de dimensions que l’espace original. Le but est de représenter l’ensemble des données en utilisant un nombre restreint de dimensions (facteurs) tout en maintenant les relations entre les sujets.

La solution factorielle de l’AF ne représente que la variance commune (les covariances) entre les variables

31
Q

VRAI ou FAUX

L’ACP postule que la valeur de chaque variable observée est latent à une autre influence qui est commune.

A

FAUX

L’AF postule que la valeur de chaque variable observée est latent à une autre influence qui est commune.

32
Q

Une matrice de corrélation en forme réduite R* est utilisée pour réaliser l’[…]. Elle contient les mêmes corrélations hors de la diagonale, mais les 1 de la diagonale sont remplacés par les Squared Multiple Correlations (SMC) (i.e., R2 provenant de la régression de chaque variable avec l’ensemble des autres variables).

A

Une matrice de corrélation en forme réduite R* est utilisée pour réaliser l’AF. Elle contient les mêmes corrélations hors de la diagonale, mais les 1 de la diagonale sont remplacés par les Squared Multiple Correlations (SMC) (i.e., R2 provenant de la régression de chaque variable avec l’ensemble des autres variables).

33
Q

La matrice de corrélation en forme réduite R*, utilisée pour l’AF, changera seulement la diagonale de la matrice de corrélation originelle. Pourquoi?

A

Les corrélations en dehors de la diagonale sont de la variance commune (pas commune à tous mais à des groupes de variables). La diagonale représente alors la variance totale. Puisque je veux seulement la variance commune, je la remplace par un R2 (je fais une régression par ligne). Je prend toutes mes corrélation de la ligne (.961, .95, .06, .13) et je prend leur variance commune.

Donc dans cette matrice de corrélation (R*), j’ai seulement ma variance commune. Je vais donc avoir moins de variance expliquée.

34
Q

Selon ce graphique, faisons-nous affaire à une ACP ou une AF?

A

AF

Lorsque les estimés initiaux de variance de chaque variable (communalité) sont inférieurs à l’unité, on sait automatiquement que nous sommes en AF (et non en ACP)

35
Q

En AF, on retient un nombre réduit de valeurs (et vecteurs) propres.
Les valeurs propres extraites de R* sont […] importantes.

A

En AF, on retient un nombre réduit de valeurs (et vecteurs) propres.
Les valeurs propres extraites de R* sont moins importantes (seulement la variance commune).

36
Q

Que peut-on interpréter de ce graphique?

A

Deux séries de valeurs propres indiquées dans SPSS : les valeurs initiales provenant de la matrice de corrélation (ACP) et les valeurs extraites selon la matrice de corrélation avec les SMC comme communalités (diagonale de R*) (AF)

Ici, on a 4 unités et 2 dimensions.

Initial Eigenvaleurs: Valeurs propres extrait de la matrice (Valeurs propres de l’ACP). Donc on a autant de valeurs propres que de dimensions possibles.

Extraction: Valeurs propres extrait dans la matrice corrigé (Valeurs propre de l’AF)

Sums of squared loading: Somme des petits a au carré

Total: Si un facteur capte moins de 1 unité de variance (1 question), on peut le garder. Lorsqu’il s’explique par moins de 1 unité, il n’explique même pas une question donc on peut le retirer. Critère: La valeur propre doit être égale ou plus élevée que l’unité.

% of variance: La première composante a expliqué 50.4% de l’espace de données, la deuxième explique 48.5%, la troisième explique .9% et la 4e explique .1% . Il est donc très clair que nous avons seulement besoin de 2 dimensions. Critère: Le seuil souvent utilisé est de 5% et plus, il doit capturer au moins 1% de la variance.

37
Q

VRAI ou FAUX

En AF, la matrice A a la même dimension que la matrice de corrélations R.

A

FAUX

En ACP, la matrice A a la même dimension que la matrice de corrélations R.

38
Q

VRAI ou FAUX

En AF, la matrice A est de dimension réduite (selon le nombre de facteurs) et il est plus difficile de trouver une matrice qui respecte la relation d’égalité, ce qui explique pourquoi une solution par étape (itérative) est utilisée.

A

VRAI

En AF, la matrice A est de dimension réduite (selon le nombre de facteurs) et il est plus difficile de trouver une matrice qui respecte la relation d’égalité, ce qui explique pourquoi une solution par étape (itérative) est utilisée.

39
Q

Pourquoi les évaluateurs de tests psychométriques préfèrent l’utilisation de l’ACP au lieu de l’AF?

A

Si on compare à la matrice obtenue en AF, on remarque que les corrélations sont un peu plus faibles. Les corrélation et les variances en ACP sont plus élevés et donc plus facilement significatives.

Malgré cela, il est plutôt recommandé d’utiliser l’AF.

40
Q

Quelles sont les différentes méthodes d’extraction de facteurs de l’AF? (3)

A
  1. Principal axis factoring (PAF: Méthode des axes principaux) : Même méthode que composante principale mais avec SMC comme estimé initial de communalité, n’assume pas normalité. Objectif = maximiser la variance expliquée par facteur. En général, tout le monde prend cette méthode.
  2. Maximum likelihood (ML: Méthode de maximum de ressemblance) : Assume la normalité, demande un gros N, produit des indices d’ajustement (usqu’à quel point ma méthode arrive à reproduire la matrice de corrélation initialement évaluée), permet des tests inférentiels pour le nombre de facteurs, erreurs std pour saturations. Objectif = maximiser la probabilité de reproduire R
  3. Unweighted / generalized least squares (ULS/GLS) : objectif = minimiser les résidus entre matrices R observée vs reproduite, tests pour #facteurs, favorise solution avec variables uniques. Fonctionne quand les variable sont plus binaires, catégorielles, etc. mais très rare.
41
Q

VRAI ou FAUX

La question ci-dessous représente une question répondue par l’AF confirmatoire.

Quels sont les processus qui pourraient produire les corrélations observées entre ces variables?

A

FAUX

La question ci-dessous représente une question répondue par l’AF exploratoire.

Quels sont les processus qui pourraient produire les corrélations observées entre ces variables?

Question répondue par l’AF confirmatoire :

Est-ce que les corrélations observées entre les variables sont cohérentes avec les corrélations attendues selon la structure factorielle postulée (i.e., le modèle théorique)?

42
Q

L’idée de l’AF […] est qu’on regarde notre matrice et on essaye de comprendre s’il y a une corrélation entre mes variables et qu’est-ce que ça peut dire.

L’idée de l’AF […] est de vérifier si mon mon jeu de données arrive à reproduire la matrice qui est postulée par mon modèle théorique.

A

L’idée de l’AF exploratoire est qu’on regarde notre matrice et on essaye de comprendre s’il y a une corrélation entre mes variables et qu’est-ce que ça peut dire.

L’idée de l’AF confirmatoire est de vérifier si mon mon jeu de données arrive à reproduire la matrice qui est postulée par mon modèle théorique.

43
Q

Dans l’AF confirmatoire, on utilise une modélisation avec des outils relatifs aux […]. Il est possible de tester la présence d’un méta-facteur (facteur de […] ordre)

A

Dans l’AF confirmatoire, on utilise une modélisation avec des outils relatifs aux équations structurelles. Il est possible de tester la présence d’un méta-facteur (facteur de 2e ordre)

Exemple: On va postuler que les facteurs 1 à 7 sont corrélés entre elles tout comme 8 à 11. On va essayer de voir si j’arrive à reproduire ce que je postule dans ce que je vois sur ces 11 variables. C’est rien d’autre qu’un modèle d’équation structurelle.

44
Q

À quoi sert la rotation des axes dans l’AF et l’ACP?

A

Une rotation de la structure factorielle est généralement effectuée pour augmenter les saturations factorielles fortes et diminuer les saturations faibles

* C’est une étape de clarification de la solution de l’AF et l’ACP

45
Q

La rotation des axes dans l’AF et l’ACP ne change pas la […] moyenne, mais […] la capacité à interpréter la solution factorielle et donc à identifier la nature de chaque facteur

A

La rotation des axes dans l’AF et l’ACP ne change pas la saturation moyenne, mais accroît la capacité à interpréter la solution factorielle et donc à identifier la nature de chaque facteur. Elle va souligner les extrêmes.

* On va donner aux facteurs qui ont tout et enlever à ceux qui ont peut (augmenter les bonnes corrélations et réduire les mauvaises)

46
Q

La rotation des axes dans l’AF et l’ACP est réalisée par le produit de la matrice de et une matrice de « […] »

A

La rotation des axes dans l’AF et l’ACP est réalisée par le produit de la matrice de saturations (A) et une matrice de « transformation »

Exemple: Après la rotation des axes, les .90 sont montés et le .4 sont descendus. On a donc obtenu exactement ce qu’on voulait. À la fin, c’est encore plus clair quelle question est corrélée avec quelle question, MAIS on change pas la variance par question. Elle est simplement répartie différement (.42 * .92 = .082 * .982).

47
Q

Une rotation des axes peut être orthogonale ou oblique. Quelles sont les différences entre ces types de rotation.

A

Rotation orthogonale (le plus souvent) : Les facteurs sont indépendants (la corrélation entre les facteurs est zéro). Préserve les axes à angle droit. Interprétation simplifiée.

Rotation oblique : Les facteurs sont corrélés entre eux, ce qui rend l’interprétation plus difficile. Il n’y a pas nécessairement une conservation des angles droits. Pourquoi? La saturation entre une variable et un facteur surestime la corrélation réelle dû au fait que les facteurs ne sont pas indépendants

48
Q

Il existe plusieurs méthodes de rotation des axes orthogonale et oblique. Quelles sont-elles? (2)

A
  • *Orthogonale :** varimax, quartimax, equamax, orthomax et parsimax
  • *Oblique :** oblimin, quartimin, promax et procrustes
49
Q

Qu’est-ce que la communalité?

A

C’est le pourcentage de la variance d’une variable expliquée par tous les facteurs (0 – 100%) ou toutes les composantes (100%). Mathématiquement, c’est la somme des saturations factorielles (loadings) mises au carré (SSL - sum of square loadings).

Plus la communalité est grande, plus la solution factorielle est adéquate pour représenter cette variable.

50
Q

Dans l’ACP et l’AF, la variance expliquée par […] peut être déterminé dans l’espace des données (ACP - variance totale de chaque variable) ou dans l’espace factoriel (AF - variance commune)

Ce % de variance dans l’espace des données est le […] (sum of square loadings) du facteur divisé par le nombre total de […]

Ce % de variance expliquée par un facteur dans l’espace factoriel est le […] du facteur divisé par la somme des

A

Dans l’ACP et l’AF, la variance expliquée par chaque facteur peut être déterminé dans l’espace des données (ACP - variance totale de chaque variable) ou dans l’espace factoriel (AF - variance commune)

Ce % de variance dans l’espace des données est le SSL (sum of square loadings) du facteur divisé par le nombre total de variables

Ce % de variance expliquée par un facteur dans l’espace factoriel est le SSL du facteur divisé par la somme des SSLs (total de la variance extraite)

51
Q

Que peut-on interpréter de ce graphique?

A

C’est avec ce tableau qu’on comprend l’AF.

Analyse factorielle avec 4 ensembles factoriels.

Titre: Données après la rotation orthogonale des axes

Factor 1 et Factor 2: Représente les corrélations (saturation) entre chacune des variables. Ces deux colonnes est la matrice A après rotation orthogonalle. Permet de savoir que ces deux variables relatives à la neige sont corrélés donc facteur 1 est clairement la neige et la 2e est clairement le coût.

*C’est une recommandation d’usage de toujours rapporter la matrice A après la rotation*.

Communalités: Représente la somme des saturations au carré (.09 au carré + .98 au carré = .97). Répond à la question “est-ce que le coût est bien expliqué par la structure factorielle?”. Ici, j’explique 97% de la variance du coût avec ma solution factorielle à deux facteurs. Donc, j’ai une excellente modèle factoriel car j’explique presque 100% de la variabilité.

Variance totale de la solution: Ma solution actuelle explique 98% (3.915/4 facteurs) de la variance de mes données. Les chiffres des communalités ne dépasseront jamais le 1, mais les chiffres de factor 1/2 va idéalement le dépasser.

Proportion de la variance: Le factor 1 explique 50% de la variance. Le facteur 2 explique 48% de la variance.

Ici, tous les chiffres se balancent car la rotation est orthogonale, j’ai préservé l’indépendance des facteurs. Si j’avais une rotation oblique, je vais me retrouver avec des % au dessus de 1 (car je me retrouve avec des variances qui sont comptés 2 fois et plus).

52
Q

Qu’est-ce que la corrélation résiduelle (Rres) de l’AF et l’ACP?

A

C’est la « portion » des corrélations qui n’a pu être reproduite par la matrice de saturations (A).

Mathématiquement, c’est la différence entre deux matrices : matrice de corrélation observée (R) et matrice de corrélation reproduite par A. En gros, c’est la matrice de corrélation de départ, moins la matrice de corrélation après la rotation pour nous donner la matrice résiduelle.

53
Q

Comment peut-on interpréter cette matrice résiduelle?

A

Quand il reste des corrélations de .1 et plus, on peut commencer à se questionner.

À mettons qu’à la 2e colonne/1e ligne on a une corrélation de .12, qu’est-ce que ça veut dire? Que 12% de ma relation (corrélation) n’est pas capturé par mes facteurs donc peut-être qu’il me manque 1 facteur (trop comprimé), ou que j’ai un facteur complètement indépendant qui n’a pas été pris en compte.

Donc vient nous dire si la matrice de corrélation finale (rotationnée) vient bien résumer la relation à l’étude.

54
Q

Une fois toutes les analyses complétées, comment choisit-on le nombre de facteurs en AF? (6)

A
  1. Le nombre de valeurs propres plus grandes que 1 (une eigenvalue supérieure à 1 indique que le facteur explique plus de variance qu’un seul item) (Dans le tableau initiale, valeur propre initiale)
  2. Le test du « coude » ou scree plot (complète le premier test de façon graphique)
    1. On va faire un graphique avec touts les facteurs (axe x) et leurs valeurs propres (axe y). Ça va faire une droite en L. On va venir voir ce qui se situe dans le “coude” du L et placer la valeur “1” sur le graphique. Tous les critères sous la valeur 1 ne sont pas intéressants. Le moment/facteur où la valeur propre tombe sous 1 va nous donner une idée du nombre de facteur que nous pourrons garder. Malheureusement, avec AF on va couper automatiquement avant d’arriver au coude.
  3. Le pourcentage de variance expliquée par chaque facteur (supérieur à 5%)
  4. Le concept de structure simple de Thurstone (chaque item doit être corrélé à 0.30 et plus sur un seul facteur)
    1. Il n’y a rien de plus difficile à expliquer qu’un facteur qui corrèle avec tout. Donc si un facteur corrèle avec tout, il est peut-être un ramassi de résiduel. Donc on peut prendre le critère .3.
  5. L’absence de corrélations résiduelles
    1. Lorsqu’il ne reste plus de corrélations résiduelles ou presque pas, veut dire que notre modèle est bon et pas trop parcimonieux.
  6. L’interprétabilité des facteurs (subjectif)
    1. Décision en fonction de notre théorie. Notre choix final va être une pondération de tous ces critères.
55
Q

Que peut on interpréter de cette rotation des axes AF?

A

On a clairement des facteurs 1 et 2 ainsi que des points corrélés à aucun facteur. Les points du milieu suggèrent qu’on aurait besoin d’un autre facteur (3D) qui capturait ses points. Pour l’instant, c’est comme si les questions corrélaient avec rien et donc était mauvaises. Il faudrait donc retirer les valeurs entourées.

56
Q

Que peut-on interpréter de cette rotation des axes de l’AF?

A

Le graphique est très dispersé. Probablement qu’un graphique comme ça ne passerait même pas le test du MSA

57
Q

Que peut-on interpréter de ce graphique (AF)?

A

Total (Initial et extraction): Valeurs propres (initiales ou extraites) avant la rotation

Total (rotation): Valeurs propres après la rotation

Mes 3 facteurs expliquent 68% de la variance total (initial) et environ 15% était dû à de la variance unique (extraction et rotation 53%)

58
Q

Que peut-on interpréter de ce graphique?

A

Test du coude

Le plan d’inflection semble inclure 3 facteurs, mais un 4e facteur pourrait être inclut car il est proche de 1. Analyse subjectif.

59
Q

Que peut-on interpréter de ce graphique (AF)?

A

Matrice de saturation (A)

  • Dominant et leadership semble être plus touché par le regroupement de facteur*
  • Indépendant et auto-suffisant semblent être le 3e facteur (Corrélation haute comparé aux deux autres)*