Chapitre 2-Analyse en composantes principales Flashcards

1
Q

Quand utilise-t-on une ACP ?

A

Lorsque nous avons beaucoup de variables, plus que 3, ce qui rend la visualisation des données sur un seul graphique impossible

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Pourquoi utiliser une ACP ? (3)

A
  1. Pour résumer et visualiser en 2 ou 3 dimensions les patrons de corrélations entre les variables
  2. Pour trouver une équation qui permet de communiquer les patrons de corrélation et qui permet d’ajouter des variables
  3. Pour suggérer des hypothèses qui expliqueraient les patrons de corrélations.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Patrons de corrélation cachés

A

Si nous avons trois variables, mais nous ne faisons que des graphiques de corrélations entre 2 variables à la fois (X et Y, X et Z, Y et Z), on manque des patrons de corrélations qui sont cachés (3D).
C’est pourquoi on utilise les méthodes d’ordination, car elles mettent visibles les patrons de corrélations en 1 ou 2 variables latentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Comment faire une ACP ? (4)

A
  1. On observe un patron de corrélation entre la variable x et la variable y.
    Chaque axe est une fonction d’une variable; axe des X = 1x+0y.
  2. Centrer les variables autour de la moyenne
    Il faut soustraire à chaque variable sa moyenne, pour transférer l’axe originale vers un nouvel axe au centre du nuage de points
  3. Faire une rotation des axes centrés pour qu’une des 2 axes traverse le plus grand patron de covariation du nuage de points (ex: le nuage de points monte vers le coin droit, le plus grand patron de covariation est une ligne qui suit cette direction, au milieu du nuage de points)
    Permet de décrire la meilleure tendance des données.
    Le premier axe maximise la variablité (capte la plus grande tendance) et les axes qui suivent maximisent la variabilité résiduelle.
  4. Déterminer l’équation qui représente les nouveaux axes.
    Chaque axe comprend une variation de x et de y, à cause de la rotation. Donc les nouveaux axes comprennent les variables originales.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Suppositions à faire pour qu’une ACP fonctionne (3)

A
  1. La distribution de chacune des variables originales doit être normale (symétrique autour de la moyenne)
    - Visualiser la distribution de chaque variable avec la fonction plot
    - Si la distribution est normale : c’est parfait
    - Si la distribution n’est pas normale, il faut transformer les données de la variables avec la transformation Box-Cox.
    - Cette transformation permet de trouver une constante exponentielle qui permet de rapprocher les données de la variable le plus près d’une distribution normale possible (quand on utilise x~1, ça veut dire x en fonction de la moyenne)
    - Après avoir trouver la constante lambda, il faut l’appliquer à la variable pour en “créer” une nouvelle qui sera centrée sur la moyenne.
  2. La relation entre les variables doit être linéaire
    Une relation non-linéaire nuit à la capacité d’une ACP de réduire le nombre de variables.
  3. Les variables composites
    Les variables compositonnelles ou composites sont des variables qui forcent les corrélations, où il y a des relations non-biologiques. Ces variables doivent être transformées par une transformation logarithmique (lnx-lnmoyennex)
    ex: composition du sol en argile, limon et sable
    Ces 3 variables sont forcées à donner une somme de 100%, ce n’est pas une corrélation biologique.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Utiliser une matrice de corrélation ou une matrice de covariance pour notre ACP ?

A

C’est à nous de choisir à chaque ACP. À dépend des unités et de mesures et de ce qu’on veut évaluer.
1. Matrice de covariance
- On l’utilise quand les unités de mesure de variables sont les mêmes ET que les relations entre les variables ont un sens biologique.
- Les données sont centrées.
- [ S11 S12 S13] les variances sont sur la diagonale
[ S21 S22 S23]
[ S31 S32 S33]
Les covariances (x-moyx) de chaque variable avec les autres se trouvent de part et d’autre de la diagonale (image miroir).

  1. Matrice de corrélation
    - On l’utilise quand les unités de mesures des variables ne sont pas les mêmes OU quand les relations entre les variables ont un sens biologiques
    - Les données sont centrées et réduites (covariance/écart-type)
    - [ 1 r12 r13]
    [ r21 1 r23]
    [ r31 r32 1]
    r correspond à la corrélation de Pearson
    r12= S12/écart-type entre 1 et 2
    r12= S12/racine carrée(variance1-variance2)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Princomp vs prcomp

A

Avec la fonction princomp ou la fonction prcomp
PRINCOMP
- Il faut toujours spécifier :
.le nom des variable à inclure ou les colonnes de la base de données qui contiennent ces variables
.la base de données (data=)
.le type de matrice qu’on utilise (cor=FALSE pour covariation)
- On peut aussi retrouver l’argument na.action qui dit de retirer les lignes de la base de données contenant des valeurs manquantes
- scores : pour chaque point, quelles sont ses coordonnées sur chaque axe (nom$scores)
- sdev : % de la variabilité captée par chaque axe, montre aussi la longueur de chaque axe (nom$sdev)
- loadings : poids donné pour chaque variable qui définit la rotation de chaque axe (nom$loadings)
- IMP: pour pouvoir utiliser princomp, il faut qu’il y ait plus d’observations que de variables

PRCOMP
- Il faut toujours spécifier :
.le nom des variable à inclure ou les colonnes de la base de données qui contiennent ces variables
.la base de données (data=)
.le type de matrice qu’on utilise (scale.=FALSE pour covariation)
- x : équivalent de scores, quelles sont les coordonnées de chaque point sur chaque axe
- sdev : $ de variabilité capté par chaque axe
- rotation : équivalent de loadings, poids donné pour chaque variable qui défini la rotation de chaque axe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que nous donne le summary dans R

A
  1. Standard deviation
    l’écart-type de chaque variable
    mis au carré on obtient la variance
  2. Proportion of variance
    % de la variabilité capté par un certain axe
  3. Cumulative proportion
    Variabilité totale capté par le nombre d’axe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Comment on trouve les équations des nouvelles axes ?

A

Avec les loadings (poids donné de chaque variable quo définit la rotation de chaque axe)
ex : pour logLL le loading sur axe 1 = 0.722, donc dans l’équation il sera écrit 0.722(logLL-moylogLL)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Loadings en flèches

A

Les loadings (poids donné de chaque variable qui définit la rotation de chaque axe) peuvent être représentés par des flèches.

  • Flèches réprensentent des relations positives si elles vont vers la droite (axe 1) et/ou vers le haut (axe 2)
  • Flèches représentent des relations négatives si elles vont vers la gauche (axe 1) et/ou vers le bas (axe 2)
  • Plus une flèche est longue, plus une variable est importante sur une axe.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Comment choisir les axes à retenir ?

A
  1. L’axe capture la variation au-delà de la variation d’échantillonnage purement aléatoire
  2. L’axe mesure une propriété composite d’intérêt biologique
  3. Le moins d’axes possibles, mais qui répondent aux deux autres points
  • Le screeplot nous aide à faire notre choix
    Graphique à éboulis
    Montre la variance captée par chaque axe par rapport à la moyenne
    Pour conserver l’axe, il faut que la variance expliquée par l’axe soit plus élevée que la moyenne

Ajouter une distribution broken stick pour voir la distribution est aléatoire
- si la variance expliquée par l’axe est plus haute que le point du broken stick correspondant, ce n’est pas aléatoire donc on conserve

On peut aussi faire un test inférentiel de Forkman
Avec des variables suivant une distribution normale
Quelle est la probabilité que la 1ère axe représente une variabilité purement aléatoire ?
0= pas aléatoire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Comment représenter les résultats d’une ACP ?

A
  • Avec un biplot, un graphique qui représente à la fois la position des observations sur les axes (scores) et le poids des variables (loadings)
  • Par contre, ces 2 informations n’ont pas la même échelle; il faut donc transformer une ou l’autre des informations pour pouvoir les regrouper dans un biplot.
  • 2 types de graphiques selon ce qu’on veut représenter :
    Graphique des loadings qui préserve les variables (corrélation entre données)
    Graphique des scores qui préserve les distances
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Préservation des distances

A

Il faut modifier les flèches, le poids des variables sur les axes
Comment faire ?
- Trouver la longueur de chaque flèche à l’aide du théorème de Pythagore
- Ajuster la longueur des flèches à l’échelle du graphique des scores
- Les flèches sont proportionneles aux distances qu’on trouvait sur le graphique des loadings, mais dans l’échelle du graphique des scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Préservation des variables

A

Il faut transformer les unités du graphique des scores en écart-type

  • On obtient un graphique où les points sont regroupés en cercle autour de la moyenne
  • On peut donc trouver les distances entre les points avec les distances euclédiennes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Distances euclédiennes vs distance Mahalanobis

A

E : Distance entre deux points basée sur le calcul de l’hypothénuse d’un triangle.
M : distance euclédienne quand les unités de mesure d’une variable sont les écart-types

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Biplots dans R

A
  • Avec la fonction biplot
    Il faut préciser :
  • l’ACP sauvé de princomp ou prcomp
  • scale= spécification du type de graphique : préservation des distances ou des variables
    Pour une matrice de covariance : scale=1 si préservation des variables et scale=0 si préservation des distances
    Pour une matrice de corrélation : scale=1 si préservation des variables et scale=0 si préservation des distances
17
Q

Résultats d’un biplot préservation des variables avec une matrice de covariance

A
  • La projection du bout de la flèche sur l’axe principale à 90 degré indique l’importance de la variable dans l’axe principale
  • La distance euclédienne entre deux points est un estimé de la distance de Mahalanobis entre ces deux points dans la base de données
  • L’angle entre une flèche et l’axe principale correspond à la covariance entre la variable et l’axe principale
  • L’angle entre deux flèches correspond à la covariance entre les deux variables
18
Q

Résultats d’un biplot préservation des distances avec une matrice de covariance

A
  • La projection d’un point sur l’axe principale à 90 degré correspond au loadings de ce point sur l’axe principale, donc le poids de ce point dans la rotation de l’axe principal
  • La distance euclédienne entre deux points correspond à la distance euclédienne entre ces deux points dans la base de données
  • L’angle entre une flèche et l’axe principale correspond à la covariance entre la variable et l’axe principale
19
Q

Résultats d’un biplot préservation des variables avec une matrice de corrélation

A

Comme pour matrice de covariance, mais on parle de variable standardisée et de corrélation

  • La projection du bout de la flèche sur l’axe principale à 90 degré indique l’importance de la variable standardisée dans l’axe principale
  • La distance euclédienne entre deux points est un estimé de la distance de Mahalanobis entre ces deux points dans la base de données
  • L’angle entre une flèche et l’axe principale correspond à la corrélation entre la variable et l’axe principale
  • L’angle entre deux flèches correspond à la corrélation entre les deux variables
20
Q

Résultats d’un biplot préservation des distances avec une matrice de corrélation

A

Comme pour matrice de covariance mais on parle de corrélation

  • La projection d’un point sur l’axe principale à 90 degré correspond au loadings de ce point sur l’axe principale, donc le poids de ce point dans la rotation de l’axe principal
  • La distance euclédienne entre deux points correspond à la distance euclédienne entre ces deux points dans la base de données
  • L’angle entre une flèche et l’axe principale correspond à la corrélation entre la variable et l’axe principale
21
Q

Contrainte de l’ACP

A
  • Toutes les variables doivent être numériques : elles ne peuvent pas être catégorique ou factorielle comme mâles, femelles, graminés, etc.
  • Ces variables catégoriques peuvent être ajoutées en utilisant différentes couleurs ou types de points pour montrer l’appartenance dans des groupes
  • Ou on peut faire une analyse de la variance (ANOVA) où les variables catégoriques sont comprises dans une variable numérique
  • Permet de déterminer s’il y a une différence significative entre deux groupes en comparant les variance moyenne entre les groupes et la variance moyenne de chaque groupe (si F value est plus grand que 1, il y a variance)