modèles multi-groupes Flashcards

partie 9

1
Q

Quelles sont les méthodes multi-groupes pour les groupes connus et prédéfinis ?

A
  1. l’analyse discriminante : On cherche une combinaison des variables mesurées qui puisse discriminer au maximum les observations appartenant à des groupes différents. On veut également identifier les variables les plus discriminantes.
  2. les MES multi-groupes : Test de l’adéwuation du modèle avec les données de plusoeurs groupes. H0 : Σ θ,1 = Σ θ,2 = · · · = Σ θ,G. l esigma theta va être identique, il va s’appliquer à chacun des groupes.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelles sont les méthodes multo-groupes des groupes non connus à l’avance ?

A
  1. les MES à classes latentes : On présume que, sur la base d’un modèle propsé, il existe plusieurs groupes (non connus) qui se différencient par rapport à des paramètres spécifiques.
  2. l’analyse topologique : Analyse qui détermine si les données de plusieurs variables se ressemblent d’un facon particulière selon l’existence, non connue, de groupes d’observations. Le but est de classifier des scores dans un faible nombre d’ensembles homogènes (clusters). Outil très exploratoire qui doit être validé graphiquement par des analuyses confirmatoires (analyse discriminante, autres analses multi-groupes..).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les méthodes de clustering ?

A
  • méthode hierarchique : Regroupe les observations au fur et à mesure et laisse décider à l’nalyste quand il faut s’arrêter. peut correspondre à des taxonomies naturelles.
  • K-means clustering : Le résultat est final et demande de préciser le nombre de clusters.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quel est le principe de la méthode hiérachique ?

A

Au début, chaque observation constitue son propre groupe, puis, au fur et à mesure, les observations sont réunies de facon exclusive pour former des nouveaux clusters, plus larges et irréversibles. A la fin, on obtient un cluster unique avec toutes les observations. Les résultats sont typiquement représentés graphiquement avec des dendrogrammes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Comment calculer la distance entre deux scores, pour déterminer s’ils appartiennent ou non au même cluser ?

A

Il existe plusieurs types de distance (x,y) :

  • Distance euclidienne (ou métrique)
  • Distance euclidienne carrée (plus de poids aux scores plus distants)
  • Distance city-block ou de Manhattan
  • Distance de Chebychev
  • Pourcentage de désaccord (plutôt pour des variables discrètes)

Attention ! Les premières 4 distances sont fortement influencées par les échelles de mesure des variables. Il vaut mieux standardiser les variables avant l’analyse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les méthodes de linkage dans la méthode hiérarchique ?

A

Au début, la distance choisie s’applique aux points singuliers, mais une fois que des clusters de plusieurs points sont cosntitués, à quel(s) point(s) la distance s’applique-t-elle ?

  • single linkage : La distance entre deux clusters est la distance des deux observations (une dans chaque cluster) les plus proches. Utile si les clusters sont longilignes.
  • complete linkage : la distance entre deux clusters est la distance des deux observations (une dans chaque cluster) les plus éloignées. Utilie si les clusters sont compacts.
  • unweighted pair-group average : la distance est calculée comme distance moyenne entre les deux clusters.
  • weighed pair-group average : comme la distance précédente, mais pondérée par la taille des clusters (utilie si on pense que les clusters ont des tailles très différentes).
  • unweighted pair-group centroid : La distance est calculée entre les centroides (centres de grzvité) des deux clusters.
  • weighted pair-group centroid : Comme la distance précédente, mais pondérée par la taille des clusters (utile si on pense que les clusters ont des tailles très différentes).
  • méthode de Ward : utilise la logique de l’ANOVA pour minimier la sommer des carrées des observations à l’intérieur de chaque cluster (notion de between, within)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Les particularités du single linkage ?

A
  • s’applique à plusieurs types de formes de nuages de points
  • sensible au bruit et aux outliers
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Les particularités du complete linkage ?

A
  • moins sensible au bruit et aux outliers que le single linkage
  • tendance à casser les gros clusters et biais vers des clusters globaux
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Les particularités du group average linkage ?

A
  • compromis entre single linkage et complete linkage
  • avantage : peu sensible au bruit et aux outliers
  • inconvénient : biais vers des clusters globaux (mais moins que le complete linkage)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Les particularités de la méthode de Ward ?

A
  • utilise la somme des carrés pour définit la similarité entre deux clusters
  • similaire à group average si la distance est calculée au carré
  • peu sensible au bruit et aux outliers
  • biais vers des clusters globaux (mais moins que le complete linkage)
  • très efficace, mais peut donner lieu à des clusters très petits
  • similaire dans la méthode hiérarchique à la méthode k-means (on va compléter cette méthode de ward avec la méthode k-means)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Les particularités de la méthode des k-means ?

A
  • on doit spécifier à priori le nombre de clusters
  • le but est de maximiser la somme des carrés entre les clusters et minimiser celle à l’intérieur de chaque cluster (ressemble à la méthode de ward)
  • procère par itéraions :
    • ​les centroides de la première itération sont souvent choisis aléatoirement
    • chaque observation est attribuée au cluster avec le centroide le plus proche
    • les centroides des clusters sont recalculés
  • ​la procédure par itération permet de re-séparer des observations regroupées au début par erreur
  • souvet utilisée après la méthode hiérarchique (qui a permis d’établir le nombre de clusters à retenir)
  • les moyennes des variables de chasue cluster sont représentées graphiquement pour interpréter les clusters
  • plusieurs variations élaborées existent pour le choix des centroides initiaux et pour contrôler la robustesse de la solution finale
  • peut être problématique avec des clusters de tailles et densités très différentes et des outliers
  • des techniques existent pour surmonter ces problèmes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelle méthode utiliser ?

A
  • Aucune méthode est supérieure aux autres dans tous les cas.
  • Des méthodes de simulation sur la méthode hiérarchique ont établi qur les group average ou centroid linkages sont plus performants que les single ou complete linkages.
  • D’autres int démontré que la méthode de Ward est plus performante que les single, complete, ou group average si les clusters ont la même taille; si les tailles sint différentes, les group average ou complete linkage sont plus performantes.
  • Souvent la méthode hiérarchique avec une distance au carré et un group average linkage ou méthode de Ward est utilisée pour établir le nombre de clusters.
  • Ensuite, la méthode k-means est utilisée.
  • L’essentiel est de valider les clusters !
How well did you know this?
1
Not at all
2
3
4
5
Perfectly