Cours 5 Flashcards

1
Q

À quoi correspond b ?

A

Constantes qu’on estime à partir de la population (estimateurs)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

À quoi correspond X ?

A

Chaque élève (prédicteur)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

À quoi correspond k ?

A

Le nombre de prédicteurs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

À quoi correspond b0 ?

A

La valeur prédite de Y lorsque la valeur de tous les prédicateurs (X1 et X2) valent 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

À quoi correspond b1 ?

A

Nombre d’unités d’augmentation de la valeur prédite Y lorsque X1 augmente d’une unité et les autres prédicteurs ne changent pas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

À quoi correspond b2 ?

A

Nombre d’unités d’augmentation de la valeur prédite Y lorsque X2 augmente d’une unité et les autres prédicteurs ne changent pas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

V ou F. Les coefficients non standardisés, les coefficients standardisés, le t et la sig. ont les mêmes signification que pour la régression simple

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce qu’une corrélation semi-partielle ?

A

Proportion de la variance totale en Y expliquée uniquement par X1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce qu’une corrélation partielle ?

A

Proportion de la variance en Y qui n’est pas expliquée par les autres prédicateur, mais qui est expliquée par X1

L’autre variable existe mais tous ce qu’elle pouvait expliquer est retiré

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce qu’une corrélation partielle ?

A

Proportion de la variance en Y qui n’est pas expliquée par les autres prédicateur, mais qui est expliquée par X1

L’autre variable existe mais tous ce qu’elle pouvait expliquer est retiré

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quoi faire si un prédicateur peut être très bien prédit par les autres prédicteurs?

A
  1. Il est inutile
  2. Il ne permet pas d’augmenter SCM dans la prédiction de Y, Il augmente le dlM, donc CMM diminue, donc F diminue
  3. Il devient difficile d’interpréter le modèle final.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Si les valeurs de VIF surpassent 5 ou que la tolérance est plus petite que 0.2, qu’arrive-t-il ?

A

On doit considérer éliminer le prédicteur correspondant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

À quoi sert l’IC des coefficients ?

A

Vérifier si la valeur de H0 est incluse dans l’intervalle (Voir Bootstrap)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce que les résidus “standardisés” ?

A

Les scores Z des résidus (Variance non expliquée par le modèle)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce que les valeurs influentes ?

A

Score élevé signifie que la donnée a le potentiel d’avoir une influence importante sur l’estimation des paramètres

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce que les valeurs influentes ?

A

Score élevé signifie que la donnée a le potentiel d’avoir une influence importante sur l’estimation des paramètres du modèle

17
Q

Qu’est-ce que la distance de Cook ?

A

Reflète l’influence réelle d’une observation sur l’estimation des paramètres

18
Q

Quelle est la différence entre les scores extrêmes et les scores “valeurs influentes” ?

A

Extrême : Extrême dans la distribution des résidus

Influentes : POTENTIEL d’avoir une influence importante sur l’estimation des paramètres du modèle

19
Q

V ou F. Plus la valeur est extrême à l’intérieur des prédateurs, plus elle a le potentiel d’influencer l’estimation du modèle

A

VRAI

20
Q

Quel est l’objectif principal de la méthode de Cook ?

A

Généraliser les conclusions de l’analyse à la population

21
Q

Qu’arrive-t-il si le modèle estimé est trop sensible à certaines données de notre échantillon?

A

Le modèle risque de varier beaucoup d’un échantillon à l’autre. Le modèle est instable et peu reproductible (ne se généralise pas bien à la population)

22
Q

Qu’arrive-t-il si on a un score est extrême (extrême dans les résidus) ou a un potentiel d’influence (extrême dans les prédicteurs) ?

A

La donnée semble peu représentative de la population

23
Q

Qu’arrive-t-il si on a un score est extrême (extrême dans les résidus) ou a un potentiel d’influence (extrême dans les prédicteurs) ?

A

La donnée semble peu représentative de la population

Si DCook est néanmoins faible alors que le score est extrême (extrême dans les résidus) et/ou potentiellement influent (extrême dans les prédicteurs), alors garder le score risque d’augmenter artificiellement la puissance de l’analyse en augmentant le N à l’aide d’une valeur non représentative de la population.

24
Q

Qu’arrive-t-il si on a un score qui est ni extrême (non extrême dans les résidus), ni n’a un potentiel d’influence (non extrême dans les prédicteurs) ?

A

La donnée semble représentative de la population

Si DCook est néanmoins élevé alors que le score n’est ni extrême (non extrême dans les résidus) ni potentiellement influent (non extrême dans les prédicteurs), alors garder le score risque de rendre le modèle estimé instable et peu reproductible (et donc peu généralisable à la population de toute manière).

25
Q

Quoi faire lorsqu’on effectuer une analyse de régression multiple ?

A
  1. On vérifie les données manquantes/extrêmes/influentes.
    - On vérifie les scores extrêmes (extrêmes dans les résidus standardisés), les données ayant une influence potentielle (scores extrêmes dans les prédicteurs), les données ayant une influence réelle sur le modèle estimé.
    - Les scores extrêmes (résidus) et les données avec potentiel d’influence (prédicteurs) posent un risque pour la représentativité du modèle et donc pour la généralisation des conclusions.
    - Les données d’influence réelle (ex. distance de Cook) posent un risque pour la stabilité du modèle et donc pour la généralisation des conclusions.
  2. On vérifie les postulats.
    - Normalité des résidus, Homoscédasticité des résidus, Linéarité des données, Indépendance des données, Multicolinéarité des prédicteurs.
    - Pour les 4 premiers postulats, on peut utiliser les mêmes méthodes sur les résidus que pour la régression linéaire simple.
    - Pour la multicolinéarité, utiliser la méthode décrite précédemment dans ce cours.
  3. On vérifie les coefficients estimés pour connaître les prédicteurs inclus dans le modèle.
  4. On vérifie R2 pour connaître l’efficacité du modèle à expliquer la variabilité dans la variable prédite.
26
Q

Quels sont les postulats et les tests SPSS de la régression linéaire multiple ?

A
  1. Normalité des résidus :
    - Scores d’asymétrie et d’aplatissement.
    - Graphiques: Histogramme et P-P 4
    - Théorème central limite
    - Test de Kolmogorov-Smirnov
  2. Homoscédasticité et linéarité
    - Graphique: ZRESID vs ZPRED
    - Test de Levene
  3. Indépendance des données
    - Durbin-Watson si applicable.
    - Importance de la méthodologie de récole des données.
  4. Multicolinéarité Ø VIF
    - Diagnostic de colinéarité
27
Q

Quelles sont les méthodes qui peuvent être utilisées pour inclure et sélectionner les prédicteurs dans le modèle?

A
  1. Sélection basées sur la théorie

2. Sélection basée sur les données

28
Q

Décrivez la démarche de la méthode de sélection des prédicteurs basée sur la théorie. (Hiérarchique)

A
  1. On entre le premier bloc de prédicteurs.
  2. On sélectionne la méthode « Entrez »
    (tous les coefficients des prédicteurs du bloc sont estimés en même temps).
  3. On clique sur « Suivant ».
  4. On entre le deuxième bloc de prédicteurs.
  5. On sélectionne la méthode « Entrez »
    (tous les coefficients des prédicteurs du bloc sont estimés en même temps).
  6. Etc.
29
Q

V ou F. L’ordre des blocs est déterminé a priori en fonction de l’ordre d’importance relevé dans la documentation (Méthode hiérarchique)

A

VRAI

30
Q

V ou F. À l’intérieur d’un bloc, la méthode « Entrez » ne donne aucune priorité à l’un ou l’autre des prédicteurs
du bloc. (Méthode hiérarchique)

A

VRAI

31
Q

Qu’arrive-t-il si les postulats n’ont pas été respectés ?

A

On peut utiliser une méthode robuste pour estimer les valeurs des coefficients et de leurs intervalles de confiances. Ex. La méthode « Bootstrap »

32
Q

Décrivez la méthode Bootstrap.

A
  1. Échantillonne un sous-ensemble de l’échantillon un grand nombre de fois (généralement plus de 1000). Pour construire un sous-ensemble… :
    Ø On tire au hasard une donnée de l’échantillon.
    Ø On remet la donnée dans l’échantillon.
    Ø On tire une seconde donnée au hasard dans l’échantillon.
    Ø On remet la donnée dans l’échantillon.
    Ø Etc.
    Ø Chaque donnée de l’échantillon originale peut donc apparaître plus d’une fois dans chaque sous-ensemble.
    Ø Chaque sous-ensemble peut avoir la même taille que l’échantillon original.
  2. Ensuite, on utilise la distribution des sous-ensembles obtenue pour estimer les paramètres, l’erreur type et donc les intervalles de confiances.
    Ø Ces valeurs sont « robustes » vis-à-vis des postulats du modèle linéaire
    (elles n’ont pas besoin de les respecter pour être généralisables à la population).

*Si la valeur n’est pas incluse à l’intérieur du 95% d’IC, on rejette H0.

33
Q

Décrivez la méthode Bootstrap.

A
  1. Échantillonne un sous-ensemble de l’échantillon un grand nombre de fois (généralement plus de 1000). Pour construire un sous-ensemble… :
    Ø On tire au hasard une donnée de l’échantillon.
    Ø On remet la donnée dans l’échantillon.
    Ø On tire une seconde donnée au hasard dans l’échantillon.
    Ø On remet la donnée dans l’échantillon.
    Ø Etc.
    Ø Chaque donnée de l’échantillon originale peut donc apparaître plus d’une fois dans chaque sous-ensemble.
    Ø Chaque sous-ensemble peut avoir la même taille que l’échantillon original.
  2. Ensuite, on utilise la distribution des sous-ensembles obtenue pour estimer les paramètres, l’erreur type et donc les intervalles de confiances.
    Ø Ces valeurs sont « robustes » vis-à-vis des postulats du modèle linéaire
    (elles n’ont pas besoin de les respecter pour être généralisables à la population).

*Si la valeur n’est pas incluse à l’intérieur du 95% d’IC, on rejette H0.

34
Q

Qu’est-ce que la méthode Bootstrap ?

A

Contruire la loi générale à partir de nos données à l’aide d’un sous-échantillon artificiel pour estimer les paramètres et sortir un IC

35
Q

Qu’arrive-t-il si le nombre de prédicteurs augmente ? (Méthode hiérarchique)

A

La proportion de variance totale (SCT) expliquée par le modèle (SCM) va toujours augmenter ou rester stable, mais ne diminuera jamais.

On doit donc toujours vérifier si le modèle avec plus de prédicteurs augmente « significativement » le R2.

36
Q

Qu’est-ce que la méthode Bootstrap ?

A

Construire la loi générale à partir de nos données à l’aide d’un sous-échantillon artificiel pour estimer les paramètres et sortir un IC