Régression linéaire Flashcards

1
Q

Quels sont les postulats fondamentaux de la régression linéaire selon Andy Field ?

A

Normalité des résidus, linéarité, homoscédasticité, indépendance des erreurs, absence de multicolinéarité.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quel graphique permet de vérifier la linéarité entre une VI et la VD ?

A

Un scatterplot des valeurs observées versus prédites.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment vérifier la normalité des résidus dans une régression ?

A

À l’aide d’un histogramme des résidus, d’un tracé Q-Q ou d’un test de Kolmogorov-Smirnov sur les résidus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce que la multicolinéarité et pourquoi est-elle problématique ?

A

C’est quand deux VI sont très corrélées entre elles, ce qui rend difficile l’interprétation de leurs effets individuels.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quel indicateur permet de détecter la multicolinéarité ?

A

Le VIF (Variance Inflation Factor). Un VIF > 5 (ou > 10 selon les auteurs) indique un problème potentiel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce qu’un résidu ?

A

C’est la différence entre la valeur observée et la valeur prédite par le modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Pourquoi utiliser la méthode des moindres carrés ?

A

Pour minimiser la somme des carrés des résidus, assurant une estimation optimale des coefficients.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce que Cook’s distance ?

A

Une mesure de l’influence d’un point sur les coefficients de régression. Une valeur > 1 indique une observation très influente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce qu’un outlier dans une régression ?

A

Une observation dont le score s’éloigne fortement de la tendance générale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelle est la signification d’un R² = .45 ?

A

45 % de la variance de la VD est expliquée par la ou les variables indépendantes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Que signifie un B non significatif dans une régression ?

A

Que la VI ne contribue pas de façon significative à la prédiction de la VD.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quelle est la différence entre B et β dans une régression ?

A

B est le coefficient brut (non standardisé), β est le coefficient standardisé.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est-ce que l’homoscédasticité ?

A

La variance des résidus est constante pour toutes les valeurs prédictives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment détecter une hétéroscédasticité ?

A

À l’aide d’un scatterplot des résidus standardisés vs valeurs prédictives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Que faire si les résidus ne sont pas homoscédastiques ?

A

Utiliser des erreurs-types robustes ou transformer la variable dépendante.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Pourquoi centrer les variables dans une régression multiple ?

A

Pour réduire la multicolinéarité, surtout si on inclut une interaction.

17
Q

Que signifie un test de Durbin-Watson < 1.5 ?

A

Il y a probablement une autocorrélation positive des erreurs.

18
Q

Quelle est la valeur idéale du test de Durbin-Watson ?

A

Environ 2.0. Entre 1.5 et 2.5 est généralement acceptable.

19
Q

Dans quel cas la transformation log peut-elle être utile ?

A

Lorsque la VD est fortement asymétrique ou que la relation avec la VI est non linéaire.

20
Q

Qu’est-ce qu’un modèle hiérarchique ?

A

Un modèle dans lequel les prédicteurs sont introduits en blocs pour tester leur contribution relative.

21
Q

Comment interpréter une interaction non significative dans un modèle avec deux VI ?

A

Il n’y a pas de modulation de l’effet d’une VI par l’autre.

22
Q

Peut-on faire une régression avec une VD dichotomique ?

A

Non, il faut utiliser une régression logistique.

23
Q

Quelle est la conséquence d’une variable fortement influente non détectée ?

A

Elle peut fausser les coefficients et les rendre non généralisables.

24
Q

Quand utiliser la régression linéaire simple ?

A

Quand on a une seule variable indépendante continue.

25
Que permet de faire la régression multiple ?
D’estimer les effets de plusieurs VI simultanément sur une VD.
26
Pourquoi faut-il interpréter les coefficients dans le contexte du modèle ?
Parce que leur signification dépend de la présence des autres variables.
27
Qu’est-ce qu’un intervalle de confiance autour du coefficient B ?
Une plage dans laquelle on estime que la vraie valeur du paramètre se situe avec 95 % de certitude.
28
Comment choisir entre un modèle linéaire ou polynomiale ?
En comparant la qualité d’ajustement (ex. R² ajusté) et la forme de la relation.
29
À quoi sert le test F global ?
À tester si le modèle dans son ensemble est significatif.
30
Quel type de transformation utiliser en cas de distribution en “J” inversé ?
Une transformation racine carrée ou log.