Cours 10 Flashcards

1
Q

Quelles sont les trois approches de la régression multiple?

A

1) Algèbre scalaire
2) Algèbre matricielle
3) Étude basée sur les sorties d’ordinateur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelle est la différence principale entre la régression simple et multiple?

A

Régression simple: Équation de régression qui implique un prédicteur et une variable prédite
Régression multiple: Équation de régression qui implique plusieurs prédicteurs et une variable prédite.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

VRAI ou FAUX.

En régression multiple, on tente d’avoir le moins de prédicteurs possible.

A

VRAI
On veut une équation parcimonieuse qui permet la meilleure prédiction possible tout en étant économique avec le nombre prédicteur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quelle est l’équation de la régression multiple?

A

Ŷ = b0 + b1X1 + b2X2 + … + bpXp

b0: Ordonnée à l’origine
bi: Coefficient de régression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

En régression multiple, la mathématique pour déterminer les coefficients de régression devient rapidement complexe à mesure que le nombre de variables […]

A

En régression multiple, la mathématique pour déterminer les coefficients de régression devient rapidement complexe à mesure que le nombre de variables augmente
-> Les logiciels statistiques permettent d’effectuer les calculs sans grande difficulté

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

VRAI ou FAUX

Les principes mathématiques de la régression multiple demeurent les même que ceux de la régression simple

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Décrivez les différentes forces de corrélation

A

Corrélation forte: > 0.6
Corrélation acceptable: 0.5
Corrélation faible: < 0.2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

La corrélation entre l’ensemble des prédicteurs et la variable dépendante est indiqué par […]

A

La corrélation entre l’ensemble des prédicteurs et la variable dépendante est indiqué par R

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

R2 (au carré) est le […]

A

R2 (au carré) est le pourcentage d’explication de corrélation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

[…] on a de paramêtres/prédicteurs, plus l’ajustement apporté par SPSS est important

A

Plus on a de paramêtres/prédicteurs, plus l’ajustement apporté par SPSS est important

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quel est l’équation de la somme de carré résiduelle/erreur?

A

(Somme des valeurs observées - Somme des valeurs prédites) au carré

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quels sont les différents degrés de liberté utilisés en régression multiple?

A

dl total: n - 1
dl régression: k -1
dl résiduelle: (n-1) - (k-1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelles sont les hypothèses d’une régression multiple

A

1)
H0 : R = 0
H1 : R =/= 0
** Utilise le test F (dans tableau ANOVA)

2)
H0 : bi = 0
H1: bi =/= 0
** Utilise le test t (dans tableau Coefficients)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Le test t est le […] de régression (s’utilise comme T pour les différences entre 2 […]).
-> Permet de voir le coefficient de régression est différent de […] ou pas.

A

Le test t est le coefficient de régression (s’utilise comme T pour les différences entre 2 moyenne).
-> Permet de voir le coefficient de régression est différent de 0 ou pas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Dans la régression multiple, l’erreur type est l’[…]

A

Dans la régression multiple, l’erreur type est l’écart-type de la distribution d’échantillonnage

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

En régression multiple, le test t nous dit qu’elle est la probabilité d’observer ce […] de régression s’il n’est pas différent de […].

A

En régression multiple, le test t nous dit qu’elle est la probabilité d’observer ce coefficient de régression s’il n’est pas différent de 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

VRAI ou FAUX.

Un coefficient de régression multiple est une corrélation

A

FAUX
Un coefficient de régression multiple n’est pas une corrélation.
On l’utilise seulement pour estimer les prédicteurs car ça y ressemble.
-> Ça nous permet de déterminer qu’elle est la variable qui contribue le plus à la prédiction

18
Q

Les valeurs du coefficient de bêta varie de […] à […]

A

Les valeurs du coefficient de bêta varie de -1 à 1

19
Q

À quoi servent les coefficient multiples (Bêta)?

A

Les bêta permettent de standardiser les coefficients de régression multiple en fonction de l’écart-type de la variable indépendante et l’écart-type de la variable dépendante
-> DONC ils permettent de standardiser les coefficients de régression pour prendre en compte les écart-types des variables (la variabilité)

20
Q

Le coefficient de régression est la […] de l’équation de régression

A

Le coefficient de régression est la pente de l’équation de régression

21
Q

Les coefficients bêta (Bi) permettent de comparer l’importance (la […]) de chacune des variables […] à la prédiction de la […]

A

Les coefficients bêta (Bi) permettent de comparer l’importance (la contribution) de chacune des variables indépendantes à la prédiction de la variable dépendante

22
Q

Avec des coefficients standardisés, l’ordonnée à l’origine est égale à […]

A

Avec des coefficients standardisés, l’ordonnée à l’origine est égale à 0

23
Q

VRAI ou FAUX

Le coefficient standardisé Bêta est une corrélation

A

FAUX
Le coefficient standardisé Bêta est une corrélation dans le cas d’une régression simple.
Ce n’est pas une corrélation lorsqu’il est utilisé pour une régression multiple

24
Q

Qu’est-ce que l’erreur standard des coefficients de régression?

A

Un indice de la précision des coefficients de régression

-> C’est un estimé de l’erreur-type de la distribution d’échantillonnage

25
Q

Que permet l’erreur-standard des coefficients de régression?

A

Il permet de faire des test t sur la valeur des coefficients de régression

26
Q

Quels sont les degrés de liberté utilisé pour tester les erreur-standard des coefficient de régression

A

N - p - 1

N; Nombre d’unités d’observation
p : Nombre de variables

27
Q

Qu’est-ce que l’erreur résiduelle de la régression multiple?

A

La variabilité non expliquée par l’équation de régression

-> C’est la somme des différences entre les valeurs observées et les valeurs prédites au carré

28
Q

Comment obtient-on la variance résiduelle ou le carré moyen de l’erreur de la régression multiple?

A

En divisant les degrés de liberté (N - p - 1)

CMresi/erreur: (E (Y-Ŷ)2)/ N-p-1

29
Q

À quoi sert la variance résiduelle?

A

Indice de variabilité qui permettra un test F et vérifier si l’équation représente une relation significative entre les variables prédictives et la variable dépendante

30
Q

Qu’est-ce que le coefficient de régression multiple R?

A

C’est la corrélation entre, d’une part, la variable dépendante (Y) et, d’autre part, la meilleure combinaison linéaire des prédicteurs
-> C’est aussi la corrélation entre la variable dépendante Y et les valeurs prédites Ŷ

31
Q

Mis au carré, R devient un pourcentage de […]

A

Mis au carré, R devient un pourcentage de variance expliquée

32
Q

VRAI ou FAUX

R2 est un estimateur biaisé

A

VRAI

C’est pourquoi il est préférable d’utiliser un R2 ajusté (R*2) pour prendre en compte le nombre de prédicteurs et le N

33
Q

Pour tester un R2, un utlise un test […]

A

Pour tester un R2, un utlise un test F

H0: R = 0
H1: R =/= 0

34
Q

Lorsque nous construisons une équation de régression, nous voulons généralement avoir le modèle le plus parcimonieux – un modèle qui offre la meilleure […] avec le plus […] nombre de prédicteurs

A

Lorsque nous construisons une équation de régression, nous voulons généralement avoir le modèle le plus parcimonieux – un modèle qui offre la meilleure prédiction avec le plus petit nombre de prédicteurs

-> Il faut donc choisir les « meilleures » variables indépendantes (VI) pour la prédiction de notre variable dépendante (VD)

35
Q

Quels sont les approches possibles pour estimer l’équation de régression la plus parcimonieuse ? (4)

A

1) Directe (Enter): Toutes les variables sont entrées en une étape
2) Par entrée successive des variables (Forward): Le premier modèle n’a qu’une variable, le second en a deux, etc
3) Par élimination des variables (Backward): Le premier modèle comporte toutes les variables. Puis, pour chacun des modèles successifs, une variable est retirée
4) Pas à pas (Stepwise): À chaque étape, une variable est entrée ou sortie du modèle selon un critère statistique (plus grande corrélation avec la VD ou plus grand F)

36
Q

Quel est le problème avec les approches visant les équation de régression les plus parcimonieuses possibles?

A

Elles se basent sur les test F, qui ne sont pas toujours puissants.
Nous utilisons de multiple test F pour décider si on a besoin d’une variable ou non

37
Q

Quels sont les 4 critères de sélection?

A

1) Akaike Information Criterion
2) Amemya Prediction Criterion
3) Mallow’s prediction Criterion
4) Schwarz Bayesian Criterion

38
Q

L’approche […] et l’approche […] sont les plus courantes

A

L’approche directe (enter) et l’approche pas à pas (stepwise) sont les plus courantes

39
Q

En quoi les critères d’ajustement sont populaires pour réduire les équations de régression multiple?

A

Ces dernières années, des critères d’ajustement sont devenus très populaires, car ils prennent en compte à la fois le R2 et le nombre de variables dans le modèle et facilitent grandement la sélection du modèle le plus parcimonieux

40
Q

Que permet les critères d’ajustement de la régression multiple?

A

Ils permettent de comparer différents modèles en prenant en compte le nombre de paramètres et l’ajustement du modèle (R2) afin de trouver le « meilleur » modèle

41
Q

Qu’est-ce que l’AIC ?

A

Akaike Information Criterion
C’est un critère très populaire développé pour les modèles estimés par vraisemblance maximum (maximum likelihood), mais aussi applicable à la régression multiple

42
Q

Comment peut-on accéder aux critères de sélection dans SPSS

A

En ajoutant “SELECTION” après “STATISTICS” dans la syntaxe