Cours 10 Flashcards
Quelles sont les trois approches de la régression multiple?
1) Algèbre scalaire
2) Algèbre matricielle
3) Étude basée sur les sorties d’ordinateur
Quelle est la différence principale entre la régression simple et multiple?
Régression simple: Équation de régression qui implique un prédicteur et une variable prédite
Régression multiple: Équation de régression qui implique plusieurs prédicteurs et une variable prédite.
VRAI ou FAUX.
En régression multiple, on tente d’avoir le moins de prédicteurs possible.
VRAI
On veut une équation parcimonieuse qui permet la meilleure prédiction possible tout en étant économique avec le nombre prédicteur
Quelle est l’équation de la régression multiple?
Ŷ = b0 + b1X1 + b2X2 + … + bpXp
b0: Ordonnée à l’origine
bi: Coefficient de régression
En régression multiple, la mathématique pour déterminer les coefficients de régression devient rapidement complexe à mesure que le nombre de variables […]
En régression multiple, la mathématique pour déterminer les coefficients de régression devient rapidement complexe à mesure que le nombre de variables augmente
-> Les logiciels statistiques permettent d’effectuer les calculs sans grande difficulté
VRAI ou FAUX
Les principes mathématiques de la régression multiple demeurent les même que ceux de la régression simple
VRAI
Décrivez les différentes forces de corrélation
Corrélation forte: > 0.6
Corrélation acceptable: 0.5
Corrélation faible: < 0.2
La corrélation entre l’ensemble des prédicteurs et la variable dépendante est indiqué par […]
La corrélation entre l’ensemble des prédicteurs et la variable dépendante est indiqué par R
R2 (au carré) est le […]
R2 (au carré) est le pourcentage d’explication de corrélation
[…] on a de paramêtres/prédicteurs, plus l’ajustement apporté par SPSS est important
Plus on a de paramêtres/prédicteurs, plus l’ajustement apporté par SPSS est important
Quel est l’équation de la somme de carré résiduelle/erreur?
(Somme des valeurs observées - Somme des valeurs prédites) au carré
Quels sont les différents degrés de liberté utilisés en régression multiple?
dl total: n - 1
dl régression: k -1
dl résiduelle: (n-1) - (k-1)
Quelles sont les hypothèses d’une régression multiple
1)
H0 : R = 0
H1 : R =/= 0
** Utilise le test F (dans tableau ANOVA)
2)
H0 : bi = 0
H1: bi =/= 0
** Utilise le test t (dans tableau Coefficients)
Le test t est le […] de régression (s’utilise comme T pour les différences entre 2 […]).
-> Permet de voir le coefficient de régression est différent de […] ou pas.
Le test t est le coefficient de régression (s’utilise comme T pour les différences entre 2 moyenne).
-> Permet de voir le coefficient de régression est différent de 0 ou pas.
Dans la régression multiple, l’erreur type est l’[…]
Dans la régression multiple, l’erreur type est l’écart-type de la distribution d’échantillonnage
En régression multiple, le test t nous dit qu’elle est la probabilité d’observer ce […] de régression s’il n’est pas différent de […].
En régression multiple, le test t nous dit qu’elle est la probabilité d’observer ce coefficient de régression s’il n’est pas différent de 0.
VRAI ou FAUX.
Un coefficient de régression multiple est une corrélation
FAUX
Un coefficient de régression multiple n’est pas une corrélation.
On l’utilise seulement pour estimer les prédicteurs car ça y ressemble.
-> Ça nous permet de déterminer qu’elle est la variable qui contribue le plus à la prédiction
Les valeurs du coefficient de bêta varie de […] à […]
Les valeurs du coefficient de bêta varie de -1 à 1
À quoi servent les coefficient multiples (Bêta)?
Les bêta permettent de standardiser les coefficients de régression multiple en fonction de l’écart-type de la variable indépendante et l’écart-type de la variable dépendante
-> DONC ils permettent de standardiser les coefficients de régression pour prendre en compte les écart-types des variables (la variabilité)
Le coefficient de régression est la […] de l’équation de régression
Le coefficient de régression est la pente de l’équation de régression
Les coefficients bêta (Bi) permettent de comparer l’importance (la […]) de chacune des variables […] à la prédiction de la […]
Les coefficients bêta (Bi) permettent de comparer l’importance (la contribution) de chacune des variables indépendantes à la prédiction de la variable dépendante
Avec des coefficients standardisés, l’ordonnée à l’origine est égale à […]
Avec des coefficients standardisés, l’ordonnée à l’origine est égale à 0
VRAI ou FAUX
Le coefficient standardisé Bêta est une corrélation
FAUX
Le coefficient standardisé Bêta est une corrélation dans le cas d’une régression simple.
Ce n’est pas une corrélation lorsqu’il est utilisé pour une régression multiple
Qu’est-ce que l’erreur standard des coefficients de régression?
Un indice de la précision des coefficients de régression
-> C’est un estimé de l’erreur-type de la distribution d’échantillonnage
Que permet l’erreur-standard des coefficients de régression?
Il permet de faire des test t sur la valeur des coefficients de régression
Quels sont les degrés de liberté utilisé pour tester les erreur-standard des coefficient de régression
N - p - 1
N; Nombre d’unités d’observation
p : Nombre de variables
Qu’est-ce que l’erreur résiduelle de la régression multiple?
La variabilité non expliquée par l’équation de régression
-> C’est la somme des différences entre les valeurs observées et les valeurs prédites au carré
Comment obtient-on la variance résiduelle ou le carré moyen de l’erreur de la régression multiple?
En divisant les degrés de liberté (N - p - 1)
CMresi/erreur: (E (Y-Ŷ)2)/ N-p-1
À quoi sert la variance résiduelle?
Indice de variabilité qui permettra un test F et vérifier si l’équation représente une relation significative entre les variables prédictives et la variable dépendante
Qu’est-ce que le coefficient de régression multiple R?
C’est la corrélation entre, d’une part, la variable dépendante (Y) et, d’autre part, la meilleure combinaison linéaire des prédicteurs
-> C’est aussi la corrélation entre la variable dépendante Y et les valeurs prédites Ŷ
Mis au carré, R devient un pourcentage de […]
Mis au carré, R devient un pourcentage de variance expliquée
VRAI ou FAUX
R2 est un estimateur biaisé
VRAI
C’est pourquoi il est préférable d’utiliser un R2 ajusté (R*2) pour prendre en compte le nombre de prédicteurs et le N
Pour tester un R2, un utlise un test […]
Pour tester un R2, un utlise un test F
H0: R = 0
H1: R =/= 0
Lorsque nous construisons une équation de régression, nous voulons généralement avoir le modèle le plus parcimonieux – un modèle qui offre la meilleure […] avec le plus […] nombre de prédicteurs
Lorsque nous construisons une équation de régression, nous voulons généralement avoir le modèle le plus parcimonieux – un modèle qui offre la meilleure prédiction avec le plus petit nombre de prédicteurs
-> Il faut donc choisir les « meilleures » variables indépendantes (VI) pour la prédiction de notre variable dépendante (VD)
Quels sont les approches possibles pour estimer l’équation de régression la plus parcimonieuse ? (4)
1) Directe (Enter): Toutes les variables sont entrées en une étape
2) Par entrée successive des variables (Forward): Le premier modèle n’a qu’une variable, le second en a deux, etc
3) Par élimination des variables (Backward): Le premier modèle comporte toutes les variables. Puis, pour chacun des modèles successifs, une variable est retirée
4) Pas à pas (Stepwise): À chaque étape, une variable est entrée ou sortie du modèle selon un critère statistique (plus grande corrélation avec la VD ou plus grand F)
Quel est le problème avec les approches visant les équation de régression les plus parcimonieuses possibles?
Elles se basent sur les test F, qui ne sont pas toujours puissants.
Nous utilisons de multiple test F pour décider si on a besoin d’une variable ou non
Quels sont les 4 critères de sélection?
1) Akaike Information Criterion
2) Amemya Prediction Criterion
3) Mallow’s prediction Criterion
4) Schwarz Bayesian Criterion
L’approche […] et l’approche […] sont les plus courantes
L’approche directe (enter) et l’approche pas à pas (stepwise) sont les plus courantes
En quoi les critères d’ajustement sont populaires pour réduire les équations de régression multiple?
Ces dernières années, des critères d’ajustement sont devenus très populaires, car ils prennent en compte à la fois le R2 et le nombre de variables dans le modèle et facilitent grandement la sélection du modèle le plus parcimonieux
Que permet les critères d’ajustement de la régression multiple?
Ils permettent de comparer différents modèles en prenant en compte le nombre de paramètres et l’ajustement du modèle (R2) afin de trouver le « meilleur » modèle
Qu’est-ce que l’AIC ?
Akaike Information Criterion
C’est un critère très populaire développé pour les modèles estimés par vraisemblance maximum (maximum likelihood), mais aussi applicable à la régression multiple
Comment peut-on accéder aux critères de sélection dans SPSS
En ajoutant “SELECTION” après “STATISTICS” dans la syntaxe