Cours 4 Flashcards
V ou F. Comme on n’a pas accès à la population, on doit estimer les paramètres b0 et b1 à partir de l’échantillon.
VRAI
V ou F. La relation entre X et Y dépend de B1 (EXAMEN)
VRAI
À quoi correspond B0 ?
La valeur prédite de Y lorsque la valeur du prédicateur X vaut 0.
Le meilleur estimateur de B1 à partir des données
À quoi correspond B1 ?
Au nombre d’unités d’augmentation de la valeur prédite Y lorsque la valeur du prédicateur X augmente de 1 unité
Que cherche-t-on à définir à partir de B1 et B0? (EXAMEN)
Si la prédiction de Y connaissant X est meilleure que celle ne connaissant pas X
Quel est le meilleur modèle selon l’hypothèse nulle ?
B0 = moyenne
Quels sont les 4 tableaux en sortie sur SPSS dans une régression linéaire ?
- Variables introduites/éliminées
- Récapitulatif des modèles
- ANOVA
- Coefficients
À quoi correspond la variable X dans le tableau des variables introduites/éliminées ?
Le prédicateur introduit dans le modèle, variable indépendante
À quoi correspond la variable Y dans le tableau des variables introduites/éliminées ?
La variable prédite, variable indépendante
À quoi correspond t dans le tableau des coefficients?
t = b0 - H0 (signal) / ES b0 (bruit)
où H0 = 0
Tente de déterminer si b0 est différent de 0 et si b1 est différent de b0
V ou F. Lorsque l’alpha est plus petit que 0.05, on rejette H0. Lorsque alpha est plus grand que 0.05, on conserve H0 (EXAMEN)
VRAI
Pourquoi réalise-t-on une ANOVA ?
Pour tester si le modèle explique mieux les données que le modèle de base : la moyenne des valeurs de la variable Y. Ce modèle de base recèle
Qu’est-ce qui reflète l’hypothèse nulle de l’ANOVA ?
La moyenne des valeurs de la variable Y (modèle de base), meilleur prédicteur.
À quoi correspond l’hypothèse alternative de l’ANOVA ?
Le modèle utilisant les meilleures valeurs des estimateurs (b^0 et b^1)
Qu’est-ce que la SCT ?
SC de l’erreur pour H0
Qu’est-ce que la SCR ?
SC de l’erreur pour H alternative
Qu’est-ce que la SCM ?
la différence entre la SCT-SCR, expliquée par le modèle alternatif, somme des carrés expliquée par le Modèle
Que représente la statistique F ?
Le rapport “signal sur bruit”
Quel est le but des résultats de F?
Permet de rejeter le modèle de base au profit de du modèle alternatif avec une probabilité d’erreur inférieure à 0.1% si H0 est vraie
Donc la variable Y permet de mieux expliquer la variable X que si on ne la connaissait pas
Car SCR = SCT donc n’explique pas mieux
Quel est le problème de l’ANOVA ?
Le test est basé sur les carrés moyens (CM) du modèle et des résiduels
Or les CMR dépend de la taille de l’échantillon
Plus N est grand, plus le CMR est faible
Plus CMR est faible, plus F est faible
Plus F est faible, plus il est facile de rejeter H0
Qu’est-ce que R^2 ?
La taille d’effet du modèle sur la prédiction de Y
Quel est le problème de R^2 ?
Plus k est grand par rapport à N1, plus on risque d’expliquer de la variabilité correspondant à de l’erreur d’échantillonnage, plutôt que d’expliquer un effet réel dans la population
Donc plus k est grand par rapport à N, moins l’explication des données se généralisera à l’ensemble de la population (pas d’erreur dans mes données mais pas généralisable à la population)
*Plus N est grand, plus dl res est petit > test puissant
Quelle est la solution à R^2?
R^2 ajusté
Plus k est grand par rapport à N, plus la valeur de R2 ajusté est petite
Si N est beaucoup plus grand que k, alors R2 ajusté = R2
À quoi correspond R ?
La corrélation entre le prédicteur X et la variable prédite Y
Qu’est-ce que la covariance ?
Permet de mettre en relation des variables distinctes
Indique le sens (polarité) d’un nuage de points
Indique le degré d’aplatissant du nuage de points
Constitue une mesure de l’association entre 2 variables
Quelles sont les informations que nous fournissent la covariance ?
- Le sens de l’inclinaison du nuage de points
2. Le degré d’aplatissement du nuage de points
Expliquez le sens (polarité) d’un nuage points.
On a une covariance positive quand la somme des produits positifs est plus élevée que la somme des produits négatifs
On a une covariance négative quand la somme des produits positifs est plus faible que la somme des produits négatifs
Expliquez le degré d’aplatissement d’un nuage points.
Plus le nuage de points est aplatit, plus les produits sont de mêmes signes et donc, plus la valeur absolue de la covariance est élevée
Moins le nuage de points est aplatit, plus il y a un équilibre entre les produits de mêmes signes et les produits de signes opposés et donc, plus la valeur absolue de la covariance est __
Expliquez la mesure d’association entre 2 variables
Plus la norme de la covariance est élevée, plus la forme de la dispersion des données est aplatie.
Nous pouvons également dire que plus la forme de la dispersion est aplatie, plus les variables sont fortement associées/corrélées.
Ainsi plus la covariance est élevée, meilleure est l’association de l’une des variables sur la base de l’autre
Quels sont les problèmes de la covariance ? (2)
- Les unités de la covariance sont peu intuitives (dépendent des variables mesurées)
- Il est difficile de dire si une covariance est élevée
Quelle est la solution pour la covariance ?
Standardiser les 2 variables
Multiplier l’écart à la moyenne en terme d’écart type en X et en Y
On obtient la corrélation entre les variables X et Y
Donc multiplier les scores z de la variable X par les scores z de la variable Y
V ou F. La valeur maximale de la valeur absolue de la covariance, survient lorsque le nuage de points corresponds à une ligne droite parfaite
VRAI
Compléter l’énoncé suivant.
rxy= __A__ correspond à une droite parfaite de polarité positive
rxy= __B__ correspond à une droite parfaite de polarité négative
rxy= __C__ correspond à un nuage de points sans relation entre X et Y
A. +1
B. -1
C. 0
Comment la corrélation règle les problèmes de la covariance ?
- Les unités de la covariance sont peu intuitives (dépendent des variables mesurées)
SOL. = La corrélation n’a pas d’unité et représente donc une mesure d’association pure, facile à interpréter
- Il est difficile de dire si une covariance est élevée
SOL = Les valeurs de la corrélation sont limitées à -1 = rxy = +1
Quoi faire avant de faire l’analyse de régression?
Pré traitement des données
- Vérifier et gérer les données manquantes
- Vérifier et gérer les données extrêmes et les données influentes
- Vérifier le postulat de linéarité et d’additivité
- Vérifier le postulat de normalité
- Vérifier le postulat d’homoscédasticité
- Vérifier le postulat d’indépendance des données
V ou F. Une donnée peut être ni extrême sur le prédicteur (X) ni sur la variable prédite (Y) et être tout de même une donnée extrême
VRAI
Pourquoi utiliser la distribution des résiduels au lieur d’utiliser la distribution des données dans chacune des variables ?
La grandeur de chaque résiduel est difficile à interpréter, car elle est dans les mêmes unités que la variable Y
Toutefois, on peut calculer les scores Z des résiduels, la distribution des scores z a une moyenne de 0 et un écart type de 1 et on peut alors utiliser les critères habituels
Comment vérifier l’influence qu’a une donnée sur le modèle estimé ?
Une donnée ne devrait pas à elle seule changer significativement les résultats de nos analyses
V ou F. Les postulats s’intéressent à la distribution des erreurs de prédictions et non pas aux distributions des variables elles-mêmes
VRAI
V ou F. On peut vérifier visuellement les postulats de linéarité et d’homoscédasticité à l’aide d’un graphique présentant les scores z des résiduels (axe des ordonnées) en fonction des scores z des valeurs prédites (axe des abscisses).
VRAI
V ou F. On peut vérifier visuellement le postulat de normalité des résiduels en utilisant un histogramme des résiduels (et un graphique P-P).
VRAI
V ou F. Les valeurs d’asymétrie et d’aplatissement doivent être mesurées sur la distribution des résiduels (et non sur la distribution des données à l’intérieur de chaque variable).
VRAI
Le théorème central limite est également applicable.
Quoi faire si la linéarité n’est pas respectée ?
on devrait soit utiliser un modèle non linéaire, soit appliquer une transformation aux données qui permette de les rendre linéaires
Quoi faire si l’homoscédasticité n’est pas respectée ? (2)
- Utiliser la méthode de «bootstrap»
2. Utiliser la méthode des moindres carrés pondérés