Cours1 Flashcards
Qu’est-ce une régression linéaire?
La régression linéaire représente un modèle statistique avec lequel on peut prédire la valeur de la variable dépendante (variable réponse; y) à l’aide des variables indépendantes (variables prédictives; x).
La régression linéaire est estimée à partir de :
a. La population
b. L’échantillon
b. L’échantillon
La pente B1 et l’ordonnée à l’origine B0 de la population sont inconnues, cependant nous pouvons estimer leur valeur à partir de l’échantillon.
Donner la formule exprimant la régression linéaire de la POPULATION.
Y= Bo + B1x + E
Dans ce cas, E est la lettre grecque epsilon .
Que représente Epsilon dans la formule exprimant la régression linéaire de la POPULATION.
Epsilon représente une erreur inconnue (on ne peut pas l’estimer).
Donner la formule exprimant la régression linéaire ESTIMÉE de la population.
^y = b0+ b1x
Lorsqu’on parle d’une droite estimée à partir de l’échantillon la variable dépendante est y-chapeau.
Expliquer la technique de minimisation qui sert à tracer la meilleure droite possible.
La technique ce nomme: le principe des moindres carrés ordinaires (MCO). Il s’agit de minimiser les écarts verticaux (minimiser les résidus: e). sum(e)^2
À noter: il ne faut pas confondre e avec E (Epsilon).
MCO sert à minimiser les sommes des carrés d’écarts dans une seule direction.
Vrai ou faux
La variable réponse est mesurée avec une plus grande précision que la variable explicative.
Faux
On suppose que la variable explicative x est mesurée avec une grande précision (plus que y) parce qu’elle est contrôlée (non-aléatoire).
Expliquer le partitionnement de la dispersion et y inclure les équations associées à chacune des parties mentionnées.
1) La dispersion résiduelle
2) La dispersion expliquée
3) La dispersion totale
1) la dispersion résiduelle représente la distance se trouvant entre la droite et le point.
yi-yi.chapeau
2) la dispersion expliquée est la distance qui sépare la moyenne de la variable réponse (y) et la droite.
yi. chapeau-y.barre
3) La dispersion totale est la somme de 1) et 2).
yi-y.barre
Définir SCT, SCE et SCR et expliquer de quelle façon elles sont reliées.
SCR: somme des carrés expliquée par la RÉGRESSION
SCE: somme des carrés des résidus: ERREUR
SCT: Somme de carrés totaux
SCR+SCE=SCT
Vrai ou faux
Plus que SCR augmente, r^2 (coefficient de détermination) diminue.
Faux
r^2= SCR/SCT r^2=SCR/(SCR+SCE)
Ainsi, plus que la somme des carrés expliquée par la régression augmente, plus que r^2 augmente.
Vrai ou faux
Un r^2 faible suggère une SCE élevée.
Vrai
Une SCE élevée sous-entend un ensemble de points très dispersé.
Définir le coefficient de détermination: r^2.
Le coefficient de détermination r^2 mesure la proportion de la variation
de y expliquée par x.
Il est égal au carré du coefficient de corrélation linéaire entre x et y.
Expliquer la régression linéaire Type 2/ la régression orthogonale/régression par axe MAJEUR: AM
La régression linéaire de type 2 s’applique lorsque x et y sont des variables aléatoires.
Y~X; X~Y
Dans ce cas, le principe MCO n’est plus valide. Il faut minimiser les carrés des écarts perpendiculairement à la courbe.
La régression linéaire de type 2 s’applique lorsque les deux variables aléatoires en présence ont été mesurées avec la même erreur
Définir un modèle statistique.
Une description des relations entre variables (i.e.,les x et y) et donc, entre des processus et des patrons naturels.
Un modèle est une abstraction d’un système réel afin d’en améliorer sa compréhension ou d’en prévoir le comportement.