cours 7 Flashcards
Qu’est ce que la régression linéaire simple?
- La régression prédit (estime) la position probable d’une personne sur la variable y à partir de sa position connue sur la variable x
- Le degré de précision de cette estimation dépend de la taille du “r” connue
- ex : Quel est le nombre d’enfants que Marie a?
Canada: Moyenne = 2 et Marie est canadienne.
Prédiction: Marie aurait probablement 2 enfants - Le but de la régression consiste alors à utiliser la relation générale (r) pour faire une prédiction individualisée et plus précise que celle permise à partir de la moyenne
- fournit une estimation «juste» seulement si la relation xy est linéaire
- SIMPLE = car on prédit la position de l’observation sur la variable (y) à partir de notre connaissance D’UNE seule autre variable (x).
Vrai ou faux, en régression linéaire MULTIPLE, on utilise plusieurs variables indépendantes (X) pour prédire la variable «y» (VD)
vrai
La précision de la prédiction dans une régression s’améliore au fur et à mesure que r augmente (la réduction de l’incertitude étant plus grande avec des r plus élevées) élabore.
r = ± 1,0 : pour chaque observation x, on estime sans erreur la performance sur y.
r = 0,0 : pour chaque valeur de x, on estime la même valeur pour toutes les valeurs y (i.e. la moyenne de y, ce qui entrainera beaucoup d’erreurs dans les prédictions).
r > 0,0; < ±1,0: le niveau de précision (et donc d’erreur) variera entre 0 et 100 %
Qu’est ce que la régression linéaire simple standardisée?
- La régression standardisée utilise la position en score-z de l’observation x qu’on a déjà, afin d’estimer (prédire) la position en score-z sur la variable y
- zx réfère au score z que nous connaissons (la VI); elle prend le nom de prédicteur et ŷ réfère au score z que nous voulons prédire (la VD), elle s’appelle la variable prédite.
- La régression standardisée : le terme b signifie que la régression est standardisée.
donc
1. On transforme l’observation x en score-z.
2. On multiplie le score z par le r
3. Nous obtenons la valeur prédite ŷ pour cette observation
Qu’est ce qu’une régression forte?
Plusieurs observations situées a la même position sur x peuvent être situées différemment sur y
comment calculer la valeur prédite y?
- La valeur prédite (ŷ) se trouve en multipliant la corrélation par le score z de la valeur x de l’observation.
ŷ = r * zx
r = 1 : zx = 3,
ŷ = 3 (1 * 3 = 3)
vrai ou faux, r devient «b» (béta) = le coefficient de régression standardisé.
vrai
Qu’est ce que la régression non-standardisé?
Elle analyse les données originales et produit une estimation en valeurs originales. Mais les valeurs originales proviennent de distributions x et y qui n’ont pas nécessairement une moyenne et un s identique.
La droite de régression sera établie en intégrant les moyenne et s de x et de y.
Qu’est ce que le coefficient de régression NS b?
b = r (sy/sx)
(sy/sx): Une correction arithmétique permettant d’exprimer la corrélation en valeur brute et non pas en valeur standardisée.
à quoi sert l’ordonnée à l’origine “a” dans la formule du coefficient de régression NS b?
Elle prend en considération que les deux variables x et y n’ont pas nécessairement la même moyenne, les deux pouvant être numériquement différente (grammes et kg)
- Elle sert à «ajuster» la valeur prédite (ŷ) afin qu’elle soit sur l’échelle de y
- Elle indique la valeur sur y, lorsque x est à sa valeur minimale ou a «zéro».
Quelle est la différence entre la régression standardisé et non-standardisé?
- L’ordonnée à l’origine est toujours «0» en régression standardisée, alors qu’elle est presque jamais «0» en non standardisée.
- La régression standardisée utilise la corrélation (standardisée) pour produire une estimation alors que la régression NS utilise la relation NON-standardisée pour produire une estimation en valeurs originales
compare les formule des régression standardisé et non standardisé b.
- Régression linéaire standardisée :
Modèle: y = bx * zx.
Coefficient de régression: b = rxy.
Ordonnée à l’origine: b0= 0,0 (il n’y en a pas).
ŷ = en score-z. - Régression linéaire NON standardisée (NS) :
Modèle: y = a + bx.
Coefficient de régression: b = r (sy / sx).
Ordonnée à l’origine: a = Χy- bΧx.
ŷ = en valeur originale de y.
Vrai ou faux, lorsque la pente de régression est horizontale (complètement plat) ça représente une erreur d’estimation flagrante, donc plus le nuage de point est éparpillée, plus c’est une grande erreur d’échantillon, plus les point font une ligne droite, moins l’erreur sera probable
vrai
comment on calcule l’erreur d’estimation?
nous comparons, pour chaque observation, sa véritable valeur y a sa valeur prédite (ŷ) :
e = (ŷ - y)
e = l’erreur d’estimation.
ŷ = la valeur prédite de y.
y = la véritable valeur de y.
Qu’est ce que l’erreur-type d’estimation?
L’erreur type d’estimation nous indique l’erreur typique (moyenne) que nous faisons avec nos prédictions. On utilise cette information pour calculer une fourchette de valeurs à l’intérieur de laquelle se trouvera probablementla véritable valeur