Cours 9 Flashcards
Que permet le diagramme de dispersion?
La diagramme de dispersion permet d’examiner la relation entre deux variables continues X et Y
-> La droite de régression représente le meilleur ajustement linéaire entre les variables
Dans un diagramme de dispersion, chaque unité d’observation est représenté par un […] - les coordonnées sont les valeurs […] et […]
Dans un diagramme de dispersion, chaque unité d’observation est représenté par un point - les coordonnées sont les valeurs X et Y
VRAI ou FAUX
Les diagrammes de dispersion permettent d’examiner les relation de cause à effet
FAUX
Il est impossible de découvrir des relations de cause à effet avec un diagramme de dispersion
VRAI ou FAUX
Avec un diagramme de dispersion, on peut prédire la relation entre les variables même quand les points sont très dispersés
VRAI
Par contre, l’erreur de prédiction va être plus élevée
Qu’est-ce que la droite de régression?
La droite qui représente le meilleur ajustement linéaire dans le nuage de points, entre X et Y
Quelle est la forme de la droite de régression?
Y = bX + a
Y = La valeur prédite de Y b = La pente de la droite (de combien change Y pour un changement d'une unité de X) a = l'ordonnée à l'origine (la valeur de Y lorsque X = 0) X = La valeur du prédicteur
La droite de régression passe au milieu du nouage de points et minimise la somme des différences entre les valeurs […] et les valeurs […] au […] (l’erreur de […] / le […]).
Elle donne aussi une forme […]
La droite de régression passe au milieu du nouage de points et minimise la somme des différences entre les valeurs observées et les valeurs prédites au carré (l’erreur de prédiction / le résidu).
Elle donne aussi une forme quadratique (donc la fonction a toujours un minimum)
L’analyse statistique vise à trouver les valeurs […] et […] de l’équation de régression pour lesquels l’erreur de prédiction est aussi […] que possible
L’analyse statistique vise à trouver les valeurs b et a de l’équation de régression pour lesquels l’erreur de prédiction est aussi petite que possible
Pour la régression simple (2 variables), nous avons:
Ŷ = […]
où
a = Y - bX
b = COVxy/S2X
Pour la régression simple (2 variables), nous avons:
Ŷ = bX + a
où
a = Y - bX
b = COVxy/S2X (Covariance de X et Y divisé par la variance de X)
Qu’est-ce que le résidu
Variabilité qui n’est pas expliqué par la droite
Comment peut-on interpréter l’ordonnée à l’origine d’une droite de régression?
Peut représenter une constante ou le minimum de la variable prédite
ex: Un temps de réponse minimum
Comment peut-on interpréter la pente d’une droite de régression?
Coefficient de régression
Représente le taux de changement de Y en fonction de X
Si nous établissons un lien entre deux variables avec une équation de régression, il faut être prudent quant à l’interprétation - un lien de prédiction n’est pas une relation […]
Si nous établissons un lien entre deux variables avec une équation de régression, il faut être prudent quant à l’interprétation - un lien de prédiction n’est pas une relation causale
Le plus souvent nous utilisons un coefficient de régression …, […]dépendant des échelles de mesure
Le plus souvent nous utilisons un coefficient de régression standardisé bêta (b), indépendant des échelles de mesure
Le coefficient de régression standardisé bêta représente la […] entre X et Y si les deux variables avaient la même […]
Le coefficient de régression standardisé bêta représente la pente entre X et Y si les deux variables avaient la même échelle
Le coefficient de régression standardisé bêta est interprété comme une […] (va de -1 à 1).
C’est une corrélation ([…]standardisé) quand on est en régression […]
Le coefficient de régression standardisé bêta est interprété comme une corrélation [va de -1 à 1).
C’est une corrélation (Covariance standardisé) quand on est en régression simple
Quel est l’indice d’ajustement de la droite de régression est le plus utilisé?
r2 (au carré) (ou R2 pour la régression multiple) qui représente le pourcentage de variance de Y expliqué par X
Le pourcentage de variance expliqué varie entre […] et […]%
Le pourcentage de variance expliqué varie entre 0 et 100%
En régression, nous utilisons les […] plutôt que les variances pour caractériser la variabilité
-> Il y a différentes […] qui représentent différentes sources de variabilité des données
En régression, nous utilisons les sommes de carré plutôt que les variances pour caractériser la variabilité
-> Il y a différentes somme des carrés qui représentent différentes sources de variabilité des données
SCx: Variabilité de […]
SCy: Variabilité de […]
SCŷ: Variabilité de […] expliqué par […] (la variabilité des valeurs […] ou SC expliquée par la […])
SCx: Variabilité de X
SCy: Variabilité de Y
SCŷ: Variabilité de Y expliqué par X (la variabilité des valeurs prédites ou SC expliquée par la régression)
Le pourcentage de variance de la variable dépendante Y expliqué par le prédicteur X est donné par :
r2 = SCŷ/SCy
Le pourcentage de variance de la variable dépendante Y expliqué par le prédicteur X est donné par :
r2 = […]ŷ/[…]y
Si la somme des carrés des valeurs prédites s’approche de la somme des carrés de la variable dépendante Y, la variance expliquée (r 2) approche […]
Si la somme des carrés des valeurs prédites s’approche de la somme des carrés de la variable dépendante Y, la variance expliquée (r 2) approche 1
La variabilité non expliquée par la régression est appelée Somme des carrés […], c’est la différence entre la SC de la variable Y et la SC des valeurs prédites (ou somme des carrés de la régression) :
SC[…] = SCy - SCŷ
La variabilité non expliquée par la régression est appelée Somme des carrés résiduelle, c’est la différence entre la SC de la variable Y et la SC des valeurs prédites (ou somme des carrés de la régression):
SCrésiduelle = SCy - SCŷ
Une fois que nous avons établi une équation de régression, nous effectuons des tests d’hypothèse afin de vérifier si l’équation explique une part de […] plus […] que le hasard
Une fois que nous avons établi une équation de régression, nous effectuons des tests d’hypothèse afin de vérifier si l’équation explique une part de variance plus grande que le hasard
VRAI ou FAUX
Dans les régressions, il y a deux tests d’hypothèses
VRAI
1) Test global
2) Test sur le coefficient de régression b
Quelles sont les hypothèses postulé dans une régression
1) Test global pour tester si la corrélation est significativement différente de zéro - un test significatif implique un lien significatif entre X et Y
H0 : R = 0
H1 : R =/= 0
2) Test sur le coefficient de régression b
H0 : b = 0
H1 : b =/= 0
VRAI ou FAUX
Il est possible de tester le pourcentage de variance expliqué (R2) d’une régression avec un test t, mais SPSS regression utilise un test F (ANOVA) pour tester les mêmes hypothèses.
VRAI
Qu’est-ce que le test F permet que le test T ne permet pas dans les régression
Le test F est plus courant et il permet de tester une équation de régression multiple qui comprend plusieurs prédicteurs
Le test F (du test sur r) repose sur un ratio F:
F = […] reg/[…]res
Le test F (du test sur r) repose sur un ratio F:
F = CM reg/CMres
Quels sont les différents degrés de liberté des régression pour le test sur r?
dl reg = k
dl res = n - k - 1
dl total = n-1
n: Unités d’observation
k : Variables dans l’équation (k = 1 pour la régression simple)
Reg: Regression?
Res: Résiduel?
Quelles sont les hypothèses pour le test sur b?
H0 : b = 0
H1: b =/= 0
Quels sont les différents degrés de liberté des régression pour le test sur b?
dl = N-2
Le test sur b se calcule avec un test […]
-> La valeur t se calcule avec l’erreur-[…] (erreur-type) de b
t = b/Sb
Sb: […] de la distribution d’échantillonnage de b
Le test sur b se calcule avec un test t
-> La valeur t se calcule avec l’erreur-standard (erreur-type) de b
t = b/Sb
Sb: Écart-type de la distribution d’échantillonnage de b