Régression linéaire simple Flashcards
Vrai ou Faux. La régression linéaire nous permet de parler de relation causale.
Faux, elle nous informe sur les prédicteurs, donc quelle variable vient avant l’autre (contrairement à la corrélation), mais pour réellement parler de cause à effet ce n’est pas une analyse statistique qui va nous permettre ça, mais bien le design de recherche.
Quels sont les prérequis de la régression linéaire?
- VD distribuée normalement
- Les variances de la VD doivent être statistiquement égales par tous les niveaux de la VI
- Données indépendantes
Dans l’exemple de Marcos, pourquoi a-t’il créé un score Z pour la force totale ?
Car il a utilisé plusieurs mesures différentes pour différentes forces de différentes parties du corps. Il a donc dû créé le score force totale. Pour ce faire, il a dû rendre toutes les mesures comparables, ce qui se fait à partir du score Z (distance entre les scores = la même peu importe la mesure).
En régression linéaire, pourquoi utilise-t’on un test F (ANOVA)?
Pour évaluer si le coefficient de corrélation multiple (« R ») est statistiquement égal à zéro.
Vrai ou Faux. Dans le cas d’une analyse de régression linéaire bivariée, l’indice de corrélation multiple (“R”) est le même que l’indice de la corrélation bivariée (“r”).
Vrai
Que représente le R square (R à la 2) ?
Le coefficient de détermination dans la régression linéaire.
Quels sont les graphiques pertinents à analyser lors d’une régression linéaire?
Le “Simple Scatter” et le graphique des valeurs prédites et résiduelles
Pourquoi le graphique “Simple Scatter” est-il intéressant en régression linéaire ?
Car il présente l’association entre le numéro de blessures et l’indice total de force. Ajouter la ligne de régression permet de visualiser l’inclinaison.
Pourquoi le graphique des valeurs prédites et résiduelles est-il intéressant ?
Car il permet de voir si les deux variables sont corrélées de façon linéaire ou non-linéaire. De plus, si les résidus sont plutôt regroupés autour de quelques valeurs de scores prédits, on doit suspecter que le prérequis de l’homogénéité de la variance a été violé. Finalement, ce graphique permet aussi d’analyser si la covariance est statistiquement proche de 0.
Qu’est-ce qu’un résidu?
La partie de la variance qui n’est pas expliquée par les autres variables.
Qu’est-ce que la covariance?
Une mesure de la variation simultanée de deux variables aléatoires. C’est-à-dire que la covariance devient plus positive pour chaque couple de valeurs qui diffèrent de leur moyenne dans le même sens, et plus négative pour chaque couple de valeurs qui diffèrent de leur moyenne dans le sens opposé. Si deux variables sont indépendantes (ce qu’on veut) leur covariance est nulle.
Donne un exemple de présentation des résultats pour une régression linéaire simple.
Une régression linéaire bivariée a été effectuée à fin d’évaluer la prédiction d’un indice de blessure physique à partir d’un indice général de force physique par des femmes âgées. Le graphique « scatter » (voir Graphique 1) indique que les deux variables sont associées de façon linéaire (une ligne droite clairement inclinée, en indiquant une corrélation négative), en démontrant que, de façon générale, si la force augmente, l’indice général de blessure diminue. Comme il a été prévu, les femmes âgées, celles qui sont plus fortes, ont la tendance d’avoir des indices plus petits de blessures. À l’aide du Graphique 2, on peut voir que les variables à l’étude sont corrélées de façon linéaire (la distribution des résidus n’a pas de forme prédéfinie) et qu’on n’a pas de raison de s’inquiéter sur le préalable de l’homogénéité de la variance (car les résidus ne se sont pas regroupés autour de quelques valeurs des scores prédites). En considérant les résultats obtenus par les statistiques F et t (F(1, 98) = 11,59; p < 0,01; t(98) = -3,40; p < 0,01), et en addition au fait que l’intervalle de confiance à 95% ne contient pas la valeur zéro3 (cet intervalle varie entre -7,74 à -2,04), on peut conclure que la mesure de l’indice général de force est significativement associée à la mesure générale de blessure physique. Selon l’hypothèse, la force générale du corps des femmes âgées détermine (explique), de façon statistiquement significative (p < 0,01), le nombre d’accidents (blessures) de ces femmes. En ce qui concerne la question de recherche, on peut classifier le niveau de précision de la prédiction générale du nombre de blessures comme modéré. La corrélation entre l’indice de force et de blessure a été négative et significative (r = -0,32; p < 0,01). Cela indique que 11% de la variance des indices de blessures est expliquée par son association linéaire (car en supposant que les 5 mesures de forces sont corrélées entre elles et de nature linéaire) avec l’indice général de force.