Stat 6 Flashcards
Quand utilise-t-on la régression linéaire ?
Quand on veut expliquer la variation d’une variable dépendante (issue) continue à partir de certaines caractéristiques des patients.
Pour expliquer la relation entre une variable dépendante continue et une autre variable indépendante (continue ou catégorique)
Condition pour faire une régression linéaire
Variable d’intérêt continue
La variable dépendante est toujours _________
continue
La variable indépendante peut être ________ ou _________
continue ou catégorique
Que suppose-t-on sur la relation entre les variables dépendantes et indépendantes quand on fait une régression linéaire ?
Que la relation entre les deux variables est linéaire.
Que l’échantillon est aléatoire et donc par conséquent que les sujets sont indépendants les uns des autres.
Quelle est la fonction d’une régression linéaire ?
La moyenne de la variable dépendante est une fonction de la variable
indépendante.
y = f(x)
La régression linéaire est une généralisation de?
La régression linéaire est la généralisation de la comparaison de deux moyennes.
Qu’est-ce que le modèle de régression linéaire estime comme droite ?
Le modèle de régression linéaire estime la droite qui décrit le mieux la relation entre les 2 variables.
Que représente B1 dans une régression linéaire ?
La différence de moyennes de la variable Y (dépendante) pour des sujets qui ont une différence de un pour la variable X (indépendante).
Représente la pente de la droite de régression.
Que représente B0 dans une régression linéaire ?
Représente la moyenne de la variable dépendante lorsque X=0
Quelles sont les 2 méthodes pour estimer les bêtas ?
- Méthode des moindres carrés
- Méthode du maximum de vraisemblance.
Quel paramètre en B1 et B0 doit-on estimer en premier ?
B1 avant B0
pas l’inverse
Quoi faire avant de faire des prédictions avec le modèle de régression ?
Calculer un intervalle de confiance pour B1
ou
Tester si B1 est différent de 0, soit s’il existe bel et bien, dans la population, une différence entre X et Y.
Hypothèses du test d’hypothèse pour B1
H0 : B1 = 0
Ha: B1 n’égale pas 0
T suit une loi de Student avec n-2 degrés de liberté
Qu’est-ce que le coefficient de corrélation (r) ?
Mesure de la relation linéaire entre X et Y. Estimateur du coefficient de corrélation p(rho) de la population
n’a plus d’unité (vs bêta 1), mais est affecté par le signe + ou - de la pente (b1)
Sa valeur est comprise entre -1 et 1
Le r est l’estimateur de quel coefficient de corrélation ?
Estimateur du coefficient de corrélation p(rho) de la population
r = 0 si et seulement si
b1 = 0
r = 1 si et seulement si
tous les points se situent sur une droite de pente positive
Quel est le but de la régression linéaire multiple ?
Quand on veut expliquer une variable dépendante à l’aide de 2 variables indépendantes ou plus
Comment sont les variables dépendante et indépendantes dans une régression linéaire multiple ?
Variable dépendante : continue !!!
variable indépendante : continue ou catégorique
Peut-on faire une régression linéaire avec une variable dépendante catégorielle?
Non.
c’est de la régression logistique
Quel modèle de régression linéaire comporte le moins de biais ?
multiple
Vrai ou faux : dans une régression linéaire multiple, on calcule 1 seul IC valide pour tous les bêta
Faux.
Pour chaque bêta, on calcule un intervalle de confiance
Qu’est-ce que le F-test ?
Le test de Fisher qui vérifie s’il y a au moins 1 variable indépendante qui est associée à la variable dépendante.
Il teste l’égalité des moyennes
Quelles sont les hypothèses du F-test ? (Fisher Test)
H0 : tous les bêta sont les mêmes et sont égal à 0
donc : la variable Y est indépendante des variables Xj
Ha : au moins un des bêta est non nul
donc : la variable Y est dépendante d’au moins une des variable Xj
Quelle est la statistique du test F ?
t = bi/Si
t suit une loi de Student avec n-p-1 degré de liberté
Comment interpréter un bêta dans une régression linéaire multiple ?
𝑏1 représente la différence de moyennes de Y pour une différence de 1 unité pour X1, en supposant que toutes les autres variables incluses dans le modèle sont distribuées également entre les patients qui ont une valeur de X1 = x et ceux qui ont une valeur de X1 = x+1
𝑏2 représente la différence de moyennes de Y pour une différence de 1 unité pour X2, en supposant que toutes les autres variables incluses dans le modèle sont distribuées également entre les patients qui ont une valeur de X2 = x et ceux qui ont une valeur de X2 = x+1
L’effet observé avec un bêta dans une régression linéaire multiple est-il indépendant ou dépendant de d’autres bêta ?
C’est l’effet indépendant d’un bêta. Les autres bêta (variables indépendantes) ne viennent pas le confondre.
L’effet du bêta est ajusté pour l’effet des autres bêtas pour limiter la confusion.
Quelle est la mesure d’ajustement du modèle de régression linéaire
R^2
Qu’est-ce le R^2 dans un modèle de régression linéaire ?
C’est la proportion de la variance Y expliquée par les variables indépendantes. Explique la proportion de la variabilité dans le modèle.
Quelles valeurs peut prendre R^2?
Entre 0 et 1
Comment savoir si un modèle de régression linéaire est bon ?
Lorsque R^2 est grand, plus le modèle explique la variable dépendante Y.
Quand R^2 est près de zéro, le modèle explique peu/pas la variabilité de Y.
Quels sont les présupposés du modèle R^2 ?
- Y suit une loi normale
- Les observations provenant de l’échantillon sont indépendantes.
- La variance de Y ne varie pas en fonction des Xi (on vérifie ça avec un logiciel)
- Une relation linéaire entre Y et chacun des Xi pour les X continue.