Biomédecine Quantitative: régression linéaire Flashcards
le modèle de régression multiple est une méthode statistique qui permet d’évaluer le lien entre quoi?
une variable Y et un ensemble de variables explicatives
quels sont les 2 objectifs du modèle de régression multiple?
1) étape liaison = déterminer facteurs prédictifs et réaliser l’ajustement
2) étape de prédiction (prédire valeurs variable Y)
dans l’étape de liaison pour la rectocolite hémorragique (RCH) on veut déterminer la présence ou l’absence de RCH en fonction de ces facteurs là et déterminer si ces facteurs sont associés à l’apparition d’une RCH: quels sont les 2 types de facteurs?
- facteurs de risque: augmentent proba d’apparition de la maladie
- facteurs protecteurs: diminuent proba d’apparition de la maladie
quels sont les intérêts des régressions multiples?
- ajustement (+ sur un facteur de confusion (café <=> tabac <=> infarctus))
- prise en compte d’interactions entre variables explicatives (café x tabagisme) = effet propre
la régression linéaire utilise la variable à expliquer de quelle nature?
quantitative continue
le modèle de régression linéaire simple utilise combien de variables explicatives?
1
dans la régression linéaire simple quelles sont les 3 techniques utilisées pour analyser le lien entre Y et X?
- nuage de points
- calcul coefficient de corrélation de Pearson (-1;1) = + on se rapproche de 1 en valeur absolue, + il y a une relation linéaire entre les 2 variables
- modélisation lien entre X et Y avec modèle de régression = la droite qui minimise les erreurs sur l’ensemble des individus (critère des moindres carrés)
on se base sur quelle équation pour évaluer la qualité d’ajustement du modèle de régression linéaire simple?
l’équation de décomposition de la variance en 2 composantes: variabilité expliquée par le modèle et celle non expliquée
si la variabilité expliquée (somme des carrés expliquée SCE) par le modèle est très proche de la variabilité totale de Y (somme des carrés totale SCT) le modèle est-il bien ou mal ajusté?
bien ajusté
si la variabilité résiduelle (somme des carrés résiduelle SCR) est vraiment importante au regard de la variabilité expliquée par le modèle, le modèle est-il bien ou mal ajusté?
mal ajusté
la proportion de variabilité de Y expliquée par le modèle de régression est déterminée par quel coefficient? quelle est sa formule?
coefficient de détermination R² (entre 0 et 1: + il est proche de 1 et + le modèle est bien ajusté)
R² = SCE / SCT
les hypothèses dans le modèle de régression linéaire (indépendantes) suivent quelle loi?
loi Normale (symétriques) centrée en 0 et de variance σ²
que sont les résidus dans le modèle?
différence entre valeurs prédites par notre modèle d’estimation et les valeurs observées (erreurs) => histogramme
pour évaluer la normalité de distribution des hypothèses on utilise quelle droite?
droite de Henry = si points alignés ça suit une loi Normale
quel test pour évaluer significativité du coefficient?
inférence statistique
dans le test de la nullité de la pente, si la pente est nulle que signifie-t-il?
il n’y a pas de lien linéaire entre variable à expliquer et variable explicative
qu’est-ce que l’hypothèse d’exogénéité dans le modèle de régression linéaire multiple?
les erreurs sont indépendantes aussi des covariables
en régression linéaires simple on essaye d’estimer une droite, alors qu’en régression linéaire multiple on essaye d’estimer quoi?
un hyperplan (+ de 3 dimensions) de régression = espace engendré par toutes variables explicatives et la variable à expliquer
quelles sont les 2 catégories de tests de significativité globale du modèle de régression linéaire multiple?
- hypothèse nulle où tous les coefficients sont nuls = le modèle n’a aucun sens car aucune variable explicative associée à la variable à expliquer (rare)
- hypothèse alternative avec rejet de l’hypothèse nulle car au moins 1 des coefficients est non nul = test significatif (test pas auto suffisant)
comment tester les variables qui sont significatives dans le cas où le modèle a un sens (hypothèse alternative)?
tests individus ou tests de groupe (on teste la nullité de chaque coefficient et si test significatif la variable explicative a un pouvoir explicatif sur Y)
que se passe-t-il dans un modèle multivarié quand 2 variables sont extrêmement corrélées (IMC et tour de taille)?
antagonisme: une devient non significative au profit de l’autre