Biomédecine Quantitative: régression linéaire Flashcards
le modèle de régression multiple est une méthode statistique qui permet d’évaluer le lien entre quoi?
une variable Y et un ensemble de variables explicatives
quels sont les 2 objectifs du modèle de régression multiple?
1) étape liaison = déterminer facteurs prédictifs et réaliser l’ajustement
2) étape de prédiction (prédire valeurs variable Y)
dans l’étape de liaison pour la rectocolite hémorragique (RCH) on veut déterminer la présence ou l’absence de RCH en fonction de ces facteurs là et déterminer si ces facteurs sont associés à l’apparition d’une RCH: quels sont les 2 types de facteurs?
- facteurs de risque: augmentent proba d’apparition de la maladie
- facteurs protecteurs: diminuent proba d’apparition de la maladie
quels sont les intérêts des régressions multiples?
- ajustement (+ sur un facteur de confusion (café <=> tabac <=> infarctus))
- prise en compte d’interactions entre variables explicatives (café x tabagisme) = effet propre
la régression linéaire utilise la variable à expliquer de quelle nature?
quantitative continue
le modèle de régression linéaire simple utilise combien de variables explicatives?
1
dans la régression linéaire simple quelles sont les 3 techniques utilisées pour analyser le lien entre Y et X?
- nuage de points
- calcul coefficient de corrélation de Pearson (-1;1) = + on se rapproche de 1 en valeur absolue, + il y a une relation linéaire entre les 2 variables
- modélisation lien entre X et Y avec modèle de régression = la droite qui minimise les erreurs sur l’ensemble des individus (critère des moindres carrés)
on se base sur quelle équation pour évaluer la qualité d’ajustement du modèle de régression linéaire simple?
l’équation de décomposition de la variance en 2 composantes: variabilité expliquée par le modèle et celle non expliquée
si la variabilité expliquée (somme des carrés expliquée SCE) par le modèle est très proche de la variabilité totale de Y (somme des carrés totale SCT) le modèle est-il bien ou mal ajusté?
bien ajusté
si la variabilité résiduelle (somme des carrés résiduelle SCR) est vraiment importante au regard de la variabilité expliquée par le modèle, le modèle est-il bien ou mal ajusté?
mal ajusté
la proportion de variabilité de Y expliquée par le modèle de régression est déterminée par quel coefficient? quelle est sa formule?
coefficient de détermination R² (entre 0 et 1: + il est proche de 1 et + le modèle est bien ajusté)
R² = SCE / SCT
les hypothèses dans le modèle de régression linéaire (indépendantes) suivent quelle loi?
loi Normale (symétriques) centrée en 0 et de variance σ²
que sont les résidus dans le modèle?
différence entre valeurs prédites par notre modèle d’estimation et les valeurs observées (erreurs) => histogramme
pour évaluer la normalité de distribution des hypothèses on utilise quelle droite?
droite de Henry = si points alignés ça suit une loi Normale
quel test pour évaluer significativité du coefficient?
inférence statistique