2,4,6-Régression logistique Flashcards
3 conditions pour faire le modèle de régression simple
- Les erreurs sont distribués selon une loi normale
- La variance des erreurs est constante
- Les observations sont indépendantes
3 raisons pourquoi l’approximation linéaire est pas adéquate et il faut utiliser la régression logistique
- Les erreurs sont contraintes à prendre 2 valeurs possibles (0 et 1) ce qui exclue une distribution normale
- La variance des erreurs dépend de x donc elle n’est plus constante
- La quantité B0+B1x correspond à une probabilité et doit par conséquent satisfaire un certain nombre de propriétés et en particulier appartenir à l’intervalle fermé (0-1)
Objectifs (2) de la régression logistique
- L’estimation: Estimer l’ampleur de la relation entre un outcome et un exposition en évaluant l’association entre Y et X
- La prédiction: Développer une équation qui détermine comment la probabilité qu’un individu avec la condition Y=1 dépend de X
Odds ratio lorseque X est continue
Mesure l’évolution des rapports des probabilités d’apparition de l’évènement Y=1 contre l’évènement Y=0 lorseque X passe de x à x+1
La vraisemblance varie entre ___, et son logarithme varie entre ___
0 et 1, -inf et 0
3 propriétés d’un estimateur de maximum de vraisemblance
- Il est asymptomatique sans biais
- Il est de variance minimale
- Il a asymptomatiquement une distribution normale
deux approches pour faire un test de significativité en régression logistique multiple
- S’appuyer sur la normalité asymptomatique des estimateurs (du maximum de vraisemblance) et utiliser le test de Wald
- S’appuyer sur le principe du rapport de vraisemblance qui est une approche en cohérence avec la démarche d’estimation des paramètres
2 définitions pour le facteur de confusion F
- s’il existe un lien enre F et la maladie (F est un facteur de risque pour M) et un lien entre F et l’exposition E (F est concomittant de E)
- F est facteur de confusion si la relation brute entre le facteur de risque E et la maladie M n’est pas la même obtenue aux différents niveaux Fi de F
But d’ajustement pour les facteurs de confusion
l’effet d’un facteur de confusion peut augmenter la mesure de l’association entre E et M ou diminuer la mesure de l’association entre E et M
l’ajustement permet d’augmenter la précision (on prends en compte un facteur qui augmente la variabilité de la mesure d’efficacité)
Doit on ajuster pour les facteurs de confusion dans un essai randomisé?
Non, la randomisation assure la répartition harmonieuse entre les groupes des variables pronostiques
dans le contexte des facteurs de confusion, comment avoir un gain de puissance et de précision dans un essai clinique
ajustement décidé a priori reposant sur les variables de stratification de la randomisation
un bon choix de modèles à inclure dans le modèle de régression linéaire repose sur (3)
- Une bonne connaissance scientifique du problème
- Une utilisation appropriée des méthodes statisitiques
- Une connaissance de la littérature
Objectifs d’avoir le meilleur modèle (3)
- Prise en considération des variables explicatives potentielles
- Control des variables confondantes
- Résultats stables
Résultats de plusieurs variables dans le modèle (2)
- Perte de puissance
- Sur-ajustement
Résultats de pas assez de variables prises en considération
- Possibilité de confusion résiduelle
- Moins bonnes adéquations du modèle
- Interprétation plus facile
Vrai ou faux: il nous arrive souvent qu’on force des variables potentielles dans le modèle
Vrai (si on sait que y’a un effet)
Quel test permet de sélectionner un modèle parmi deux modèles emboités
LRT
Critères utilisés pour sélectionner un modèle quand ils ne sont pas emboités
AIC et BIC
Stratégie de AIC et BIC
Pénaliser la vraisemblance par une fonction de nombre de paramètres
formule de l’AIC
-2log(L)+2k
l’AIC représente
un compromis entre le biais (qui diminue le nombre de paramètres) et la parcimonie (nécessité de décrire les données avec le plus petit nombre de paramètres possibles)
limite de l’AIC
on peut pas l’utiliser quand n/k < 40
formule du BIC
-2log(L)+klog(n)
logit ou odds ratio: symmétrique autour de 0
logit
logit ou odds ratio: relation linéaire avec les variables explicatives
logit
logit ou odds ratio: changement dans les odds associé avec l’accroissement d’une unité de variable explicative
odds ratio
logit ou odds ratio: une valeur minimale de 0
odds ratio
e^Beta
le odds ratio nous indique le changement dans le risque d’avoir l’évènement lorseque le facteur de risque change d’une unité (quand x est continue)
-2LL
plus la déviance du modèle est petite plus le modèle est adéquat
Wald
Statistique utilisée pour juger si la variable explicative contribue au risque d’avoir l’évènement ou non
que signifie le log de la vraisemblance
la mesure de la puissance explicative du modèle
la régression logistique est basée sur une distribution normale ou binomiale
binomiale
la régression logistique est essentielle lorseque
seulement la variable dépendante est catégorielle quelque soit le type de variables indépendantes
la fonction logit est utilisée dans la régression logistique pour
pour avoir une relation linéaire entre le logit et les facteurs de risque
la statistique de wald est une fonction de
beta