Régression logistique mutliple Flashcards
Objectif de la régression logistique multiple
probabilité de développer l’outcome en fct de pluseurs variables indépendantes
Régression logistique multiple généralise ???
la régression logistique simple au cas où il y a plusieurs variables explicatives X1…. Xp
interprétation de b0
représente la probabilité d’avoir l’évent lorsque toutes les variables sont mises à zéro
Des valeurs positives de b0 donnent ?
valeurs négatives b0
log (P/1-P) > 0 p/1-p>1 p>1-p 2p>1 p>0.5
log (P/1-P) < 0 p/1-p<1 p<1-p 2p<1 p<0.5
Interprétation des coefficients b1
accroissement de logit(pi(x) par unité de x
en prenant l’exponentielle de b1 => on obtient OR pour chaque augmentation d’une unité de xi ajusté pour les autres variables
Interprétation des coefficients
b1
association entre le traitement et la mesure d’efficacité en ajustant pour les autres variables
résumé du cours
on essait d’expliquer la prob. d’avoir la maladie à partir de pluseurs variables explicatives en ajustant l’effet de chacune
exemple de résultats D’OR
traitement t : 0.083
sexe F : .179
age : 1.182
…
personnes traitées sont mieux que chez n-traitées
femmes moins de douleur
+ on est vieux, + on a de la douleur
Test de significativité
h0 : profs de maths à l’udem de 80k$
est ce que je peux généraliser ce salaire partout au canada
vrai : généralisable
et faux : salaire est seulement respectif à l’éch
cest quoi h0 et h1 pr bêta ?
h0 : b0 = 0 : aucun effet du facteur de risque
on va utiliser la forme logit pour déterminer si la pente =0 ou non
Test de significativité
2 approches pour faire le test
- s’appuyer sur la normalité asymptotique des estimateurs et utiliser le test WALD
- principe de rapport de vraisemblance (approche en cohérence avec la démarche d’estimation des paramètres)
Comment faire un test statistique ?
6 étapes
1- énoncer H0 et h1
2- chercher statistique du test
3- distribution de la statistique (khi2, student, z) statistique S
4- spécifier le niveau du test (déterminer alpha = erreur tolérable)
5- calculer la valeur p = P (S>s) s = seuil critique
6- décision du test , si p < alpha , on rejette h0 sinon on accpete
Concept du test WALD
pour chaque paramètre b(k)
h0 : bk=0
h1 : bk=/=0
TEst de wald
Les estimateurs de maximum de vraisemblance ont une distribution asymptotique normale. Lorsque n est grand, la statistique de WALD définie par bk /sk est ditribuée selon une loi normale N(0,1)
WALD
bêta/ s
b^2 /s^2
> 1,96 (distribution normale), on rejette
> 3,84 (khi2) => on rejette
wald exemples de valeurs
treatment : b2/s2 = 10.27
duration : b2/s2 = 0.6288
treatment : effet significatif du traitement sur la douleur (pcq or ««1 => 91,7% de réduction de la douleur
et valeur p<0.05
pas pour la duration
Test de rapport de vraisemblance (LRT)
1.permet de comparer ?
L1 = vraisemblance des données du modèle 1
L2 : same shit pr modèle 2
- pour tester la significativité du b2, il faut ?
- Statistique du rapport de maximum de vraisemblance qui suit une loi ?
- rejet ?
2 modèles embôités
b0 + b1x1
et b0 + b1x1 +b2x2
- comparer les logarithmes des vraisemblances
V = 2LogL1 vs 2LogL2 - de khi 2 avec 1 DDL
- h0 : b2 =0 , au risque alpha si V > 3.84
particularité d’avoir plus de variables ?
interaction possible
=> elle va avoir un impact sur l’outcome
Analyse des interactions
on parle de ça quand ?
qd l’effet d’une variable explicative sur la variable dépendante dépend du niveau/valeur d’une autre variable explicative
eg : un tx + efficace chez les femmes que chez les hommes
=> interaction entre tx et sexe
il faut (4)
- décrire interaction sous la forme nouvelle variable que la régression logistique saura prendre en compte
- vérifier si cette conjonction produit un effet significatif sur la variable dépendante (y)
- la mesurer en termes de surcroît de risque, d,OR
- interpréter correctement les coefficients fournis par l’Estimation
pour déterminer s’i y a interaction ou non entre 2 variables
x1*x2 dans la modèle de régression logistique
exemple d'intéraction modèle 1 : b0+b1x1+b2x2 modèle 2 : b0+b1x1+b2x2 + b12X1*x2
on tester quoi comme h0
la variable x1*x2 prend la valeur 1 pr les femmes traitées et 0 dans les autres cas ( femmes n-traitées, h traités ou non)
h0 : b12 =0
modèle
b0+b1x1+b2x2 + b12X1*x2
si c’est 2 variables explicatives binaires ( x1 :traitement / x2 ; sexe)
pour les hommes x2 =0, or = ?
pour femmes x2=1, or=?
particularité si b12=0?
or = e^b1
or= e^b1+b12 (b0 et b2 sont des constantes)
=> OR est le meme dans les 2 sexes
juste quand les variables sont binaires
modèle
b0+b1x1+b2x2 + b12X1*x2
1binaire et 1 explicative
OR =?
consécutif à une variation d’une unité d’âge correspond à e^(b1+b12)
modèle
b0+b1x1+b2x2 + b12X1*x2
si c’est 2 variables explicatives continues (x1 :duration etx2: âge)
e^b12 représente ?
OR de la variable duration lorsque la variable âge augmente d’une unité
Estimer le odds ration de l’association entre T et Y dans le groupe (z=1)
logit PR(y=1) = -0.7 + 0.6T -0.8Z +0.5T x Z
z=1 ,
logit (P(y=1) = -1,5 +1,1T
OR : e^b1 = > e^1,1
pour trouver b1, il fallait mettre z=1 pour trouver avant
Facteurs de confusion :
variables qu’on est obligé de garder ds nos modèles
Facteurs de confusion
triangle
si le facteur confondant a un lien avec les 2, il faut le mettre ds notre modèle. (exemple ?)
autres facteurs => cause => effet/outcome
autres facteurs => effet/outcome
cause : LDL
Effet/outcome : accidents CV
sexe => on sait que le LDL et accidents CV ne se comportent pas de la mm façon ds les 2 sexe
2 définitions théoriques pr la confusion
F est facteur de confusion s’il existe un lien entre F et la maladie M (F est facteur de risque pour M) et un lien entre F et l’exposition E (F est concomittant de E)
F est un facteur de confusion si la relation brute entre le facteur de risque E et la maladie M n’est pas la mm que celle obtenue aux différents niveaux Fi de F
But d’ajustement pr les facteurs de confusion
1- peut ^ la mesure de l’association entre E et M ou diminuer la mesure de l’association entre E et M
2 - ^ la précision (prend en compte un facteur qui augmente la variabilité de la mesure d’efficacité)
- ajustement reposant sur les variables de stratification de la randomisation peut se traduire par un gain de puissance et de précision
NE pas ajuster un facteur de confusion peut… ?
créer un biais de confusion en suggérant un effet inexistant dans la réalité ou en ignorant un effet réel
la randomisation assure ?
répartition harmonieuse entre les grps de variables pronostiques et analyse ajustée n’est pas justifiée