2 - régression logistique 1 Flashcards
types de données
- qualitatives
- quantitatives
types de données quantitatives
- continues : R, chiffre fractionnaire ou à virgule
- discrètes : valeurs entières
types de données qualitatives
- nominale
- ordinale
modèle utilisé pour des donnes quantitatives
modèle linéaire
modèle utilisé pour des données qualitatives
modèle logistique
hypothèses du modèle linéaire simple
- les erreurs sont distribuées selon une distribution normale
- la variance des erreurs est cst
- les observations sont indep
V ou F : lorsque Y est binaire, il est possible d’utiliser un modèle linéaire simple
F, graph nous donne 2 plateaux, la droite n’est donc pas représentative des données
nommer les raisons pour lesquelles le modèle linéaire simple n’est pas approprié quand y = binaire
1- erreurs prennent 2 valeurs possibles –> la distribution n’est pas normale
2- la variance des erreurs dépend de x donc plus cst
3- correspond à une probabilité donc doit se retrouver entre 0,1
modèle à utiliser lorsque y est binaire
logistique
comment tenter de voir si l’âge a un impact sur le risque de développer CHD
séparer les pts en groupe pour comparer les proportions
modèle logistique : allure du graph
courbe en S
objectifs de la régression logistique
- estimation
- prédiction
régression logistique : estimation
estimer l’ampleur de la relation entre le outcome (y) et une exposition (x) en évaluant l’association entre x et y
régression logistique : prédiction
développer une équation qui détermine cmt la probabilité qu’un individu avec la condition (y) dépend de x
fct logistique vs logit
- logistique : donne la probabilité de développer l’outcome (variable dep CHD) en fct de l’exposition (variable indep âge)
- logit : relation linéaire qui lie la variable indép (âge) et dép (CHD)
interprétation de B0 si x est continue
ordonnée à l’origine, risque de base (présence de l’événement sans le facteur de risque)
interprétation de B1 si x est continue
- accroissement de logit(pi(x)) par unité de x
- effet du facteur, coeff de régression associé à x
odd ratio lorsque x est continue
mesure l’évolution des rapports des probabilités d’apparition de l’événement (y=1) contre y=0 lorsque x passe de x à x+1
odds ratio lorsque x est binaire
compare le rapport des probabilités de Y chez les exposés (X = 1) et les non exposés (X = 0)
OR se calcule avec un tableau, que représente les lignes et les colonnes
- lignes : exposition
- colonne : outcome
interprération de OR > 1
N > D donc l’expo est dangereuse, risque de maladie
interprération de OR = 1
N = D donc expo a pas d’impact sur le outcome
interprération de OR < 1
N < D donc l’expo a une fct protectrice sur le outcome
vraisemblance
Méthode pour déterminer les paramètres B0 & B1 (Varie entre 0 et 1)
valeurs de la vraisemblance lorsque en log
-infini à 0
propriétés d’un estimateur d’un max de vraisemblance (3)
- asymptotiquement sans biais
- variance minimale
- asymptotiquement une distribution normale
pour quels paramètres est-il pertinent de déterminer l’intervalle de confiance (3)
- pour l’estimateur de vraisemblance (^B1)
- Pour les OR
- pour probabilité de l’outcome (pi(x))
interprétation d’un intervalle de confiance
> Plus l’intervalle est étroit/restreint, plus le calcul est précis (plus l’effet rapporté est précis)
Plus l’intervalle de confiance est large/répandu, plus il y a de variabilité dans les mesures