Régression logistique multiple (2) Flashcards

1
Q

sélection des variables est une étape clé de la modélisation

la méthode statistique doit nous donner des indications sur ?

A

le sous-ensemble des bonnes variables à inclure dans le modèle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Pourquoi la sélection des variables ? (3)

A
  • moins il y aura de variables, plus facile sera l’interprétation
  • déploiement sera facilité
  • un modèle avec peu de variables a de meilleures chances d’être plus robuste en généralisation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

choix des variables repose sur (3)

A
  • bonne connaissance scientifique du problème
  • utilisation approporiée des méthodes statistiques
  • une connaissance de la littérature
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Objectif est d’avoir le meilleur modèle qui répond à notre q? d’intérêt (3)

A
  • prise en considération des variables explicatives potentielles
  • controle des variables confondantes
  • résultats stables
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Conséquences de plusieurs variables dans le modèle (2)

A
  • perte de puissance

- sur-ajustement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Conséquences de pas assez de variables prises e considération (3)

A
  • possibilité de confusion résiduelle
  • moins bonne adéquation du modèle
  • interprétation plus facile
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Procédures pas à pas

2

A
  • méthode pas à pas ascendante (forward selection)

- méthode pas à pas descendante (backward selection)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Forward selection (2)

A
  • à chaque pas , une variable est ajoutée au modèle
  • procédure s’arrête lorsque toutes les variables sont intégrées ou lorsque la valeur p est plus grande qu’une valeur seuil (souvent choisi égal à 0 1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

backward selection (2)

A
  • à la première étape toutes les variables sont intégrées au modèle
  • la procédure s’arrête lorsque toutes les variables sont retirées du modèle ou lorsque la valeur p est plus petite qu’une valeur seuil
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Méthode progressive (stepwise selection)

force des variables potentielles ?

A

same que méthode pas à pas ascendante , sauf que l’on peut éliminer des variables déja introduites. En effet, il peut arriver que des variables introduites au début ne soient plus significatives après introduction de nouvelles variables

-cas où l’âge est une variable évidente pr le cancer, mais l’âgen’est pas décrit ds notre pop, on va forcer la variable anyway

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Effet d’un groupe de variables

modèle global :

logit(pi(x) : b0 +b1x1 +.. bkxk

le test de rapport de vraisemblance p-e généralisé pour tester l’effet de plusieurs variables

le test ?

A

B (p+1) … Bk = 0

à partir de p+1 jusqu’à k, beta = 0?

eg : si on veut savoir de b4 à b10, b(p+1) = 4, b (3+1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Effet d’un groupe variable (tbt cours 2 )
comment on fait pour calculer la vraisemblance ?

2 modèles qui s’emboîtent ?

A

lambda = -2log(Lréduit) - (-2log(Lc)) suit une loi de khi2 à k-p degrés de liberté.

on rejette Ho au risque alpha si lamda > khi2 (k-p DDL)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quoi faire si on a 2 modèles qui ne s’emboitent pas ? (2)

A

les critères AIC et BIC sont les plus utilisés

+

une stratégie consiste à pénaliser la vraisemblance par une fonction du nbr de paramètres

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Critère d’information d’AIC (2)

attention à ?

A

aic = -2log L + 2k
k est le nbr de variables dans le modèle et L est la vraisemblance maximisée

  • application du aic pour de petites tailles d’échantillons (n) , (n/k< 40)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Interprétation aic

A

on préférera le modèle pour lequel la valeur AIC est la plus petite

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

AIC représente donc un compromis ??

A

entre le biais (qui diminue avec le nbr de paramètres) et la parcimonie (nécéssité de décrire les données avec le plus petit nombre de paramètres possible)

17
Q

BIC (2)

A

=2Log (L) + klog(n)

  • k est le nbr de variabiles dans le modèle. L est la vraisemblance maximisée et n est la taille d’échantillon
18
Q

Interprétation bic :

A

modèle ak valeur bic plus petite

  • avec ce critère déviance (-2log(L)) pénalise pr taille de l’échantillon en incluant le terme log(n)
  • modèle + parcimonieux
19
Q

aic et bic permettent dans ce cas de sélectionner le modèle le plus ?

A

proche de la réalité

20
Q

essai 1

R : 3.2
IC : 2.2-4.2
p<0.0001

A

l’effet du traitement est statistiquement significatif. au pire des cas on a un odds ratio de 2.2 (cliiquement intéressant)

21
Q

Essai 2 :

1.15
ic : 1.05 -1.125

p =0.001

A

l’effet du traitement est statistiquement significatif avec bcp de précision mais c’est un effet petit qui risque de ne pas être CLINIQUEMENT INTÉRESSANT

22
Q

Essai 3

  1. 05
  2. 03-3.05
  3. 045
A

l’Effet du traitement est statistiquement significatif, mais pas de précision

il est probable que le OR soit proche de 3.05 comme il soit proche 1.05. => recommandé de conduire un essai supplémentaire

23
Q

Essai 4

  1. 05
  2. 95-1.15
  3. 95
A

l’Effet du traitement n’est pas statistiquement significatif mais il est estimé avec précision

aucune utilité clinique

24
Q

essai 5 :
2.3

  1. 8-3.8
  2. 28
A

l’effet du tx n’est pas statistiquement significatif, mais or soit proche de 3.8 ce qui est une valeur cliniquement intéressante. La conduite d’un ec. supplémentaire est recommandée