Cours 10 - ré-échantillonnage Flashcards
Qu’est-ce que permet l’erreur-type?
quantifier la variabilité interéchantillonnale (la variabilité naturelle observée entre les échantillons)
Quels sont les caractéristiques des tests paramétriques?
- Permettent de faire des inférences sur la population lorsque les caractéristiques de la distribution d’échantillonnage sont connues (et qui suivent généralement une distribution normale, on connait l’écart-type ou l’erreur type ou on peut l’estimer avec le jeu de données)
- Ils fonctionnent grâce au théorème de la limite centrale
Quels sont les caractéristiques des tests non paramétriques?
- Tests statistiques qui ne demandent pas que la forme de la distribution d’échantillonnage soient connus
- Tests statistiques qui ne demandent pas que les paramètres de la distribution d’échantillonnage soient connus
- Tests indépendants de toute distribution
- Il sont (souvent) moins puissants (MAIS plus conservateur et la science va corriger ce problème par la reproductibilité)
Qu’est-ce que le ré-échantillonnage (bootstrapping)?
C’est une méthodologie non paramétrique
Technique computationnelle qui permet d’estimer
la forme et les caractéristiques de la distribution
d’échantillonnage sans postuler une distribution
particulière
Il s’agit d’estimer le paramètre qui nous intéresse
un grand nombre de fois à partir de tirages répétés
d’un grand nombre « d’échantillons » avec remise
= on peut bien quantifier notre échantillon
Comment fonctionne le ré-échantillonnage?
Nous avons 1 seul échantillon représentatif de la population = notre pseudo-population
Ensuite, à partir de la pseudo-population on va créer un grand nombre de « nouveaux » échantillons en faisant des
tirages aléatoires avec remise à partir de notre échantillon
↪ nous créons donc un grand nombre de pseudo-échantillons
↪ Donc, on peut estimer la statistique un grand nombre de fois et reproduire la distribution d’échantillonnage
Quels sont les avantages du ré-échantillonnage?
- La variabilité interéchantillonnale est reproduite (pas mêmes unités d’observations dans chaque pseudo-échantillon)
- Chaque pseudo-échantillon est représentatif de la population
- Les percentiles de la distribution de ré-échantillonnage permettent de calculer des intervalles de confiance et de faire des tests statistiques
- Permets de faire des tests d’hypothèse sans postuler une distribution d’échantillonnage
- Peut être utilisée dans un grand nombre de techniques statistiques et notamment la régression multiple
- Généralement plus puissant (probabilité de démontrer ce que l’on veut démontrer) que les tests non paramétriques « classiques » (comme un entre 2 entre le test non paramétrique et le test paramétrique)
Comment peut-on aller chercher un intervalle de confiance et comment l’interpréter? **
- On a notre moyenne et notre pseudo-population
- On crée des pseudo-échantillons
- À partir de nos pseudo-échantillons, on a pu reproduire une distribution d’échantillonnage
- On obtient donc une moyenne de cette distribution d’échantillonnage et un écart-type
- On peut donc avoir accès à des percentiles
- Pour calculer l’intervalle de confiance avec un niveau a = .05, nous utilisons les percentiles [2.5% et 97.5%] de la distribution bootstrap
- On va voir dans la distribution bootstrap
- Ce qui nous donne un intervalle
Interprétation
On est certain à 95% que la vraie valeur du paramètre de la population est dans cet intervalle
Est-ce normal ou non d’avoir des intervalles de confiance différents chaque fois qu’on calcule?
Oui
on s’attend à avoir des intervalles de confiance différent
c’est du hasard à chaque pseudo échantillon, donc c’est normal
la différence est souvent minime
mais intervalle bootstrap un peu plus conservateur (moins puissant)
Comment faire un test d’hypothèse bootstrap sur une corrélation?
On veut savoir si la corrélatione est significative :
* H0 : r = 0
* H1 : r ≠ 0
Nous effectuons la ré-échantillonnage pour 5000 corrélations pour reproduire la distribution d’échantillonnage
On va chercher nos percentiles pour un intervalle de 95%
Et on optient notre intervalle de confiance
Interprétation
Si la corrélation nulle (r = 0) se retrouve dans l’intervalle de confiance = pas significativement différent de 0, donc on conserve H0
Si la corrélation nulle (r = o) ne se retrouve pas dans l’intervalle de confiance = significativement différent de 0, donc on rejette H0 et conserve H1
Quels sont les inconvénients du ré-échantillonnage?
- Nécessite un échantillon pleinement représentatif de la population
- Différents essais peuvent donner des résultats différents et (donc) parfois ambigus, problème quant à reproductibilité de la science
Quand utiliser les tests non paramétriques?
Un bon plan b si notre échantillon ne se distribue pas normalement, lorsque les données ne forme pas une distribution connue
Test généralement moins puissants que les tests paramétriques ou le bootstrap
S’utilisent avec des variables qui prennent un nombre limité de valeurs ordinales (p.e. 1, 2, 3)
Quels sont les équivalents des tests paramétriques en tests non paramétriques? (khi2, test t échantillons indépendants, Anova simple, Anova répétée)
- Khi-carré d’indépendance ⇨ ≈ Khi-carré d’ajustement
- Test-T pour deux échantillons indépendants ⇨ U de Mann-Whitney (Wilcoxon)
↪ Pour échantillons indépendants
↪ Pour échantillons pairés - ANOVA à plan simple ⇨ Test de Kruskal-Wallis
- ANOVA à mesures répétées ⇨ Test de Friedman