Introduction à l'inférence statistique - suite Flashcards
Quelles sont les étapes d’un test par simulation de Monte Carlo ?
- Spécifiez un test statistique qui décrit le patron d’intérêt vs la questions spécifique posée (ex. : est-ce que la masse des oiseaux mâles d’une espèce diffère de celle des femelle –> test statistique = différence entre les masses)
- Créer la distribution attendue du test statistiques selon l’hypothèse nulle (sous-tend généralement à l’absence d’effet) –> Soit soit par randomisations ou par permutations.
- Déterminer si le test doit être unilatéral ou bilatéral. Test unilatéral doit être utilisé seulement dans des situations où l’hypothèse nulle indique que la taille de l’effet ne doit pas dépasser un certain seuil (ex. : masse mâles > masse femelles)
- Déterminer la probabilité d’obtenir un test statistique plus extrême ou égal à celui observé, et ce, sous l’hypothèse nulle.
Quel est le but d’un test par simulation de Monte Carlo ?
Le but de d’un test par simulation de Monte Carlo est de déterminer si l’hypothèse nulle est fausse ou non afin de démontrer la présence d’effet entre deux variables et ce en déterminant si le test statistique observé est assez extrême pour dire qu’il n’est pas pris en compte par l’hypothèse nulle, donc qu’on peut rejeter cette dernière.
Quelles sont les suppositions des tests par simulations de Monte Carlo ?
- Les données consistent en un échantillon aléatoire de données indépendantes. Sans quoi, il faudra tenir compte de la structure hiérarchique du plan d’échantillonnage lors des randomisations/permutations
- Le test statistique décrit bien le patron d’intérêt vs la question scientifique posée
- La simulation de Monte Carlo crée une distribution nulle appropriée en lien avec la question d’intérêt.
Quels sont les principaux avantages des tests par simulations de Monte Carlo ?
- Les suppositions et la structure de l’hypothèse nulle sont explicites
- Les données ne doivent pas nécessairement provenir d’une distribution théorique donnée
- On adapte le test par rapport à la question d’intérêt et aux données et non l’inverse
- Les tests par simulation de Monte Carlo sont souvent plus puissant que les tests paramétriques
Quels sont les principaux désavantages des tests par simulations de Monte Carlo ?
- Conclusions se limitent aux données receuillies vs les analyses paramétriques supposent que les données proviennent de distributions théoriques qui permettent d’étendre les conclusions des tests. Par contre, on suppose que le niveau de généralisation des tests s’accroit avec l’effort d’échantillonnage.
- Le nombre de programmes informatiques servent à ces analyses est limité = programmer ses propres tests.
-Peuvent être longs à calculer
Si on veut tester si la masse moyenne des oiseaux mâles diffère de celle des femelles (pour une espèce donnée), quelle sera l’hypothèse nulle et le test statistique ?
L’hypothèse nulle sera que la masse moyenne des oiseaux mâles sera égale à la masse des oiseaux femelles et le test-statistique sera la différence absolue entre la masse moyenne des mâles et des femelles. La différence absolue facilite la détermination du nombre de cas donnant lieu à une différence de moyennes égale ou plus extrême à celle observée.
Qu’est-ce qu’une quantité pivot ? Donner un exemple.
Une fonction dont les valeurs dépendent d’un ou plusieurs paramètres de valeurs inconnues, mais dont la valeur de la distribution de probabilité ne dépend pas de ces paramètres. Exemple est le t de Student. Le fait que cette statistique est un ratio composé d’une différence de moyennes au numérateur et de l’erreur type de cette différence au dénominateur annule l’effet des paramètres de position et de dispersion. Les quantités pivots jouent un rôle important pour le calcul des intervalles de confiances.
Quelles sont les différences entre des tests par randomisations et des tests par permutations ?
Les tests de randomisations sont faites avec remise alors que les tests par permutations effectuent toutes les permutations possibles. Les tests par permutations sont jugés supérieurs aux premiers, particulièrement si l’effort d’échantillonnage ou de réplication est faible. Les deux méthodes sont toutefois équivalentes pour de fortes tailles d’échantillons
Quel type de variable représente généralement le test statistique et en quoi ce type de variable détermine comment nous allons décider si l’hypothèse nulle est rejetée ou non ?
Le test statistique représente généralement une variable quantitative continue, sa distribution consiste donc en une distribution de densité de probabilité. La probabilité d’obtenir une valeure particulière d’un test statistiques sous H0 tend donc vers 0. Cela nous aide à déterminer si on doit rejeter l’hypothèse nulle ou non puisque car cela nous permet de calculer la probabilité pour l’étendue de valeur qui représente la valeur observée ainsi que toutes les valeurs au dessus de celle-ci.
Qu’est-ce que le P-value et comment on l’intreprète ?
Le P-value est la probabilité d’obtenir une valeur du test statistique égale ou supérieure à celle observée sous H0. Plus cette valeur sera faible, plus il sera difficile de ne pas rejeter l’hypothèse nulle.