Cours 3 Flashcards
Qu’est-ce qu’une donnée extrême ? EXAMEN
Une donnée qui se démarque des autres à l’une ou l’autre des extrémités de la distribution des fréquences dans l’échantillon (critères,, continuum, pas blanc/noir, se démarque des autres)
Pourquoi cette donnée pourrait-elle être problématique dans le cadre de nos analyses ?
Elle pourrait ne pas être représentative de la population ciblée
Comment déterminer si une donnée est “extrême” ?
Par inspection d’un graphique, par inspection de son score z à l’intérieur de notre échantillon.
Pourquoi ne pas utiliser les scores brutes ?
Le critère est différent selon les unités
Nommez des graphiques utilisés pour déterminer une donnée extrême ? (2)
- Histogramme
2. Boite à moustache
Comment obtenir le score z d’une donnée ? (2)
- Remplacer les valeurs observées par l’écart à la moyenne de chacune
- Diviser chaque écart à la moyenne par l’écart-type de la distribution
Quelle est la moyenne d’une distribution de scores Z ?
> > > >
Quel est l’écart type d’une distribution de scores Z ?
> > > >
Compléter les énoncés suivants :
0.1% des données dont z > ___A___
1% des données dont z > ___B___
5% des données dont z > ___C___
A. 3.29
B. 2.58
C. 1.96
Que se passe-t-il si je retire la donnée ?
Que se passe-t-il si je remplace une donnée par une valeur de score z de 3.29 (“je la rapproche”) ?
Si le N diminue, l’écart-type (s) augmente, le score z augmente et la puissance du test diminue
Si le N reste le même, l’écart-type (s) diminue, le score z diminue, la puissance du test augmente
V ou F. On utilise le critère de 3.29 pour un petit échantillon
VRAI
Que faire avec les données extrêmes ?
- On peut retirer le participant de l’échantillon
- On peut retirer la donnée de l’échantillon
- On peut remplacer la valeur extrême par une valeur qui correspondrait à un score z de 3.29
Dans quel cas la règle du pouce ne s’applique pas ?
Si on a un grand nombre de sujets (Grand échantillon), c’est non représentatif de l’échantillon/population
V ou F. On peut répéter l’opération plusieurs, jusqu’à ce qu’il n’y ait plus de donnée extrême.
Si au bout du processus on a retiré/modifié un trop grand nombre de données, on devrait commencer à remettre l’échantillon en question et réfléchir aux causes possibles.
V ou F. Vous devez documenter toutes modifications que vous apportez à votre jeu de données et rapporter ces modifications lorsque vous publiez vos résultats.
VRAI
Quels sont les niveaux sur lesquels les données extrêmes/aberrantes peuvent biaiser l’analyse des données ? (2)
- Biais dans l’estimation des paramètres
2. Biais dans l’estimation de l’erreur type (biais du test statistique)
Pourquoi l’estimation des paramètres est-elle affectée par les données extrêmes ?
> > >
Comment trouve-t-on les valeurs des estimateurs de paramètres ?
Ce sont les valeurs qui permettent de minimiser l’erreur de prédiction du modèle dans l’échantillon
V ou F. Les estimateurs des paramètres du modèle sont les valeurs qui rendent le modèle plus représentatif possible de l’échantillon
VRAI
Comment calcule-t-on la somme des carrés de l’erreur ?
SC = Somme (Yi - Y^i)^2
Pourquoi est-ce que les données extrêmes ont l’impact le plus élevé sur le calcul des estimateurs des paramètres ?
Parce que les données extrêmes sont susceptibles de provenir d’une population autre que la population ciblée
Ceci rend nos estimateurs de paramètres moins représentatifs de la population ciblée
Ceci va donc biaiser nos estimateurs
Pourquoi l’erreur type est-elle affectée par les données extrêmes ?
- On évalue la représentativité de l’estimateur vis-à-vis la population à l’aide de l’erreur type; l’erreur type représente l’écart type de la distribution d’échantillonnage
- L’erreur type est estimée à partir de l’écart type de l’échantillon
- Les données extrêmes ont l’impact le plus élevé sur le calcul de l’écart type de l’échantillon
- Les données extrêmes dans notre échantillon entraîneront une sur estimation
Pourquoi les données extrêmes ont l’impact le plus élevé sur le calcul de l’écart type de l’échantillon ?
Parce que les données extrêmes sont susceptibles de provenir d’une population autre que la population ciblée; ceci rend nos estimateurs de paramètres moins représentatifs de la population ciblée
Pourquoi dit-on que les données extrêmes dans notre échantillon entraîneront une surestimation de l’erreur type ?
- L’erreur type correspond à du bruit
- Surestimer l’erreur type va diminuer la puissance de nos tests statistiques
- La puissance statistique correspond à la probabilité de rejeter H0 si H0 est fausse