Cours 3 Flashcards
Qu’est-ce qu’une donnée extrême ? EXAMEN
Une donnée qui se démarque des autres à l’une ou l’autre des extrémités de la distribution des fréquences dans l’échantillon (critères,, continuum, pas blanc/noir, se démarque des autres)
Pourquoi cette donnée pourrait-elle être problématique dans le cadre de nos analyses ?
Elle pourrait ne pas être représentative de la population ciblée
Comment déterminer si une donnée est “extrême” ?
Par inspection d’un graphique, par inspection de son score z à l’intérieur de notre échantillon.
Pourquoi ne pas utiliser les scores brutes ?
Le critère est différent selon les unités
Nommez des graphiques utilisés pour déterminer une donnée extrême ? (2)
- Histogramme
2. Boite à moustache
Comment obtenir le score z d’une donnée ? (2)
- Remplacer les valeurs observées par l’écart à la moyenne de chacune
- Diviser chaque écart à la moyenne par l’écart-type de la distribution
Quelle est la moyenne d’une distribution de scores Z ?
> > > >
Quel est l’écart type d’une distribution de scores Z ?
> > > >
Compléter les énoncés suivants :
0.1% des données dont z > ___A___
1% des données dont z > ___B___
5% des données dont z > ___C___
A. 3.29
B. 2.58
C. 1.96
Que se passe-t-il si je retire la donnée ?
Que se passe-t-il si je remplace une donnée par une valeur de score z de 3.29 (“je la rapproche”) ?
Si le N diminue, l’écart-type (s) augmente, le score z augmente et la puissance du test diminue
Si le N reste le même, l’écart-type (s) diminue, le score z diminue, la puissance du test augmente
V ou F. On utilise le critère de 3.29 pour un petit échantillon
VRAI
Que faire avec les données extrêmes ?
- On peut retirer le participant de l’échantillon
- On peut retirer la donnée de l’échantillon
- On peut remplacer la valeur extrême par une valeur qui correspondrait à un score z de 3.29
Dans quel cas la règle du pouce ne s’applique pas ?
Si on a un grand nombre de sujets (Grand échantillon), c’est non représentatif de l’échantillon/population
V ou F. On peut répéter l’opération plusieurs, jusqu’à ce qu’il n’y ait plus de donnée extrême.
Si au bout du processus on a retiré/modifié un trop grand nombre de données, on devrait commencer à remettre l’échantillon en question et réfléchir aux causes possibles.
V ou F. Vous devez documenter toutes modifications que vous apportez à votre jeu de données et rapporter ces modifications lorsque vous publiez vos résultats.
VRAI
Quels sont les niveaux sur lesquels les données extrêmes/aberrantes peuvent biaiser l’analyse des données ? (2)
- Biais dans l’estimation des paramètres
2. Biais dans l’estimation de l’erreur type (biais du test statistique)
Pourquoi l’estimation des paramètres est-elle affectée par les données extrêmes ?
> > >
Comment trouve-t-on les valeurs des estimateurs de paramètres ?
Ce sont les valeurs qui permettent de minimiser l’erreur de prédiction du modèle dans l’échantillon
V ou F. Les estimateurs des paramètres du modèle sont les valeurs qui rendent le modèle plus représentatif possible de l’échantillon
VRAI
Comment calcule-t-on la somme des carrés de l’erreur ?
SC = Somme (Yi - Y^i)^2
Pourquoi est-ce que les données extrêmes ont l’impact le plus élevé sur le calcul des estimateurs des paramètres ?
Parce que les données extrêmes sont susceptibles de provenir d’une population autre que la population ciblée
Ceci rend nos estimateurs de paramètres moins représentatifs de la population ciblée
Ceci va donc biaiser nos estimateurs
Pourquoi l’erreur type est-elle affectée par les données extrêmes ?
- On évalue la représentativité de l’estimateur vis-à-vis la population à l’aide de l’erreur type; l’erreur type représente l’écart type de la distribution d’échantillonnage
- L’erreur type est estimée à partir de l’écart type de l’échantillon
- Les données extrêmes ont l’impact le plus élevé sur le calcul de l’écart type de l’échantillon
- Les données extrêmes dans notre échantillon entraîneront une sur estimation
Pourquoi les données extrêmes ont l’impact le plus élevé sur le calcul de l’écart type de l’échantillon ?
Parce que les données extrêmes sont susceptibles de provenir d’une population autre que la population ciblée; ceci rend nos estimateurs de paramètres moins représentatifs de la population ciblée
Pourquoi dit-on que les données extrêmes dans notre échantillon entraîneront une surestimation de l’erreur type ?
- L’erreur type correspond à du bruit
- Surestimer l’erreur type va diminuer la puissance de nos tests statistiques
- La puissance statistique correspond à la probabilité de rejeter H0 si H0 est fausse
Quoi faire avec les données manquantes ? (3)
- Éliminer de l’échantillon les sujets ayant des données manquantes
- Éliminer d’une analyse les sujets ayant des données manquantes
- Remplacer les données manquantes par la moyenne de l’échantillon
Pourquoi remplacerait-on les données manquantes par la moyenne de l’échantillon ?
Si le N augmente et que le bruit diminue, la somme reste inchangée
L’écart type (s) diminue, erreur type diminue et la puissance du test augmente, ce qui diminue le bruit
V ou F. Il est important de documenter ce qu’on fait!
VRAI
Quels sont les 4 postulats du modèle linéaire ?
- Additivité et linéarité
- Normalité
- Homoscédasticité
- Indépendance
V ou F. Si votre modèle est linéaire mais que la vraie relation est non linéaire alors les meilleurs estimateurs de paramètres b que vous pourrez trouver ne vous permettront jamais d’avoir un modèle représentatif de la vraie relation entre 2 variables
VRAI
V ou F. Si votre modèle est additif mais que la vraie relation est non additive alors les meilleurs estimateurs de paramètres b que vous pourrez trouver ne vous permettront jamais d’avoir un modèle représentatif de la vraie relation entre 2 variables prédictives et la variable prédite!
VRAI
Quelle est la seule manière de modéliser une relation qui est réellement non linéaire dans la population? Pourquoi ?
D’utiliser un modèle non linéaire
Si la vraie relation est non linéaire alors que votre modèle est linéaire, aucune méthode statistique ne viendra à votre secours
Nommez le facteur important pour l’estimation des paramètres.
Si la distribution des fréquences dans l’échantillon est normale, alors la somme des carrés de l’erreur permettra d’estimer les valeurs des paramètres de manière optimale SINON d’autres méthodes peuvent s’avérer plus efficaces (Ex. Méthodes robustes)
Nommez un exemple de la méthode robuste. Décrivez son fonctionnement.
La méthode bootstrap
- On échantillonne un sous-ensemble de l’échantillon un grand nombre de fois (généralement plus de 1000)
- On utilise la distribution sous-échantillonnage obtenue pour estimer les paramètres et l’erreur type
Quelles sont les 4 méthodes pour vérifier la normalité de la distribution des fréquences dans l’échantillon ?
- Graphique des fréquences
- Graphique P-P (et Q-Q)
- Mesures d’asymétrie et d’aplatissement
- Tests de normalité
Quel est le but du graphique des fréquences ?
Évaluer par inspection visuelle la superposition entre la courbe gaullienne et la distribution des fréquences de l’échantillon
Compléter les énoncés suivants :
Asymétrie = 0 : ___A____
Asymétrie > 0 : ___B____
Asymétrie < 0 : ___C____
A. Parfaitement symétrique
B. Asymétrie négative
C. Asymétrie positive
Compléter les énoncés suivants :
Aplatissement = 0 : ___A____
Aplatissement > 0 : ___B____
Aplatissement < 0 : ___C____
Aplatissement = kurtosis
A. Aplatissement normal (mésokurtique)
B. Aplatissement négatif (platykurtique) = variance élevée
C. Aplatissement positive (leptokurtique) = variance faible
Quelle est l’hypothèse nulle de normalité des tests de signification ?
H0 = Asymétrie = 0, Kurtosis = 0
Quel est le problème lorsqu’on tente de déterminer l’hypothèse nulle de normalité des tests de signification ?
*SCHÉMA ARBRE
Si la taille de l’échantillon est faible, ALORS le test est rarement assez puissant pour détecter la non-normalité
Si la taille de l’échantillon est très grande, ALORS le test est trop sensible et rejette l’hypothèse nulle trop facilement
OR, le théorème central limite suggère de toute façon qu’avec un grand échantillon, la distribution d’échantillonnage, elle, est normale
SI l’échantillon comporte suffisamment de participants (règle du pouce N>30), ALORS le théorème central limite stipule que la distribution d’échantillonnage est normale même si la distribution des fréquences dans l’échantillon n’est pas normale
SINON d’autres méthodes peuvent s’avérer plus efficaces, par exemple les méthodes dites “robustes” (Ex. Bootstrap)
Pourquoi on n’utilise pas ces tests (Ex. Test de Kolmogorov-Smirnov) ? (2)
- On évalue la normalité ds fréquences de l’échantillon à l’aide des graphiques et des mesures
- On évalue la normalité de la distribution d’échantillonnage selon les mêmes critères, mais on ne s’en fait généralement pas trop si N est grand
Qu’est-ce que l’homoscédasticité ?
Homogénéité de la variance;
La variabilité de l’erreur est la même à tous les niveaux de la variable prédictive
Qu’est-ce que l’hétérocédasticité ?
Hétérogénéité de la variance;
La variabilité de l’erreur N’EST PAS la même à tous les niveaux de la variable prédictive
Quel est le problème général de l’hétérocédasticité ? (2)
- L’hétéroscédasticité biaise l’estimation de l’erreur type
2. Ceci implique que l’hétéroscédatiscité risque de biaiser tout test statistique qui utilise l’erreur type
Nommez un test qui est utilisé pour tenter de rejeter l’hypothèse nulle selon laquelle il y a homoscédasticité ? En quoi est-il problématique ?
Test de Levene
SI la taille de l’échantillon est faible, alors le test est rarement assez puissant pour détecter l’hétéroscédatiscité.
SI la taille de l’échantillon est très grande, alors le test est trop sensible et rejette l’hypothèse trop facilement
OR les tests statistiques peuvent être ajustés en fonction du niveau d’hétéroscédasticité présent, plutôt que de chercher à assumer que SI la taille de l’échantillon est faible, alors le test est rarement assez puissant pour détecter que l’hétéroscédatiscité est présente ou absente.
Que se passe-t-il s’il n’y a pas d’indépendance des données ?
L’erreur type risque d’être biaisée
SI les mesures se ressemblent trop ALORS l’écart type sera sous estimé et donc l’erreur type sera sous estimé
On pourrait aussi observer l’effet contraire, qui entraînerait une surestimation de l’écart type et donc une sur-estimation de l’erreur type
V ou F. Les tests statistiques prennent généralement pour acquis que les données sont indépendantes.
VRAI, la mesure d’une donnée n’a pas été influencée par la mesure d’une autre donnée
Comment gérer le problème de l’indépendance ?
Au niveau de la méthodologie de recherche (avant la récolte de donnée)
Il existe des analyses que l’on peut utiliser si l’on s’attend à trouver une inter-dépendance au sein de certains groupes de données