Cours 6 : Comparaison de variables numériques = comparaison de moyennes Flashcards
Pour quelle raison est-ce que beaucoup de tests de comparaison de moyennes sont basés sur la distribution de student?
Parce que l’intervalle de confiance autour d’une moyenne estimée à partir d’un échantillon est obtenu à partir de cette loi de distribution.
Qui-suis-je? « Je compare les moyennes des réponses à deux traitements du même échantillon issu d’une population normalement distribuée. »
Le test de t pour 2 échantillons appariés
Quelles sont les conditions à respecter pour pouvoir effectuer un test de t pour 2 échantillons appariés?
- L’échantillonnage des paires de valeurs est indépendant et aléatoire
- Les différences entre les paires de valeurs sont distribuées normalement dans la population échantillonnée
(comme pour les autres tests)
Quels sont les variables que l’on doit connaître pour faire la statistique de test t pour des échantillons appariés?
- L’effectif de l’échantillon n
- La moyenne des différences entre les deux traitements d¯
- L’écart-type des différences S
.
Nommez des exemples d’expériences qui donnent des résultats appariés.
- Comparer le poids de patients avant et après hospitalisation;
- Comparer la fécondité des bélugas avant et après une perturbation par le bruit causé par le trafic maritime
Comment sont formulées les hypothèses statistiques d’un test de Student pour des échantillons appariés?
H0 : le traitement n’a pas d’effet sur l’échantillon (d¯=0)
H1 : le traitement a un effet sur l’échantillon (d¯≠0)
Qui-suis-je? « test de t qui compare les moyennes d’échantillons issus de deux populations différentes. »
Test de t pour deux échantillons indépendants
Qu’est-ce qui différencie le test de t pour deux échantillons indépendants par rapport aux autres test de t qui existent?
le calcul de l’erreur standard (SE) et du nombre de degré de liberté (dl).
Le test de t pour deux échantillons indépendants a une condition d’application supplémentaire, quelle est-elle?
Les variances des variables échantillonnées sont similaires : on parle d’homoscedasticité des variances.
Quelles sont les conditions d’application à respecter pour pouvoir effectuer un test de t pour 2 échantillons indépendants?
- L’échantillonnage est indépendant et aléatoire (pour chaque échantillon);
- Chaque variable échantillonnées est distribuée normalement dans sa population;
- Les variances des variables échantillonnées sont similaires : on parle d’homoscedasticité des variances.
Comment sont formulées les hypothèses statistiques pour un test de Student pour 2 échantillons indépendants?
H0 : il n’y a pas de différence entre les moyennes(μ1−μ2=0)
H1 : il y a une différence entre les moyennes (μ1−μ2≠0)
Vrai ou faux : dans le test de t pour 2 variables indépendantes, on utilise la variance conjointe (calculée à partir des 2 échantillons) pour calculer l’erreur standard.
Vrai, c’est la première distinction entre ce test de t et les autres
Quelle est la deuxième distinction entre le test de t pour 2 échantillons indépendants et les autres tests de t?
Le nombre de degré de liberté tient compte des deux échantillons.
dl = dl1+dl2 = n1+n2−2
La distribution nulle du test sera donc la distribution de Student correspondant à ce nombre de degré de liberté conjoint.
Dans quel cas utilisons nous un test de t pour 2 échantillons indépendants?
Fréquent dans les études où on ne peut pas vraiment contrôler ou répéter les traitements sur les mêmes individus : Par exemple lorsqu’on compare les réponses de populations d’une même espèce provenant de deux régions différentes, lorsqu’on étudie le poids de bébés à la naissance en fonction de la consommation d’alcool de la mère durant la grossesse, etc.
Quelle est la pire affaire à faire en statistique?
Comparer indirectement les moyennes à la valeur seuil en question (comparaison indirecte)
Quelle est la meilleure façon de déterminer si un échantillon est différent d’un autres?
Comparer les deux échantillons ensemble directement
Quelles sont les 4 options qui s’offrent à nous pour gérer les cas où des données violent les conditions d’application des tests:
- Ignorer les violations
- Transformer les données
- Utiliser un test non paramétrique
- Utiliser un test numérique de permutation
2 tests permettent de poursuivre notre analyse statistique en ignorant les violations, lesquels?
- Test de Shapiro-Wilk pour déterminer la normalité des données
- Test de Levene pour déterminer l’égalité des variances de 2 ou plusieurs échantillons
Qui-suis-je? «test d’ajustement d’un jeu de données à la distribution Normale qui aurait la même moyenne et le même écart-type.»
test de Shapiro-Wilk
Quel est la faiblesse du test de Shapiro-Wilk?
plus l’effectif de l’échantillon est grand, plus l’intervalle de confiance est étroit autour de la statistique de test W, et plus il est probable de rejeter H0 même pour de petites variations… le test devient trop puissant !
Dans quel cas peut-on ignorer le résultat du test de Shapiro et se fier directement au graphique?
- Si le nombre d’observations est assez grand (environ entre 30 et 50 observations par échantillon)
- si la distribution n’est pas trop asymétrique (pas de valeur trop extrême etc)
Qui-suis-je? « Test qui permet de tester si la variance dans deux groupes (ou plus) est égale (similaire). En d’autres termes, elle permet de tester si nos échantillons présentent un problème d’hétéroscédasticité. »
Test de Levene
Comment sont formulées les hypothèses statistiques pour un test de Levene?
H0: les variances des échantillons étudiés sont similaires
H1: les variances des échantillons étudiés sont différentes
Qui-suis-je? « Relation entre deux variables. Je suis aussi représentée par le symbole ~ »
Modèle
Il arrive que les conditions d’application ne semblent pas remplies (Test de Shapiro et Levene mais leur conclusion reste valide malgré un non-respect des conditions si :
- Pour la normalité il faut essentiellement que les distributions soient symétriques avec un n>30.
- Pour l’égalité des variances, les écarts-types peuvent différer d’un facteur 3 maximum (S2=3×S1).
Nommez les 3 types de transformations des données qui existent.
- Transformation logarithmique
- Transformation racine carrée
- Transformation arcsinus
Qui-suis-je? « Type de transformation qui a souvent pour effet d’aider à obtenir l’égalité des variances entre les groupes, c’est pourquoi c’est la plus répandue et la première essayée »
Transformation logarithmique
La transformation logarithmique peut s’appliquer à :
- Des masse et taille
- Des concentrations
- Toutes les données qui s’étendent sur plusieurs ordres de grandeur
- Des mesures de ratios / produits de variables ou de taux
- Des distributions asymétriques (skew négatif)
- Si le groupe qui a la plus grande moyenne a aussi la plus grande variance.
Dans quel cas est-ce qu’on ajoute 1 à nos données avant de les transformer en log?
Si une ou plusieurs valeurs de l’échantillon sont nulles (=0)
Qui-suis-je? « Transformation efficace lorsque Y
est une donnée d’énumération. Elle peut entre autres s’appliquer à des données du type nombre de proies capturées ou nombre d’oeufs pondus »
Transformation racine carrée
Qui-suis-je? « Transformation utilisée presque exclusivement pour des proportions parce que les valeurs de proportions ne sont pas distribuées normalement (forcément comprises entre 0 et 1) et des échantillons avec des moyennes de proportions différentes ont tendance à avoir des variances différentes.
Transformation arcsinus
Qui-suis-je? « tests qui ne font pas appel à une fonction de densité de probabilité calculée avec des paramètres (moyenne, écart-type, etc.) comme distribution nulle et qui travaillent avec les rangs des valeurs (et non les valeurs elles-mêmes) »
Tests non paramétriques
Vrai ou faux : Puisqu’ils sont moins contraignants, les tests non paramétriques sont moins bons que les autres tests.
Faux, ils sont juste un peu moins puissants
Dans quel cas devons-nous faire le test des rangs signés de Wilcoxon?
- Lorsqu’on ne peut pas admettre de distribution paramétrique sous-jacente aux données;
- L’échantillon est indépendant et aléatoire (cette condition est valable pour TOUS les tests).
Quel est le test non-paramétrique alternatif pour 2 échantillons appariés?
Test des rangs signés de Wilcoxon
Quel est le test non-paramétrique alternatif pour 2 échantillons indépendants ?
Test de Mann-Whitney
Quelles sont les différences et les similarités entre les tests de Wilcoxon et de Mann-Whitney?
Similarités : toutes les valeurs sont classées en ordre croissant et on leur attribuent un rang.
différences : Dans le cas de Mann-Whitney, on mélange toutes les valeurs ensemble avant de leur attribuer un rang, puis on fait la somme des rangs pour chaque échantillon.