Tests non paramétriques (6) Flashcards

1
Q

Quel est le problème avec le calcul de l’accord inter-juge en % d’Accord%

A

Notre pourcentage d’accord ne nous aidera pas à déceler certaine supercherie : en utilisant la même stratégie
douteuse, les deux juges obtiendront «par hasard» un bon pourcentage d’accord.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Comment caclcule-t-on l’accord inter-juge avec le Kappa (k)?

A
  1. Raisonnement similaire au Khi-carré: on calcule les fréquences attendues si les juges classent les participants au hasard
    2.Formule du Kappa
  2. k= % accord inter-juge en incluant la possibilité que l’On observe certains accords du au hasard
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelle est la formule du Kappa?

A

k=Somation de (fo)-Sommation de (fa) / N- sommation de fa

fo: fréquences observées
fa:fréqences attendues
N: nb accords potentiels (nb observation)

Au numérateur : le nombre d’accords moins ceux qu’on aurait eus si on avait procédé au hasard.
Au dénominateur : le nombre total de jugements moins les accords qu’on aurait eu par pur hasard.
On a donc le ratio du nombre d’accords sur le nombre total de jugements, moins l’effet attendu du hasard dans les deux cas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

V/F En d’autres mots, la mesure d’accord inter-juge par Kappa se résume à la proportion d’accords si on exclut tous ceux qui seraient obtenus par hasard

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Explique la mesure d’accord interjuge du coefficient de concordnace de Kendall (W) (concordance des rangs)

A

Principe: Si les juges sont d’accords, la variance entre les scores des différents films serait grande. Si les juges ne sont pas d’accords, la variance ne sera pas particulièrement grande.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Donne la formule du W de kendall (mesure accord inter-juge de la concordance des rangs)

A

W= variance des totaux des colonnes/ varaince maximale possible des totaux de colonnes

W = (12 Sommation de Tj2 / k2 N (N2-1)) - 3(N+1)/N-1
Sommation de Tj
2 : somme des totaux de colones au carré
K: nb de juges
N: nb d’objets a classer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

V/F Le W obtenu dans la mesure d’accord a une signification particulière.

A

FAUC, Pas vraiment de signification qui soit très intuitive, mais on peut transformer le W de Kendall en rs de Spearman.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Comment transforme-t-on un W en rs de spearman?

A

Avec cette formule:
rs= kW -1/k-1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

V/F Si on faisait faisait toutes les paires de juges possibles, et que l’on calculait ensuite le rs de Spearman pour chacune de ces paires, on pourrait ensuite calculer le en rs de Spearman moyen.

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Lorsqu’on fair une mesure d’accord interjuge avec la concordance des rang, que doit-on rapporter?

A

Le W et le rs (que l’on doit interpréter)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est-ce que la médiane

A

Le point auquel (ou sous lequel) on retrouve 50 % des scores, lorsque ceux-ci sont placés en ordre numérique.

Position: N+1/2
**lorsque scores placés en ordre
N: nb de scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce que la moyenne?

A

Somme des scores divisée par le nombre de score

Pour trouver position: Somation des scores/ nb de scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quels sont les avantages et inconvénients de la médiane?

A

Avantages:
- Pas influencée par les scores extrêmes.
- N’implique pas (contrairement à la moyenne) que les données sont sur une échelle d’intervalle.

Inconvénients:
-Ne s’utilise pas facilement dans des équations.
-Pas aussi stable que la moyenne d’un échantillon à l’autre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quels sont les avantages et inconvénients de la moyenne?

A

Avantages:
-Peut faire l’objet de manipulations algébriques et être utilisée facilement dans des équations.
-Plus stable que la médiane d’un échantillon à l’autre

Inconvénients:
-Pour que la moyenne soit interprétable, on doit avoir une confiance minimale que les données sont sur une échelle d’intervalle.
-Sensible aux données extrêmes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Comment calcule-t-on un score Z?

A

Z= (score-moyenne)/écart-type

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Explique le concept de limitte

A

Score Z au dela duquel les résultats sont jugés trop improbables pour êtres observés sous Ho (du au hasard). Conclusion que ces scores appartiennent a une autre population (H1)

Les limites peuvent aussi êtres vues comme un intervalle de confiance

17
Q

Quelle est la formule/ la façon de présenter un intervalle de confiance?

A

IC.%deconfiance = (différence de moyenne) +- (tcritique x Érreur standar.différence de moyennes)

18
Q

Résume le test t (tet de student) pour échantillon indépendant

A
  • on exrime la différence entre 2 valeurs en quantité d’erreur standard

t=Valeur1-Valeur2/ erreur standard

-Quand probabilité d’observer une valeur de t est plus petite que le seuil fixé (alpha), conclusion qu’il y a une différence significative

19
Q

Quelle esr la principale différence entre les différentes versions du test t?

A

La manière de calculer l’erreur standard

20
Q

La plupart des tests statistiques les plus communs impliquent (2)…

A

La plupart des tests statistiques les plus communs impliquent :
1. D’estimer un ou plusieurs paramètres
2. D’avoir une distribution normale dans nos données

21
Q

Défini un test non paramétrique (2)

A

-Ils ne sont pas basés sur des conditions d’application liées à l’estimation de paramètres ou sur des conditions liées à des distributions.
-Ou encore ces conditions sont beaucoup plus générales.

22
Q

Nomme 3 avantages des tests non-paramétriques

A
  • Dans certains contextes, utiliser un test paramétrique sans remplir ses conditions d’application fera en sorte que ce test soit moins puissant que le test non paramétrique correspondant.
  • Plusieurs tests non paramétriques sont plus sensibles aux médianes qu’aux moyennes. Si la médiane nous intéresse plus que la moyenne, il s’agit d’un avantage.
  • Certains tests non paramétriques permettent de tester des hypothèses sur nos données même en la présence de données extrêmes.
23
Q

Nomme deux inconvénients des tests non-paramétriques

A
  • On prétend parfois que les tests non paramétriques sont moins puissants que les tests paramétriques correspondants.
  • Il faut donc de plus grands échantillons avec les tests non paramétriques, pour avoir une puissance comparable aux tests paramétriques.
24
Q

Explique la confusion qui subsiste quant à la puissance des tests non-paramétriques

A
  • Même lorsqu’il y a des écarts importants aux conditions d’application des tests paramétriques, ceux-ci sont parfois quand même plus puissants que les tests non paramétriques.
  • On a aussi montré que pour certains ensembles de données, les tests non paramétriques pourraient avoir une puissance à celle des tests paramétriques.
  • Généralement, on ignore malheureusement à quel moment le test non paramétrique sera plus puissant
25
Q

Nomme les tests paramétriques vus dans le cadre du cours

A
  1. Les procédures de rééchantillonnage (procédures essentiellement non paramétriques)
    * Bootstrap
    * Tests de permutation ou de randomisation (que nous ne verrons pas aujourd’hui)
  2. Les tests non paramétriques plus traditionnels (basés sur les rangs)
    (qui sont souvent vus comme des équivalents non paramétriques de tests que l’on connait, comme l’ANOVA ou le test-t)
26
Q

Quelle est la logique du bootstrap?

A

«si notre échantillon a la même forme que la population, un score observé chez X % des participants dans l’échantillon, alors il doit aussi être observé dans X % des participants dans la population».

  • On peut constituer 10 000 nouveaux échantillons de même taille que l’original à partir de nos données, en faisant des tirages avec remise des observations de notre échantillon.
  • Ce sera comme si on avait recruté 10 000 échantillons de 20 personnes dans la population
  1. On va calculer la médiane de chacun des 10 000 échantillons nouvellement constitués.
  2. On va faire une distribution de fréquence de ces médianes
  3. On va trouver les limites qui correspondent à 2.5 % des médianes observées de chaque côté de la distribution
    (donc le 2.5e et 97.5e percentiles).
  4. Voilà, maintenant on a notre intervalle de confiance.
27
Q

Comment rapporte-on les résultats avec bootstrapping?

A

« les x participants recrutés ont complété un test de mémoire. Un intervalle de confiance (99.7 %) a été calculé à l’aide de la méthode de bootstrap (10 000 échantillons obtenus par tirage avec remise) présentée dans Howell (2008; méthode des percentiles). Les participants ont obtenu un score médian au test de mémoire de 9.5, IC= 5, 10 . »

28
Q

Nomme un exemple de façon dont le bootstrap peut être utilisé (celui des notes de cours lol)

A
  • Vous souhaitez voir si le nombre de minutes de sport par semaine (X) est corrélé au score des participants à une mesure de symptômes dépressifs (Y).
  • Vous faites une étude, et calculez un coefficient de corrélation de 4 = 0.325, à l’aide d’un échantillon de 40 participants.
  • Vous souhaitez trouver un intervalle de confiance autour de ce coefficient de régression.
  • Pour ce faire vous faites un tirage avec remise des paires de données (X, Y) de votre échantillon, de manière à constituer un nouvel échantillon de 40 participants. Vous répétez cette étape un grand nombre de fois (disons 10 000 fois en tout).
  • Vous calculez la corrélation entre X et Y sur chaque échantillon individuellement.
  • Vous arrangez ensuite les coefficients en ordre croissant, puis trouvez les valeurs qui correspondent au 2.5e et au 97.5e percentiles (disons : r = 0.23 et r = 0.42).
  • Vous avez maintenant intervalle de confiance à 95 % [0.23, 0.42].
  • Puisque l’intervalle de confiance n’inclut pas 0, on sait que le coefficient de corrélation est significativement différent de 0.
29
Q

Lors de bootsrap, pk voudrait-on calculer des intervalles de confiance??

A
  • Permet d’aller au-delà d’une simple valeur p (et n’empêche pas de faire des tests d’hypothèse nulle, si on le souhaite)
  • Permet de visualiser l’incertitude associée à nos données
  • Plus l’intervalle de confiance est grand, plus on se rend compte que notre estimation d’un paramètre pourrait être loin de la vérité.
  • Au contraire, si l’intervalle de confiance est étroit, on réalise facilement que la valeur de notre estimateur est susceptible d’être proche du paramètre de la population.
  • Si on calcule l’intervalle de confiance, par exemple, sur une taille d’effet associée à un traitement clinique, on peut plus facilement juger de l’importance clinique des résultats
30
Q

Qu’est-ce que le Test de la somme des rangs de Wilcoxon?

A
  • Le test de Wilcoxon vérifie si la somme des rangs du plus petit groupe* est plus petite que la plus petite somme des rangs qu’on
    s’attendrait à obtenir au hasard. On obtient cette valeur critique dans la distribution W

*Si les groupes sont égaux, on s’intéresse alors à la plus petite somme des rangs. De plus, si nos données sont telles que le groupe n1 a en réalité des scores plus grands que ceux de n2 on peut quand même faire le test, à condition d’utiliser plutôt la distribution W’

Utilisé, car l’hypothèse nulle du test t est assez sensible aux tendances centrales

31
Q

V/F Le Test de la somme des rangs de Wilcoxon est équivalent au test-t pour sur deux échantillons indépendants

A

VRAI

32
Q

Comment obtient-on une distribution du Ws?

A

Puisque la somme des rangs pour un ensemble donné est toujours connue, il est relativement facile de constituer une distribution des fréquences pour W avec un n1et un n2’ donnés.
* Pour prendre un exemple facile, si on a un n1= 2 et un n2= 2 (ntotal- = 4), on peut avoir les rangs 1 à 4.
* En dressant une liste de toutes les permutations de rangs possibles, on obtient le tableau de gauche. On peut ensuite calculer la fréquence de chaque somme de rangs (voir table ci-dessous).

33
Q

Décris l’approximation normale du test de la somme des rangs de Wilcoxon pour les n<25 et les n>25

A

Pour les n < 25, le test est basé directement sur une distribution W ou W’
* Pour les n > 25, on peut exploiter que la forme de la distribution W ou W’ s’approche de celle d’une distribution normale. Ci-dessous, seulement augmenter les n de 2 à 3 montre qu’on s’approche rapide d’une distribution à l’allure normale. À n = 25, c’est encore mieux. On peut ainsi calculer un z et utiliser la distribution normale pour obtenir une valeur p.

34
Q

Qu’est-ce que la statistique U de Mann-Withney?

A
  • Il s’agit d’un test équivalent à celui de la somme des rangs de Wilcoxon
  • Puisque les deux tests sont équivalents, il existe une relation linéaire parfaite entre W et U.
  • On peut donc facilement convertir un W en U et vice versa.

U=(n1(n1+2n2+1)/2) - W

35
Q

Qu’est-ce que Le test des rangs pour échantillons pairés de Wilcoxon

A

L’équivalent du test-t pour sur deux échantillons pairés ou dépendants
* Le principe de base est semblable à celui du test de la somme des rangs de Wilcoxon pour échantillons non pairés.
* H0 : les deux échantillons pairés proviennent soit de populations qui sont identiques, soit de populations qui sont symétriques et qui ont la même moyenne

36
Q

Décris l’approximation normale du test de la somme des rangs pour échantillons pairés de Wilcoxon pour les n<50 et les n>50

A
  • Pour les n < 50, le test est basé directement sur une distribution T
  • Pour les n > 50, on peut exploiter que la forme de la distribution T s’approche de celle d’une distribution normale.
  • On peut ainsi calculer un z et utiliser la distribution normale pour obtenir une valeur p.
37
Q

Nomme deux autres tests non paramétriques

A

Analyse de variance à un critère de classification de Kruskal-Wallis
* Équivalent (non paramétrique) de l’ANOVA à un facteur.
* H0 : les échantillons proviennent de populations identiques (et le test est particulièrement sensible aux différences de tendances centrales)

Test des rangs de Friedman pour K échantillons non indépendants
* Équivalent (non paramétrique) de l’ANOVA à un facteur à mesures répétées
* H0 : les scores de chaque traitement proviennent de populations identiques (et le test est particulièrement sensible aux différences de tendances centrales sur le plan des populations)

38
Q

Nomme les grandes conclusions du cours

A

Tout au long de la session, nous avons accordé une grande importance aux tests d’hypothèse nulle à l’aide de valeurs p.

Cela étant dit, ce cours ne serait pas complet sans aborder certains des problèmes de cette manière de faire.

  • Elles sont parfois mal comprises : une petite valeur p ne veut pas nécessairement dire qu’un effet est de grande taille, et elle ne représente pas non plus la probabilité que l’hypothèse nulle soit vraie. La valeur p représente la probabilité d’observer des données aussi extrêmes que celles que l’on observe si l’hypothèse nulle est vraie.
  • Elles encouragent la pensée dichotomique (p. ex. les groupes sont différents ou pas).
  • Dans la vraie vie, tout n’est pas noir ou blanc, vrai ou vaux, ainsi de suite. Il existe des nuances.
  • Le degré de signification peut être confondu avec la taille d’échantillon.
  • Souvenez-vous du cours sur la puissance statistique : la capacité à détecter un effet qui existe vraiment dépend de la taille de l’effet et de la taille de l’échantillon. Or, avec un échantillon suffisamment, grand, on peut détecter des effets de taille très minimes (et donc potentiellement peu importants).
  • Certains en font de mauvais usages
  • p hacking : ajouter des participants après avoir déjà fait des analyses et rapporter seulement les analyses les plus récentes (et significatives); faire un grand nombre d’analyses et rapporter seulement celles qui sont significatives.
  • p HARKing : Prétendre qu’une hypothèse faite après avoir collecté les données a été faite avant de collecter les données.
39
Q

Quelles sont les solutions pour éviter les problèmes liés aux test d’hypothèse nulle?

A

Rapporter les tailles d’effet (minimalement)
* Permet d’aller au-delà d’une pensée dichotomique sur la présence ou l’absence d’un effet
* Nous informe sur la magnitude de l’effet observé

  • Rapporter les intervalles de confiance
    *Permet d’avoir une meilleure estimation idée de l’incertitude associée à l’estimation d’un paramètre ou d’une taille d’effet.
  • Permet même de faire des tests d’hypothèse comme ceux que l’on fait à l’aide des valeurs p (p. ex., non-rejet de l’hypothèse nulle, si la valeur de l’hypothèse nulle fait partie de l’intervalle de confiance à 95 %).
  • Les méta-analyses : permettent d’agréger les tailles d’effet de plusieurs études pour mieux estimer l’effet réel
  • Les méthodes statistiques bayésiennes, qui sont de plus en plus populaires