module 6 : les statistiques Flashcards

1
Q

Les indicateurs de tendance centrale et de dispersion sont utilisés pour

A

décrire une distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

qu’est-ce que la tendance centrale

A

fait référence à des mesures qui permettent de localiser le centre d’une distribution de scores. Spécifiquement, l’objectif d’une mesure de tendance centrale est de résumer en un seul nombre la valeur typique ou la plus représentative d’un ensemble de scores. Il existe trois mesures de tendance centrale : moyenne, mode et médiane.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

qu’est-ce que la moyenne

A

représente la mesure la plus courante de tendance centrale. Elle se calcule en additionnant les valeurs observées de chaque participant divisées par le nombre de participants observés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

qu’est-ce que le mode d’une série d’observations

A

est la valeur la plus fréquente d’un ensemble de données. Le mode est rarement employé seul pour mesurer la tendance centrale, parce qu’avec un petit nombre d’observations, chaque valeur est unique. Dans ce cas, il n’y a pas de mode.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

qu’est-ce que la médiane d’une série d’observation

A

l’observation du milieu d’une distribution de scores, c’est-à-dire à la valeur de part et d’autre de laquelle se situe la moitié des observations. Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant. La position de la médiane se calcule tel qu’indiqué dans la diapositive, selon que le nombre de scores est pair ou impair.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

En général, on préfère utiliser la moyenne à la médiane parce que

A

la moyenne est calculée en utilisant un maximum d’informations de toutes les
2
observations. En effet, le calcul de la moyenne fait intervenir les valeurs de toutes les observations, alors que la médiane représente l’information d’une seule observation. De plus, une partie importante des tests statistiques repose sur la moyenne. Toutefois, le désavantage de la moyenne est qu’elle est très sensible aux valeurs extrêmes, alors que la médiane ne l’est pas du tout.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

quelles sont les mesures de dispersion?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

la variance et l’écart-type mesurent quoi ?

A

mesurent la dispersion (ou l’écart) de chaque observation autour de la moyenne.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

pk le signe utilisé pour représenter la variance d’une population diffère de celui utilisé pour un échantillon

A

Cela est dû au fait que le calcul de la variance varie légèrement lorsqu’il s’agit d’un échantillon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

v ou f : il est commun d’exprimer les paramètres d’une distribution par sa moyenne et son écart-type

A

vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

qu’est-ce que la distribution de normale?

A

distribution théorique « en forme de cloche » et est appelée normale parce qu’elle représente bien la distribution de plusieurs phénomènes observés dans la nature (p. ex. : la taille, le poids, l’âge, la capacité intellectuelle, etc.). Cette distribution est dite « théorique », car il est rare qu’une distribution de scores soit « parfaitement normale ». Si cela s’avérait être le cas, la courbe de distribution des scores serait parfaitement symétrique, unimodale et en forme de cloche autour de la moyenne.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

La xxx est un principe clé sur lequel sont basés plusieurs tests statistiques?

A

distribution normale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

comme dans toute distribution qui tend à être normale, on observe :

A

un pourcentage plus élevé de données près de la moyenne et un pourcentage de plus en plus faible à mesure que l’on s’en éloigne, en allant vers les extrémités de la distribution. Dans cet exemple, le programme informatique a surimposé une courbe (en noir) sur l’histogramme de la distribution, montrant ce que serait une distribution théorique « parfaitement normale ». On constatera qu’avec 480 observations, cette distribution est très proche de la normalité parfaite, donc probablement très représentative de la population d’où elle est tirée : l’ensemble des personnes ayant une lésion médullaire au Québec.

L’exemple à la droite de la diapositive présente des données d’âge d’un groupe de personnes ayant subi une arthroplastie du genou (n=30). L’histogramme montre une distribution beaucoup moins symétrique que la précédente et, donc, plus éloignée d’une distribution normale. Évidemment, il n’y a pas que les représentations graphiques qui nous permettent de déterminer la normalité d’une distribution.
À l’aide de la moyenne et de l’écart-type, on peut en savoir davantage sur la « normalité » d’une distribution, car la distribution normale théorique possède des caractéristiques définies sur le plan du pourcentage d’observations (scores) que l’on devrait retrouver dans un intervalle connu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

v ou f : on ne sera pas surpris de retrouver un pourcentage plus élevé de données près de la moyenne et un pourcentage plus faible vers les extrémités de la distribution

A

vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

v ou f : 2 % des scores d’une distribution normale devraient se retrouver au-dessus de deux écarts-types de la moyenne

A

vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

si une distribution est normalement distribuée, le % de scores dans un écart défini est connu

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

comment faire la comparaison de deux distributions de scores

A

écessite l’utilisation d’une échelle unique à toutes les distributions. Pour ce faire, les scores de chaque distribution sont transformés en score Z à partir de la moyenne et de l’écart- type de leur distribution respective (équation ci-contre). Le score Z d’un score x de la distribution correspond au nombre d’écarts-types en dessous ou au- dessus de la moyenne de la distribution. L’unité de mesure de la nouvelle échelle n’est plus des années, des degrés ou autres, mais des écarts-types. À noter que la transformation d’une distribution en scores Z ne change pas la forme de la distribution, mais sa moyenne devient 0 et son écart-type (s) égale 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

v ou f : En lien avec la notion de « pourcentages sous la courbe normale », nous pouvons calculer la probabilité d’obtenir un score supérieur ou inférieur à un score Z donné dans une distribution

A

vrai

Donc, chaque score de la distribution a été transformé en score Z et, par exemple, le score le plus bas (x = 32 degrés) donne un score Z de -2,3 soit, à 2,3 écarts-types de la moyenne. La probabilité (p) d’obtenir un score inférieur à 32° dans cette distribution est donnée par le « pourcentage sous la courbe normale », qui peut être obtenu avec une grande précision à partir d’une table de scores Z.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

à quoi correspond la distribution des moyennes échantillonnages?

A

correspond à la distribution de plusieurs échantillons provenant de la même population

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

la distribution des moyennes échantillonnages est un estimé précis de la moyenne de la population

A

vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Nomme une façon de pouvoir obtenir une estimation plus précise de la moyenne de la population

A

tirer plusieurs échantillons (disons dix échantillons) et de déterminer la moyenne et l’écart-type de ces dix moyennes d’échantillons.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

qu’est-ce que l’erreur-type de la moyenne

A

l’indice de dispersion des moyennes échantillonnales.

si nous avions tiré dix échantillons, l’erreur-type serait la valeur de l’écart-type de la distribution des dix moyennes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Les statisticiens ont développé une formule simple pour obtenir l’erreur-type de la moyenne pour un échantillon, elle se calcule à partir de quoi?

A

qui se calcule à partir de l’écart-type (s) et du nombre d’observations (n) de la distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Maintenant que nous avons identifié un indice de dispersion associé à la moyenne d’une population, il est possible de déterminer, pour une distribution de scores d’un échantillon, un intervalle dans lequel il y a une certaine probabilité de trouver cette moyenne. Comment se nomme ce concept?

A

intervalle de confiance de la moyenne d’un échantillon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

qu’est-ce que l’intervalle de confiance de la moyenne d’un échantillon

A

l’intervalle autour de la moyenne d’un échantillon (p. ex. X = 77,6° d’amplitude articulaire) à l’intérieur duquel on obtient une probabilité (en pourcentage) de trouver la vraie moyenne de la population.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Le calcul de l’intervalle de confiance autour d’une moyenne et dans lequel il y a une probabilité connue de trouver la vraie moyenne de la population est relativement simple ( 4 étapes) :

A

1) Calcul de la moyenne de l’échantillon pour la variable d’intérêt (ex. : l’amplitude articulaire);

2) Calcul de l’erreur-type de la moyenne (SEM) à partir de l’écart-type et du nombre de scores;

3) Identification du score Z qui correspond à la probabilité désirée (pourcentage de chance de trouver la vraie moyenne);

4) Cette identification doit se faire à partir d’une table de scores Z et, dans les exemples que nous utilisons (68, 90 et 95 %), ces scores z sont respectivement de 1.00 1.645 et 1.960 (voir dans les formules ci-dessus).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

qu’est-ce que le concept de différence significative?

A

la probabilité que les moyennes des deux échantillons soient semblables à celles des populations d’ou elles proviennent

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

trois facteurs vont influencer ou favoriser la probabilité d’observer des différences significatives entre deux groupes, lesquels?

A

1) La variabilité intergroupes (l’écart mathématique entre les deux moyennes);
2) La variabilité intragroupe (l’écart-type de chaque groupe); et
3) Le nombre de sujets par groupe.

29
Q

Prenons l’exemple de trois échantillons dont les moyennes seraient respectivement de 49,1°, 72,6° et 77,6° d’amplitudes articulaires. Au premier coup d’œil, on comprend qu’il y a une plus grande chance de trouver une différence significative entre les résultats de la clinique 1-2 ou 3

A

la clinique 2 (49,1°) et celui de la clinique 3 (72,6°) qu’entre le résultat de cette dernière et celui de la clinique 1 (77,6°), considérant la distance mathématique entre les résultats (clinique 2-3 = 23,5°; clinique 1-3 : 5,0°).

30
Q

effet de la variabilité intergroupes sur la probabilité d’observer une différence significative

A

Si on regarde de plus près les courbes de probabilité de trouver la vraie moyenne des populations d’où sont tirés les échantillons des cliniques 1 et 3 (partie droite de la diapositive), on constate que ces courbes se chevauchent énormément. Si on calculait un intervalle de confiance de 95 % autour des moyennes de ces deux cliniques, ces deux intervalles se chevaucheraient, ce qui limiterait la possibilité d’observer une différence significative entre ces deux moyennes.
Par contre, si on regarde la courbe de probabilité de la clinique 2, il est très apparent qu’elle ne chevauche pas celles des cliniques 1 et 3.

31
Q

Effet de la variabilité intragroupe sur la probabilité d’observer une différence significative

A

La variabilité dans chacun des groupes, exprimée par l’écart-type, est également un facteur qui influence la probabilité d’observer une différence significative entre deux moyennes.

Dans l’exemple de gauche (petit écart-type), les échantillons des deux cliniques (1 et 3) ont un nombre identique de participants (n = 100). Leurs moyennes sont respectivement de 72,6° et de 77,6°, avec un écart-type de 10 donnant une erreur-type de faible magnitude (SEM= 1,0). Dans ce cas, la probabilité d’observer une différence significative est relativement élevée, tel que démontré par les courbes de probabilité qui se chevauchent très peu.

Par contre, dans l’exemple de droite (grand écart-type) la situation se modifie si les échantillons des deux cliniques présentent des écarts-types plus grands (30°) et des SEM plus grands, avec un effet direct sur les courbes de probabilité. La probabilité d’observer une différence est donc plus faible lorsque la variabilité à l’intérieur des groupes est élevée.

32
Q

effet du nombre de sujets sur la probabilité d’observer une différence significative

A

Le dernier paramètre qui influence la probabilité d’observer une différence significative entre deux moyennes est le nombre de sujets dans les groupes. La présente diapositive présente deux exemples qui diffèrent seulement sur le plan du nombre de participants (10 et 100). On notera l’influence du nombre de participants sur la SEM (3,16 contre 1,00). Un faible nombre de participants diminue la probabilité d’observer une différence significative alors qu’un plus grand nombre de participants augmente cette probabilité.

33
Q

Le processus de différences entre deux moyennes nécessite d’énoncer deux types d’hypothèses qui seront vérifiées par les tests statistiques : lesquelles?

A

L’hypothèse nulle ( pas de différence significative entre les moyennes des deux échantillons = la moyenne de la population d’où provient la clinique 1 est égale à la moyenne de la population d’où provient la clinique 2.)

et alternative ( différence significative entre les moyennes des deux échantillons : à l’effet que la moyenne de la population d’où provient la clinique 1 diffère de la moyenne de la population d’où provient la clinique 2.) = on rejette l’hypothèse nulle

34
Q

v ou f : La probabilité de trouver une différence significative entre les moyennes de deux échantillons n’est jamais de 100 %.

A

vrai

35
Q

Avant d’utiliser un test statistique pour vérifier l’hypothèse nulle (H0) ou alternative (H1) que doit établir le chercheur?

A

le chercheur doit donc établir le niveau de probabilité d’énoncer une conclusion erronée à partir des résultats d’un test statistique. Autrement dit, quelle probabilité d’erreur est-il prêt à accepter sur le rejet de l’hypothèse nulle qui constituerait à ce moment-là l’acceptation d’une différence significative entre les deux moyennes?

36
Q

la valeur  ou le niveau de signification peut différer d’une étude à l’autre, mais elle se situe généralement à

A

5%
Cela signifie qu’il y a seulement 5 % de chances qu’une différence entre les deux moyennes soit due à une erreur d’échantillonnage et ne soit pas une vraie différence. Dans vos articles scientifiques, ce niveau de signification () se retrouve habituellement à la fin de la section « méthodologie » (description des analyses statistiques).

37
Q

la probabilité réelle d’énoncer une conclusion erronée à partir des résultats d’un test statistique s’appelle

A

LA VALEUR P (PROBABILITÉ)

38
Q

V OU F : Si la valeur p du test statistique est plus petite (inférieure) que la valeur () préétablie, le chercheur rejette l’hypothèse nulle et conclut à des différences significatives entre les deux moyennes.

A

VRAI
Cette conclusion est souvent notifiée dans les articles par le signe suivant (p ≤ 0,05).

39
Q

La sélection des tests statistiques dans les cas d’analyses de différences est basée essentiellement sur quatre critères, lesquels?

A

1) Le respect de prémisses de base (normalité des distributions, homogénéité des variances);
2)Les types d’échelles de mesure (nominale, ordinale, par intervalle, proportionnelle);
3) Les types d’échantillons (dépendants ou indépendants); et 4) Le nombre d’échantillons (2 ou > 2).

40
Q

qu’est-ce que les tests paramétriques?

A

utilisent les paramètres des échantillons (moyenne, écart- type) pour déterminer la présence de différences entre les moyennes. L’utilisation d’un test paramétrique nécessite de vérifier si les prémisses de base sont respectées :
- distribution normale de la variable : Il est souhaitable d’obtenir une distribution normale, mais, en pratique, il est difficile de déterminer jusqu’à quel point une distribution est normale.

  • homogénéité des variances : la variabilité intragroupe pour la variable d’intérêt doit être similaire dans les échantillons. Cela peut être testé statistiquement. En pratique, lorsque le nombre de participants dans les échantillons est similaire, il est possible d’accepter des différences dans la variance des échantillons.
  • indépendance ou dépendance des échantillons : importante, car elle dicte le choix des tests. Des échantillons de données sont indépendants lorsqu’ils proviennent de participants différents (p. ex. : clinique 1 ou 2). Lorsque les données proviennent des mêmes participants mesurés à plusieurs reprises dans le temps (T1 et T2), on dit que les échantillons de données sont dépendants
41
Q

qu’est-ce que les tests non paramétriques?

A

basés sur les rangs des valeurs dans les distributions ou sur des fréquences. La seule prémisse qui doit être respectée est l’indépendance ou la dépendance des échantillons de données, puisque les tests statistiques seront utilisés selon le type d’échantillon.

42
Q

Généralement, les tests non paramétriques sont utilisés lorsque

A

les prémisses de normalité des données et l’homogénéité des variances ne sont véritablement pas respectées. Cela se produit lorsque le nombre de participants est petit et que les données peuvent difficilement être normalement distribuées.

utilisés avec les échelles de mesure nominale ou ordinale qui, en principe, ne présentent pas de moyenne et d’écart-type. Comme ces tests utilisent les rangs ou les fréquences, plutôt que les moyennes, pour calculer les statistiques permettant de déterminer des différences significatives entre les échantillons, ils sont tout à fait indiqués avec ces types d’échelles.

43
Q

tests selon les types et le nombre d’échantillons?

A
44
Q

des échantillons de données sont « indépendants » lorsqu’ils proviennent de ?

A

participants différents

45
Q

des échantillons de données sont « dépendants » lorsque

A

les données proviennent des mêmes participants mesurés à plusieurs reprises dans le temps.

46
Q

les principaux tests qui seront présentés pour des échantillons indépendants (tests paramétriques et non paramétriques).

A
47
Q

Test- t :
objectif du test
indication du test
informations fournies
caractéristiques

A

Le test-t pour échantillons indépendants (independent t-test) s’utilise lorsqu’on compare les moyennes de deux échantillons et que l’on désire déterminer si elles sont significativement différentes. Par exemple, si vous avez les données de deux cliniques quant à l’amplitude articulaire à trois semaines post-arthroplastie (Clinique 1 : 10 sujets, moyenne = 77,6°, écart- type = 19,8°; Clinique 2 : 10 sujets, moyenne = 49,1°, écart-type = 14,6°). Concrètement, vous souhaitez déterminer si les deux moyennes (77,6° et 49,1°) diffèrent de façon significative.

La valeur calculée lors d’un test-t pour échantillon indépendant est appelée la statistique t. Pour l’exemple ci-dessus, la statistique t est de 3,66 (la valeur t est obtenue à l’aide d’un logiciel de statistique). Cette valeur est relativement grande et excède la valeur critique (1,73, établie à partir d’une table de calcul), suggérant qu’il existe une différence significative entre les deux moyennes. Une valeur de p est également obtenue lors d’un test -t pour échantillon indépendant. Pour l’exemple ci-dessus, la valeur de p est de 0,002. Elle indique qu’il y a seulement 0,2 % de chances qu’une telle différence soit due à une erreur d’échantillonnage et ne soit pas une vraie différence.

48
Q

Mann-whitney u
objectif du test
indication du test
informations fournies
caractéristiques

A

Utilisons le même exemple que celui utilisé pour le test-t pour échantillons indépendants, soit l’amplitude articulaire de deux échantillons (les cliniques 1 et 2) comptant chacun dix participants. Dans un cas comme celui-ci, il serait sage d’utiliser un test non paramétrique (Mann-Whitney U) considérant le faible nombre de participants par loggroupe et le peu de normalité dans la distribution d’un des échantillons.
Vous effectuez un test Mann-Whitney U à l’aide du logiciel de statistique SPSS afin d’évaluer s’il y a une différence entre les groupes. Une formule statistique a mené au calcul de la statistique U (12,5) et la transformation de cette valeur de U donne un score Z = 2,84 et une valeur de p = 0,0046. Comme la valeur p est inférieure à  = 0,05, nous pouvons conclure que l’amplitude diffère de façon significative entre les deux groupes. Il s’agit donc de la même conclusion que celle qui avait été obtenue lors de l’utilisation du test paramétrique (test-t pour échantillons indépendants).

49
Q

Analyse de variance (ANOVA)
objectif du test
indication du test
informations fournies
caractéristiques

A

Les exemples précédents utilisaient toujours deux échantillons de participants. Lorsqu’une étude nécessite de comparer plus de deux échantillons (p. ex. : trois programmes d’entraînement différents), on ne peut plus utiliser les tests décrits précédemment. En présence de plus de deux échantillons indépendants (p. ex. : groupe expérimental et groupe témoin) respectant les prémisses de normalité et d’homogénéité des variances, l’analyse de la variance (appelée également ANOVA en anglais) peut être utilisée. Il s’agit d’une analyse plus complexe que le test-t, mais qui repose sur des principes similaires, soit l’utilisation des moyennes et du nombre de participants de chaque groupe. L’analyse de variance à un facteur (1-way ANOVA) est utilisée lorsque les groupes sont comparés sur une seule variable indépendante (p. ex. : le programme d’entraînement des trois cliniques). Lorsqu’il y a deux variables indépendantes (p. ex. : le programme d’entraînement des trois cliniques et la prise ou non d’un anti-inflammatoire non stéroïdien), l’analyse de variance à deux facteurs (2-way ANOVA) est utilisée.
Prenons l’exemple de l’amplitude articulaire mesurée dans trois cliniques (dix participants/clinique) à trois semaines post-arthroplastie du genou (Clinique 1 : moyenne = 77,6°, écart-type = 19,8°; Clinique 2 : moyenne = 49,1°, écart-type = 14,6°; Clinique 3 : moyenne = 72,6°, écart-type = 18,9°). Comme tous les autres tests, l’analyse de la variance produit une statistique (ici appelée le rapport F), soit une information semblable à la statistique t du test-t ou U du Mann-Whitney U.
Dans le cas présent, une expérimentation avec trois échantillons de trente participants, la statistique F donne une valeur de 7,21 et, comme pour les autres tests, on peut y associer une valeur de p. À partir d’une table de distribution de F, la valeur p identifiée pour un F de 7,21 est de 0,0031 et est inférieure à  = 0,05, permettant de conclure que la moyenne d’amplitude articulaire d’au moins un groupe diffère de façon significative des deux autres groupes.

50
Q

Kruskal-wallis H
objectif du test
indication du test
informations fournies
caractéristiques

A

Utilisons le même exemple que celui utilisé pour l’ANOVA, soit l’amplitude articulaire de trois échantillons (les cliniques 1, 2 et 3) comptant chacun dix participants. Dans un cas comme celui-ci, il serait sage d’utiliser un test non paramétrique (Kruskal-Wallis) considérant le faible nombre de participants par groupe et le peu de normalité dans la distribution d’un des échantillons.
Vous effectuez un test Kriskal-Wallis H à l’aide du logiciel de statistique SPSS afin d’évaluer s’il y a une différence entre les groupes. Une formule statistique a mené au calcul de la statistique H (8,6) et la transformation de cette valeur de H donne un score Z de 2,24 et une valeur de p de 0,0076. Donc, comme la valeur p est inférieure à  = 0,05 nous pouvons conclure que l’amplitude diffère de façon significative entre les deux groupes, soit la même conclusion qui avait été obtenue lors de l’utilisation du test paramétrique (ANOVA).

51
Q

Test du chi-carré x2
objectif du test
indication du test
informations fournies
caractéristiques

A

Prenons l’exemple d’une étude qui désire déterminer si les traitements de trois cliniques permettent d’atteindre le seuil de 90° d’amplitude articulaire après trois semaines de thérapie. Le tableau de contingence (dans la diapositive) présente les données de ces trois cliniques selon le nombre de participants qui ont atteint ou non 90° d’amplitude articulaire. Le principe du test du 2 correspond à la comparaison des fréquences observées avec des fréquences dites « attendues » (expected frequencies), soit celles qui seraient observées s’il n’y avait aucune différence de proportion entre les trois cliniques sur le plan de l’amplitude (< ou ≥ 90 ̊). En fait, ce dernier tableau correspond à l’hypothèse qu’il n’y a pas de différence dans les proportions entre les trois cliniques et ses données seront comparées au tableau des valeurs réellement observées.
Le test du Chi-carré consiste à comparer chacune des fréquences observées (f0) à son vis-à-vis (fe) du tableau de fréquences attendues et d’en faire la sommation. Cette formule produit une statistique (2) qui permet de déterminer s’il existe une association entre les deux variables. Pour cet exemple, la statistique de 2 est de 4,04 (calculé à l’aide de SPSS). Elle est associée à une valeur de p = 0,13, soit une valeur plus élevée que  = 0,05 permettant de conclure qu’il n’y a pas de différence significative entre les trois cliniques quant à la proportion de participants ayant plus de 90 degrés ou moins de 90 degrés d’amplitude articulaire.
Notez que la valeur de p (0,13) est relativement près de 0,05 et il est possiblequ’un nombre légèrement plus élevé de participants dans chacune des cliniques ait pu influencer le résultat du test (soit un 2 plus élevé associé à une valeur de p plus faible) et nous permettre de conclure à une différence significative.

52
Q

test chi-carré : fréquence observées vs fréquences attendues

A

fréquences observées : celles que l’on observe dans al table de contingence. Celles qui sont obtenues lors de la collecte de données

fréquences attendues : celles que l’on observerait s’il n’y avait aucune différence dans les proportions entre les différentes groupes

53
Q

test pour échantillons dépendants

A
54
Q

test-t pour données pairées
objectif du test
indication du test
informations fournies
caractéristiques

A

Le test-t pour échantillons dépendants (données pairées) est utilisé lorsque le même groupe de participants est mesuré deux fois, soit à la suite d’un laps de temps prédéterminé ou à la suite d’une intervention. La première mesure est utilisée comme contrôle de la deuxième. Prenons l’exemple de trente participants qui ont subi une arthroplastie du genou et qui ont suivi un programme de réadaptation. Une étude pourrait vérifier l’augmentation de l’amplitude articulaire entre trois et six semaines post-arthroplastie et déterminer si des différences significatives existent dans les valeurs observées à trois et à six semaines post-arthroplastie. Disons que la moyenne et l’écart-type des différences entre trois et six semaines est de 7,0 ± 10,0°, ce qui suggère déjà un effet général qui semble positif.
Le test-t pour échantillons dépendants utilise des données simples (moyenne, écart-type, nombre de participants) pour calculer une valeur de t permettant de juger si les changements entre les deux temps de mesure sont statistiquement significatifs.
Pour cet exemple, disons que le calcul à l’aide du logiciel SPSS permet de déterminer une valeur t de 3,82. Cette valeur est associée à une valeur de p = 0,001, inférieure à  = 0,05, ce qui permet de conclure que les gains observés sont statistiquement significatifs.

55
Q

Wilcoxon signed rank test
objectif du test
indication du test
informations fournies
caractéristiques

A

utilisé lorsque les prémisses des tests paramétriques ne sont pas respectées, en présence de deux échantillons dépendants. Comme pour les autres tests non paramétriques, ce test est basé sur le rang des observations et, plus spécifiquement, sur le rang de la différence entre les deux observations (T2 — T1) d’un même participant et non sur leur valeur absolue.
Dans l’exemple sur l’amplitude articulaire à trois et six semaines utilisé pour présenter le test-t pour données pairées, il aurait été possible d’utiliser le Wilcoxon Signed Rank Test si les prémisses de normalité n’avaient pas été respectées. Après que soient calculées les différences d’amplitude articulaire (T6 sem-T3 sem) de chaque participant, un rang leur est attribué en conservant cependant le signe (— ou +) des valeurs. La somme des rangs négatifs et positifs est calculée et transformée en valeur moyenne.
Par la suite, le logiciel statistique calcule une valeur de Z et de p. Pour cet exemple, la valeur de Z est de -3,29, associée à une valeur de p = 0,001, inférieure à  = 0,05, permettant de conclure que les gains d’amplitude articulaire observés entre trois et six semaines sont statistiquement significatifs.
Note : Comme le nombre de participants est assez élevé (n = 30), il n’est pas surprenant que le test non paramétrique (Wilcoxon Signed Rank Test) donne un résultat très similaire au test paramétrique (test-t à la diapositive précédente). Par contre, si l’étude n’avait pu compter que sur dix participants ou moins, il est probable que les résultats des deux tests aient différé.

56
Q

Anova à mesures répétées
objectif du test
indication du test
informations fournies
caractéristiques

A

Lorsqu’une expérimentation a plus de deux temps de mesure, les tests pour échantillons dépendants présentés dans les dernières diapositives ne peuvent être utilisés. Si les prémisses des tests paramétriques s’appliquent, on doit avoir recours à l’analyse de la variance à mesure répétée (Repeated Measures ANOVA). D’un principe similaire à l’ANOVA à un facteur présenté précédemment, l’analyse est basée sur les différences entre les temps de mesures (p. ex. : T1-T2-T3-Tx). Prenons l’exemple d’une expérimentation qui s’intéresserait à comparer les résultats de l’amplitude articulaire à trois semaines, six semaines et six mois post-arthroplastie chez un groupe de trente personnes (Clinique 1 : moyenne = 66,4°, écart-type = 21,4°; Clinique 2 : moyenne = 73,4°, écart-type = 17,6°; Clinique 3 : moyenne = 94,4°, écart-type = 10,5°).
À partir de calculs de différences d’amplitudes entre les trois temps de mesure pour chaque participant, une statistique (rapport F) est calculée. Pour cet exemple, la valeur de la statistique F est de 94,06 et la valeur p associée est de (0,001). Cette valeur de p est nettement inférieure à  = 0,05, permettant de conclure que le gain observé entre au moins deux temps de mesure (T3 sem-T6 sem-T6 mois) est statistiquement significatif sur le plan de l’amplitude articulaire.
Un test de comparaison multiple serait nécessaire pour déterminer entre quels temps de mesure se situent les différences significatives. Ce test de comparaison multiple aurait la forme d’un test -t pour données pairées.

57
Q

Friedman’s anova
objectif du test
indication du test
informations fournies
caractéristiques

A

Lorsque les prémisses de normalité et d’homogénéité des variances ne sont pas respectées, le test ANOVA de Friedman doit être utilisé. Comme il s’agit d’un test non paramétrique, il est basé sur le rang des observations plutôt que sur leurs valeurs absolues. La méthode génère également des sommes de rangs (comme pour les autres tests non paramétriques) pour chaque temps de mesure (T1, T2, T3…).
Reprenons les données de l’exemple utilisé pour décrire l’analyse de variance à mesures répétées (n= 30, T3 sem-T6 sem-T6 mois). La formule de calcul génère une statistique Q et utilise la distribution des 2 pour générer une valeur de p. La valeur du 2 est 48,7 et la valeur de p qui lui est associée est de 0,001, soit nettement inférieure à  = 0,05. Comme pour l’analyse de variance à mesures répétées, la méthode de calcul des différences à partir des rangs des observations permet de conclure qu’au moins un des gains observés entre deux temps de mesure (T3 sem-T6 sem-T6 mois) est statistiquement significatif sur le plan de l’amplitude articulaire.
Un test de comparaisons multiples serait nécessaire pour déterminer entre quels temps de mesure se situent les différences significatives. Ce test aurait la forme d’un Wilcoxon Signed Rank Test.

58
Q

la relation qui existe entre deux ou plusieurs variables, particulièrement lorsque le devis de recherche demande une analyse de relations.Quels sont les deux types de tests statistiques

A

corrélation simple
analyse de régression linéaire (simple et multiple)

59
Q

Pour quantifier le degré d’association, on doit avoir recours

A

la corrélation simple: Cette analyse statistique permet de déterminer la direction et la force de la relation entre deux variables et si elle est statistiquement significative.

60
Q

Sur le plan statistique, la relation entre deux variables se vérifie à l’aide d’un

A

coefficient de corrélation. l existe différents types de coefficients qui sont essentiellement basés sur le type d’échelle de mesure utilisé pour documenter les variables à l’étude (nominale, ordinale ou par intervalles). Pearson ou spearman

61
Q

Comme pour l’utilisation des tests d’analyses de différences, l’utilisation de ces deux coefficients nécessite la vérification de quelques prémisses de base. La plus importante demeure

A

la relation entre les deux variables soit linéaire

62
Q

coefficient de corrélation de Pearson
objectif du test
indication du test
informations fournies
caractéristiques

A

Le coefficient de corrélation de Pearson (r) est utilisé pour calculer le degré d’association entre deux variables ayant des échelles par intervalles ou proportionnelles. Voici différentes caractéristiques de ce coefficient :
1) Sa valeur se situe toujours entre -1 et 1. Plus sa valeur approche zéro plus l’association est faible entre les deux variables. Plus sa valeur s’approche de -1 ou de 1, plus l’association est forte.
2) Si la valeur est positive (+), cela signifie que les deux variables évoluent dans le même sens (lorsque X augmente, Y augmente).
3) Si la valeur est négative (— ), les deux variables évoluent dans le sens opposé (lorsque X augmente, Y diminue).
Donc, le coefficient r détermine la force et la direction (— ou +) de la relation entre deux variables. Ce coefficient ne mesure pas la pente de l’association, qui sera déterminée plus tard dans le module.

63
Q

qu’est-ce que le coefficient de détermination

A

Bien que le coefficient de corrélation soit un indice quantitatif de l’association entre deux variables, une deuxième statistique peut être produite et est souvent utilisée par les chercheurs pour quantifier le lien entre deux variables. Le coefficient de détermination qui est simplement le coefficient r au carré (r2) représente la variation dans la variable Y qui peut être expliquée par la variable X.

Concrètement, si nous revenons à l’exemple vitesse-amplitude, cet indice est intéressant parce qu’il se traduit en pourcentage (%) de la variance expliquée. Ainsi, si l’association entre les variables est r = 0,76, le r2 = 0,58. On énoncera que 58 % de la variation dans la vitesse de marche (Y) est expliquée par la variation dans l’amplitude articulaire (X). Cela est un peu plus concret qu’un coefficient de corrélation, car nous sommes plus habitués à la notion de pourcentage.
36
Comme on peut le constater, si nous avions une association parfaite entre deux variables (r = 1 ou -1), le coefficient de détermination serait de 1 (100 % de la variation expliquée). En pratique, cela signifierait que nous pourrions expliquer le moindre petit changement dans la vitesse par un changement dans l’amplitude articulaire. Cela n’arrive jamais et il y a toujours une partie de la variation qui demeure inexpliquée ou expliquée par des variables que nous n’avons pas mesurées ou considérées dans l’analyse.

64
Q

Après avoir calculé un coefficient de corrélation, on doit

A

déterminer s’il représente une association réelle entre deux variables. Comme pour les analyses de différences présentées au module précédent, on doit déterminer pour un coefficient de corrélation si sa valeur est statistiquement différente de zéro, ce qui signifierait une absence d’association.

Cette vérification est également basée sur l’utilisation d’un test (à l’aide d’un logiciel de statistique) qui produit une valeur t (comme pour un test de différence entre deux moyennes). La valeur t calculée sera comparée à une valeur t critique (déterminée à partir d’une table de calcul) correspondant à α = 0,05 et, si la valeur calculée est plus élevée que la valeur t critique, l’association entre les deux variables est jugée significative.
Voici trois exemples illustrant ce processus. Dans l’exemple 1, la valeur de t (3,3) calculée à partir de l’équation excède la valeur critique établie pour un groupe de dix participants et on affirmera que l’association est significative. Nous arrivons à la même conclusion pour l’exemple 2 avec un coefficient de 0,64 pour un groupe de trente participants. Cependant, dans l’exemple 3 (coefficient r = 0,34), la valeur calculée n’excède pas la valeur critique et ce coefficient est jugé statistiquement non significatif.
Exemple 1 r = 0,76, n = 10, t calculé = 3,3 Exemple 2 r = 0,64, n = 30, t calculé = 4,4 Exemple 3 r = 0,34, n = 14, t calculé = 1,25
t critique (: 0,05) = 2,30 t critique (: 0,05) = 2,05 t critique (: 0,05) = 2,18

65
Q

coefficient de corrélation de spearman
objectif du test
indication du test
informations fournies

A

Le coefficient de corrélation de Pearson (r) s’utilise lorsque les deux échelles de mesure sont continues (par intervalles ou proportionnelle). Si une des deux échelles est de type ordinal, le coefficient de corrélation de Spearman doit être utilisé.

66
Q

L’analyse de régression linéaire simple demande que l’on détermine

A

une variable dépendante, soit celle que l’on veut prédire, qui est représentée par la lettre (Y), et une variable indépendante, que l’on appelle prédicteur et qui est représentée par la lettre (X). Dans l’exemple ci-contre, la vitesse de marche (la variable dépendante) pourrait être prédite par l’amplitude articulaire (la variable indépendante).

67
Q

qu’est-ce que la droite de régression?

A

ne droite qui sera « la mieux ajustée » aux données de l’étude et qui est appelée droite de régression. Elle représente la meilleure prédiction de Y pour une valeur donnée de X. Dans le diagramme, les couples de valeurs sont dispersés de chaque côté de la droite de régression et, bien que la relation ne soit pas parfaite, on perçoit la linéarité entre les deux variables : si l’amplitude augmente, la vitesse de marche augmente.
Cette droite de régression a des caractéristiques mathématiques qui peuvent être définies par une équation du premier degré du type : (Ŷ= bx + a), où Ŷ est la valeur prédite de Y.
Les paramètres a et b correspondent à des concepts précis.
Le x correspond à n’importe quelle valeur d’amplitude articulaire et Ŷ à la valeur de
vitesse de marche qui sera prédite pour cette valeur de x.
La valeur de a correspond à l’ordonnée à l’origine (ou intercept), soit la valeur de Ŷ
39
lorsque x est égal à zéro.
La valeur de β (coefficient de régression) correspond à la pente de la droite de régression
(la différence en Ŷ associée à une différence en X d’une unité).
Donc, si Ŷ=0,75X + 82,5, pour chaque changement en x de 1 degré d’amplitude, il y a un changement de 0,75 cm/sec. en Ŷ.

68
Q

régression linéaire simple
objectif du test
indication du test
informations fournies

A

Prenons en exemple la formule suivante : Ŷ = 0,75x + 82,5. Les valeurs de β et de a ont été obtenues à la suite d’une analyse statistique. Les résultats de l’analyse statistique indiquent également que r = 0,55 et R2 = 0,31. À partir de ces informations, on peut dire que 31 % de la variation dans la vitesse de marche à six mois post- arthroplastie peut être expliquée par une variation dans l’amplitude articulaire au genou à trois semaines post-arthroplastie (r2= 0,31). Il existe donc un lien entre l’amplitude et la vitesse de marche.
De même, il est possible d’établir une valeur prédite de vitesse de marche (Ŷ) à partir de l’équation de prédiction qui a été développée. Ainsi, pour une valeur hypothétique de 70° d’amplitude articulaire, la valeur de vitesse de marche est de 135 cm/sec. Vous pouvez utiliser l’équation pour calculer n’importe quelle autre valeur de vitesse de marche. Maintenant, il demeure nécessaire de déterminer la qualité de cette prédiction et de déterminer si l’équation produit une estimation valable de la vitesse de marche.
Pour déterminer si cette estimation est valable, le principe de l’intervalle de confiance (IC) sera à nouveau utilisé afin que soit calculé un écart autour de la valeur prédite (Ŷ). L’IC95% permettra de déterminer un intervalle dans lequel il y a 95 % de chances de trouver la véritable vitesse de marche associée à un degré d’amplitude défini. Le calcul de l’IC95% se réalise tel que précédemment à partir d’un score Z (1,96) et de la valeur de l’erreur-type de l’estimation (également obtenue lors de l’analyse statistique).
Pour une amplitude articulaire de 70°, la valeur de vitesse de marche était de 135 cm/sec. L’IC95% calculé autour de cette valeur s’étend de 86 cm/sec à 183 cm/sec. Donc, il y a 95 % de chances que la véritable valeur de la vitesse de marche pour un participant dont l’amplitude au genou est de 70° soit entre 86 et
40
183 cm/sec.
Il s’agit d’une prédiction avec une grande marge d’erreur et il serait surprenant qu’un clinicien soit intéressé à prédire la vitesse de marche à partir uniquement de l’amplitude articulaire bien que celle-ci soit jugée comme un facteur contribuant à la vitesse de marche. Il faudrait donc chercher, dans les autres variables mesurées dans l’étude, celles qui pourraient contribuer à améliorer cette prédiction tout en conservant l’amplitude articulaire dans le modèle de régression. C’est à ce moment qu’il est possible d’utiliser l’analyse de régression multiple qui sera décrite sur la diapositive suivante.

69
Q

régression linéaire multiple
objectif du test
indication du test
informations fournies

A

L’analyse de régression linéaire multiple permet de prédire une variable dépendante (Y) à partir de plusieurs variables indépendantes pour déterminer les meilleurs prédicteurs de cette variable. Le modèle mathématique est similaire à celui de l’analyse de régression linéaire simple, mais comprendra des termes supplémentaires (X1, X2, X3…) selon le nombre de variables indépendantes qui seront entrées dans le modèle de régression.
À partir du résultat obtenu avec la régression linéaire simple pour la prédiction de la vitesse de marche qui était plutôt modeste, il serait donc souhaitable de pouvoir identifier d’autres prédicteurs potentiels pour améliorer cette prédiction. Dans la présente étude, d’autres paramètres avaient été mesurés, tels que l’âge, la force de certains groupes musculaires et l’utilisation d’aides techniques à la marche qui peuvent tous, en théorie, influencer la vitesse de marche.
Modèle mathématique : Y= b1X1 + b2X2 + b3X3 +… + bnXn + a