Postulats ANOVA Flashcards

1
Q

Quels sont les postulats devant être respectés afin que l’on puisse tirer des conclusions valides à la suite d’une ANOVA?

A

Normalité de distribution, homogénéité des variances et homogénéité des covariances pour les mesures répétées.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Où se trouvent le mode, la médiane et la moyenne sur une courbe normale?

A

Au centre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Combien de modes la distribution normale possède-t-elle?

A

Un seul (unimodale).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Par quoi s’expriment les extrémités positives et négatives de la courbe normale?

A

L’infini.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que représente l’abscisse (X) et l’ordonnée (Y) sur une courbe normale?

A

Abscisse (horizontal) : les différentes valeurs que peuvent prendre la variable X.
Ordonnée (vertical) : densité de la courbe, laquelle est reliée à la probabilité d’obtenir une valeur x donnée.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

À quoi sert une table standardisée?

A

À évaluer le pourcentage de données d’une distribution normale qui sépare deux points de cette même distribution (probabilité d’obtenir une valeur donnée).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelle est la moyenne et l’écart-type d’une distribution normale standard et quels scores lui sont attribués?

A

Moyenne (mu) : 0
Écart-type (sigma) : 1
Scores z.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quels sont les deux principes sur lesquels s’appuie la transformation en scores standards?

A
  1. La soustraction d’une constante (ex. moyenne) à toutes les valeurs d’un ensemble de données réduit la moyenne de cet ensemble de données par la valeur de la constante. Ex. Soustraire toutes les valeurs par la moyenne nous donne une nouvelle moyenne de 0.
  2. La division de chacun des nouveaux scores par l’écart-type donne un nouvel écart-type de 1.
    Bref, ça donne une distribution normale standard.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelle est l’équation de transformation des scores z en scores standards?

A

z = X - mu/ET (sigma)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’indique une valeur de 0.0344 trouvée dans la table de scores z?

A

Que 3.44 % des personnes mesurent 190.5 cm et plus dans la population (en référence à l’exemple précédent).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

La forme de la distribution et les relations entretenues par les données demeurent-elles les mêmes après la transformation en scores z?

A

Oui.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que permet la transformation de scores z en ce qui concerne la comparaison de scores provenant de différentes distributions (ex. scores de QI à l’échelle Weschler vs. Standford-Binet)?

A

Permet de conclure qu’un individu a obtenu un score inférieur ou supérieur à l’autre sur une échelle différente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

En fonction du théorème de la limite centrale : Plus la grandeur des échantillons ______, plus la distribution des moyennes aura tendance à être ______.

A

augmente; normale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Selon le théorème de la limite centrale, que peut-on dire de la variance des scores?

A

La variance des scores est égale à n (nombre de scores) fois la variance des moyennes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Combien de scores sont inclus dans un groupe de scores suffisamment grand?

A

Environ 30.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que suppose-t-on lorsqu’on travaille avec des échantillons suffisamment grands et sélectionnés aléatoirement en ce qui concerne la moyenne de l’échantillon?

A

Que celle-ci est semblable à celle de la population.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Est-ce que le fait que les distributions ne soient pas parfaitement normales affecte la puissance du F et le niveau de signification?

A

Non, du moins pas sérieusement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Comment peut-on vérifier la normalité d’une distribution de données?

A

Deux indices : symétrie et aplatissement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Que signifie une distribution symétrique des scores?

A

Elle indique que la moyenne et la médiane sont au centre de la distribution et que la forme de la distribution est la même à la gauche et à la droite de ces mesures de tendance centrale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Comment peut-on s’apercevoir qu’il y a un problème d’aplatissement?

A

Lorsqu’il y a beaucoup trop de données de la même fréquence au centre (leptokurtique) ou dans les extrémités (platykurtique).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Lorsque la distribution est normale, qu’en est-il des degrés de symétrie et d’aplatissement?

A

Ils sont tous deux de 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Qu’est-ce qu’une asymétrie positive?

A

Plusieurs données sont regroupées à gauche de la distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Qu’est-ce qu’une asymétrie négative?

A

Plusieurs données sont regroupées à droite de la distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Que signifie une valeur d’aplatissement positive vs. négative?

A

Positive = leptokurtique; négative = platykurtique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

À l’aide de quelle distribution s’effectue l’évaluation de la signification du degré de symétrie?

A

scores z; il est possible de transformer la valeur du degré de symétrie à l’adéquat de la distribution des scores standardisés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Qu’est-il nécessaire de connaitre pour faire le test du degré de symétrie?

A

Valeur du degré de symétrie (sk), moyenne du degré de symétrie (mus) et un estimé de l’erreur standard de la symétrie (ss). Moyenne est toujours égale à 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Que signifie une probabilité de 0.4641 tel que présenté dans la table du z en ce qui concerne le degré de symétrie?

A

Cela signifie que simplement par hasard, nous avons une probabilité de .46 d’avoir un tel degré de symétrie. Nous devons donc conclure que selon l’indice de symétrie, nos scores se distribuent normalement.

28
Q

Qu’est-il nécessaire de connaitre pour faire le test du degré d’aplatissement?

A

Valeur du degré d’aplatissement (k), moyenne du degré d’aplatissement (muk) et un estimé de l’erreur standard de l’aplatissement (sk). Moyenne est toujours égale à 0.

29
Q

Quel critère de décision (niveau alpha) est recommandé pour les tests de symétrie et d’aplatissement?

A

Assez conservateur (ex. .01) pour petits et moyens échantillons. Si l’échantillon est grand, regarder la forme de la distribution plutôt que se fier aux tests de normalité.

30
Q

Quelle statistique est employée lorsque le nombre d’observations de la distribution est de 2000 ou moins/plus en ce qui concerne les dégrés d’asymétrie et d’aplatissement?

A

2000 ou moins : Shapiro-Wilk (W)

+ de 2000 : D de Kolomogorov

31
Q

Lorsque la probabilité associée au W est supérieur à .01, qu’est-ce que cela indique?

A

Aucune déviation majeure à la normalité.

32
Q

Pourquoi utilise-t-on un histogramme de fréquences?

A

Car il est difficile de se représenter visuellement une distribution de fréquences et lorsqu’on veut rapidement visualiser une distribution de données.

33
Q

En quoi consiste un histogramme de fréquences?

A
Voir module 8, p.12.
Abscisse : scores de la distribution
Ordonnée : fréquences des scores
34
Q

Qu’arrive-t-il à l’histogramme lorsqu’un grand nombre de scores sont présentés sur l’abscisse?

A

Il devient difficilement lisible.

35
Q

Que peut provoquer l’absence de certaines valeurs sur un histogramme?

A

Un vide.

36
Q

Comment peut-on pallier à la présence d’un vide sur un histogramme?

A

En regroupant par classes les données.

37
Q

Quelle règle est généralement employée pour déterminer les classes d’un histogramme comprenant :
10 à 100 données;
100 à 1000 données;
1000 à 10 000 données?

A

10 à 100 données : 4 à 8 classes
100 à 1000 données : 8 à 11 classes
1000 à 10 000 données : 11 à 14 classes

38
Q

Quelle est le principal défaut de l’histogramme de fréquences?

A

Il ne permet pas de voir les données individuelles de la distribution.

39
Q

Quelle représentation graphique a été développée pour pallier aux difficultés engendrées par l’histogramme?

A

Le diagramme en tige-et-feuilles.

40
Q

En quoi consiste le diagramme en tige-et-feuilles?

A

Les dizaines constituent la tige et les unités de différentes valeurs constituent les feuilles.

41
Q

Quels sont les avantages du diagramme en tige-et-feuilles?

A
  1. on peut rapidement visualiser la forme de la distribution des données en utilisant des classes de même grandeur.
  2. on peut visualiser au même moment les valeurs individuelles des données observées.
  3. on peut calculer rapidement la médiane.
42
Q

Dans quelles circonstances peut-on observer un diagramme en tige-et-feuilles trop compacte?

A

Lorsque le nombre d’unités de la tige est limité pour un grand ensemble de données.

43
Q

Comment peut-on pallier au problème de diagramme trop compacte?

A

En augmentant le nombre d’unités sur la tige (version étendue du diagramme en tige-et-feuilles).
* : nombres 0, 1, 2, 3, 4
. : nombres 5, 6, 7, 8, 9

44
Q

Quel type de diagramme peut être utilisé lorsqu’on veut comparer deux distributions de données?

A

Diagramme en tige-ef-feuilles dos-à-dos. P.ex. si on veut comparer les hommes et les femmes sur la même VD.

45
Q

Comment crée-t-on un diagramme en tige-et-feuilles dos-à-dos?

A

Un groupe de données (feuilles) à droite de la tige et l’autre groupe de données (feuilles aussi) à gauche de la tige.

46
Q

Lorsque le nombre d’observations dépasse 48 pour une même unité de tige (i.e. 48 feuilles pour une unité de tige), que produit le progiciel SAS?

A

Un histogramme horizontal de fréquences et non un diagramme en tige-et-feuilles.

47
Q

À quoi ressemble un diagramme en tige-et-feuilles produit par le progiciel SAS?

A

Voir module 8, p. 16 (figure 12), mais peut aussi être similaire à ce que l’on ferait à la main lorsque le nombre de données est assez élevé et que les valeurs comprennent des dizaines et des unités.

48
Q

Quel est le principal désavantage du diagramme en tige-et-feuilles?

A

Il est difficile d’identifier la présence de données extrêmes.

49
Q

Quelles sont les raisons pouvant expliquer la présence d’une donnée extrême?

A
  1. une erreur dans l’entrée des données;
  2. le sujet étudié ne fait pas partie de la population étudiée;
  3. le sujet fait partie de la population étudiée mais la distribution de données de la variable étudiée inclut davantage de données extrêmes que la distribution normale.
50
Q

Quelle représentation graphique a été développée afin de pallier au problème engendré par les données extrêmes?

A

Le diagramme en boite-et-moustaches.

51
Q

En quoi consiste le diagramme en boite-et-moustaches?

A

Il est composé d’une boite dont les limites inférieures et supérieures représentent respectivement le premier et le troisième quartile de la distribution.

52
Q

À quoi correspond le premier et le troisième quartile?

A

Nombre se situant à mi-chemin entre les groupes qu’il sépare.

53
Q

Qu’est-ce que l’étendue interquartile et comment est-elle représentée?

A

La différence entre Q3 et Q1, représentée par la dimension verticale de la boite.

54
Q

Quel pourcentage est inclut dans l’étendue interquartile?

A

50 % des valeurs de la distribution.

55
Q

Quels indices ne sont pas affectés par les données extrêmes sur un diagramme en boite-et-moustaches?

A

Les données comprisent dans l’étendue interquartile, incluant donc la médiane.

56
Q

Qu’est-ce qu’une mesure de dispersion?

A

Elle identifie le degré d’éparpillement des données dans une distribution.

57
Q

Quelle mesure de tendance centrale et de dispersion sont les mieux connues?

A

Tendance centrale : moyenne
Dispersion: variance
*Cependant, elles sont fortement influencées par les données extrêmes. Elles ne sont donc pas très utiles en analyses exploratoires.

58
Q

Quelle mesure est considérée comme un bon indice de tendance centrale car elle n’est pas influencée par les données extrêmes?

A

La médiane.

59
Q

Comment identifie-t-on une donnée extrême sur un diagramme en boite-et-moustaches?

A

Une valeur identifiée comme extrême se situe à un saut de l’un ou l’autre des deux quartiles. Un saut = une fois et demie la longueur de l’étendue interquartile.
Ex. EI = 11
saut = 11 + 5,5 = 16,5
On soustrait et on additionne par la suite 16,5 à Q1 et Q3.

60
Q

Quel indice nous donne la médiane sur un diagramme en boite-et-moustaches?

A

Sur la forme de la distribution. Si la médiane se situe au centre de la boite, on peut croire que la distribution est symétrique alors que si elle se situe près de l’une des deux extrémités de la boite, la distribution est asymétrique.

61
Q

Pourquoi est-il recommandé d’employer le diagramme en boite-et-moustaches en complément du diagramme en tige-et-feuilles?

A

Car le premier ne permet pas de visualiser parfaitement bien la forme de la distribution et car les valeurs individuelles ne sont pas présentées.

62
Q

Vrai ou faux, l’extrémité de la ligne verticale d’un diagramme en boite-et-moustaches représente la dernière donnée, laquelle peut être une donnée extrême.

A

Faux, les données extrêmes se retrouvent à l’extérieur des moustaches; indiquées par un 0 lorsque + 1.5 fois la longueur de la boite, ou un * à + de 3 fois la longueur la boite.

63
Q

Quel diagramme est particulièrement utile pour vérifier la postulat de normalité en ANOVA?

A

Le diagramme en boite-et-moustaches car il permet d’examiner plusieurs distributions simultanément.

64
Q

En quoi consiste la graphique de probabilité normale?

A

Ce graphique présente en ordonnée les scores réels de la distribution et en abscisse, les scores d’une distribution standard normale (l’inverse est aussi possible et la logique est la même).

65
Q

Vrai ou faux, si les points créés par l’agencement des données des deux axes d’un graphique de probabilité normale forment deux lignes droites superposées, la distribution est dite normale.

A

Vrai. Une forte déviation par rapport à la ligne droite indique un problème en ce qui concerne la normalité de la distribution.

66
Q

Le graphique de probabilité normale est-il utile pour identifier les données extrêmes?

A

Oui, puisque celles-ci se trouvent au-dessus ou en-dessous de la ligne droite théorique des données standardisées.

67
Q

Comment se construit le graphique de probabilité normale?

A
  1. Les données sont ordonnées en ordre croissant de valeur.
  2. Le rang de chaque score est ensuite utilisé pour calculer la probabilité d’occurrence de chaque rang dans une distribution normale.
  3. Chaque probabilité se voit associer la valeur du score z correspondant à la probabilité calculée.