module 3 Flashcards

1
Q

qu’est- ce que les statistiques descriptives

A

-Des méthodes qui permettent de représenter, d’une façon relativement sommaire, des informations colligées dans une base de données, sous la forme de variables avec des échelles de mesure.
- ces méthodes présentent le contenu d’une variable de trois façons :
1) par distribution de fréquence (tableau ou graphique)
2) par des indicateurs de tendance centrale, 3) par des indicateurs de dispersion.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

statistique descriptives : distribution de fréquence

A
  • Fréquence absolue (Nb de fois qu’il apparait)
    > Diagramme en feuilles (peu pas avoir bcp de participant)
    > Histogramme
  • Fréquence relative (en pourcentage d’observations)
    > Pourcentage
    > Pourcentage groupé (EX; de 12 à 24 ans il y a 50%)
    > Histogramme
    -Un tableau de distribution de fréquence donne la fréquence absolue et relative, mais prend bcp de place donc utiliser moins souvent
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Distribution de fréquence groupée

A

Dans un souci de concision et de clarté pour le lecteur, plusieurs méthodes peuvent être utilisées afin de documenter les mêmes informations dans un format adéquat. Le désavantage de cette méthode est que certaines informations sont présentées avec moins de précision.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

histogramme et méthodes graphique pourquoi

A

Considérant les limites et l’utilité relative des tableaux de fréquences, des méthodes graphiques ont été développées pour présenter des distributions de fréquence et l’histogramme est certainement la plus connue. Comme les histogrammes utilisent souvent les regroupements de valeurs, on y perd en précision mais on y gagne sur la vue d’ensemble de la distribution, et visuellement, l’histogramme permet d’apprécier la normalité de la distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

distribution de fréquence : diagramme à feuille

A

Ce type de diagramme est souvent généré par les programmes informatiques de statistiques (SASTM, SPSSTM) et est un compromis entre le tableau de fréquence et l’histogramme. Ce type de graphique comporte à la fois l’avantage d’offrir une représentation visuelle des données sans avoir le désavantage de la perte d’information reliée à l’utilisation de l’histogramme.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

distribution de fréquence : diagramme à bande

A

Il s’agit de représenter la distribution des scores sur une échelle (dans le présent exemple sur la verticale) à l’aide d’une boîte avec 2 moustaches (inférieure et supérieure) dont les 5 courtes lignes horizontales correspondent aux valeurs des quatre quartiles (exprimés en rang centile).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

indicateurs de tendance centrale et de dispersion

A
  • Lorsque l’on veut décrire l’illustration graphique d’une distribution avec des indices mathématiques.
  • l’objectif d’une mesure de tendance centrale est de résumer en un seul nombre la valeur typique ou la plus représentative d’un ensemble de scores.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

les trois mesure de tendance central

A
  • la moyenne, le mode et la médiane.
  • Lorsqu’une distribution est parfaitement normale, la moyenne, le mode et la médiane ont la même valeur.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

qu’est-ce que la mode

A

Le mode d’une série d’observations est la valeur la plus fréquente d’un ensemble de données. Le mode est rarement employé seul pour mesurer la tendance centrale parce qu’avec un petit nombre d’observations, chaque valeur est unique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

calcul médiane

A

voir diapo 15

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

mesure de dispersion

A
  • Étendue :
    Différence entre la valeur la plus petite et la plus grande d’une distribution.
  • Variance :
    Indice de la variabilité des scores d’une distribution autour de la moyenne (s2 ou s2).
  • Écart-type :
    Indice de la variabilité des scores d’une distribution autour de la moyenne (s ou s). Il s’agit de la racine carrée de la variance.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Calcul de la variance et de l’écart-type

A

voir diapo 17

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Concept de distribution normale

A
  • Distribution de fréquence d’une variable symétriquement distribuée autour de la moyenne selon une courbe normale.
  • Importance du concept :
    La distribution normale est un principe clé sur lequel sont basés plusieurs tests statistiques.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

loi sur laquelle de nombreux test sont basé

A

la distribution normal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

exemple de distribution normal

A
  • Comme dans toute distribution qui tend à être normale, on observe un pourcentage plus élevé de données près de la moyenne et un pourcentage de plus en plus faible à mesure que l’on s’en éloigne vers les extrémités de la distribution.
  • Si moins symétrique = plus éloigné de la distribution normal
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Score z et distribution normale standardisée

A

Cette transformation (voir la formule dans la diapositive) permet de comparer des distributions de scores en utilisant une échelle unique (z). Toutes les distributions de scores (p.ex. âge, poids, taille, amplitude articulaire) peuvent être transformées en score z, facilitant ainsi leur comparaison.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

la distribution d’échantillonnage

A

La distribution d’échantillonnage représente la distribution des moyennes de plusieurs échantillons tirés d’une même population alors que la distribution normale représente la distribution des valeurs de plusieurs individus d’un même échantillon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Distribution d’échantillonnage vs distribution normal

A

DISTRIBUTION D’ÉCHANTILLONNAGE :
- Unités : Moyennes de plusieurs échantillons
- Moyenne : Moyenne de la population
- Mesure de dispersion : Erreur standardisée de la moyenne
DISTRIBUTION NORMALE :
- Unités : Valeurs de plusieurs individus
- Moyenne : Moyenne de l’échantillon
- Mesure de dispersion : écart-type

18
Q

l’intervalle de confiance

A

-Un intervalle de valeur dans lequel nous savons, avec un niveau de certitude déterminé préalablement (P), que la moyenne d’une population pour une variable donnée devrait se trouver.
- Intervalle dans lequel la moyenne de la population a une probabilité (P) de se trouver
- Dépend de la moyenne de l’échantillon, de la SEM et de la probabilité (P) déterminée
- Utilisation du score Z et de l’utilisation du tableau de l’Annexe B de Balthazar et Vendrely

19
Q

Concept de différence significative

A

■ La vérification que la différence entre les moyennes de 2 échantillons (E1 et E2) est statistiquement significative.
■ Détermination de la probabilité que la différence entre 2 moyennes soit :
> une«vraie» différence, ou
> une différence attribuable à une erreur d’échantillonnage.

20
Q

définition Niveau alpha

A

Probabilité de conclure que les moyennes sont différentes alors qu’elles sont équivalentes. Cette probabilité d’erreur qui est donnée par la valeur a (alpha) ou le niveau de signification pré-établi peut différer d’une étude à l’autre mais la valeur de 5% est généralement utilisée. Cela signifie qu’il y a seulement 5% de chance qu’une différence entre les deux moyennes soit due à une erreur d’échantillonnage et ne soit pas une vraie différence.
-Niveau habituel : alpha = 5 % ou 0,05
-Niveau déterminé par le chercheur avant l’expérimentation
-Corrigé lors de comparaison multiple (alpha = alpha/n)

21
Q

Définition valeur de P (probabilité)

A

Niveau de signification qui est observé lors de l’analyse des résultats. La probabilité réelle d’énoncer une conclusion erronée à partir des résultats d’un test statistique. C’est celle-ci que vous retrouverez dans les articles.
NB: Si la valeur p du test statistique est plus petite ou inférieure à la valeur (a) pré-établie, on conclut à des différences significatives entre les deux moyennes.

22
Q

tests paramétrique

A

Ils utilisent les paramètres des échantillons (moyenne, variance, écart-type) pour déterminer des différences significatives entre les moyennes. Cependant, l’utilisation d’un test paramétrique nécessite de vérifier si les prémisses de base sont respectées. Les deux prémisse sont :
- Distribution normale de la variable (ou presque!).
- Homogénéité des variances (écart-type).

23
Q

3 facteurs influençant les tests paramétriques

A
  • Le premier facteur, et le plus évident, est l’écart entre les moyennes des échantillons comparés. Plus cet écart est grand, plus grande est la probabilité de conclure que les moyennes de ces échantillons sont différentes.
  • La taille des échantillons
  • La dispersion des données à l’intérieur de ces échantillons.
    PAGE 34
24
Q

Test non-paramétrique

A
  • Utilisation des fréquences ou des rangs des valeurs des échantillons pour estimer des différences entre les paramètres de populations. Les tests non-paramétriques s’utilisent lorsque les prémisses de normalité des données et d’homogénéité des variances ne sont pas véritablement respectées, par exemple:
  • Petite taille d’échantillon (p.ex. n=10)
  • Échelle de mesure nominale ou ordinale qui ne présentent pas de moyenne et d’écart-type.
25
Q

Choix de tests statistiques pour l’analyse des différences

A

La détermination des tests s’effectue selon :
- Le respect de prémisses de base (normalité, homogénéité des
variances).
- Les types d’échelles.
- Le nombre d’échantillons.
- Les types d’échantillons (dépendants ou indépendants)
NB :
-indépendants’ lorsqu’ils proviennent de participants différents
-dépendants lorsque les données proviennent des mêmes participants mesurés à plusieurs reprises dans le temps

26
Q

quand utiliser les test-t pour échantillons indépendants

A

s’utilise lorsqu’on compare les moyennes de 2 échantillons différents et que l’on désire déterminer si elles sont significativement différentes.

27
Q

l’analyse de la variance (appelée également ANOVA en anglais) peut être utilisée quand ?

A

En présence de plus de 2 échantillons indépendants respectant les prémisses de normalité et d’homogénéité des variances. Il s’agit d’une analyse plus complexe que le test-t mais qui essentiellement repose sur des principes similaires, soit l’utilisation des moyennes et du nombre de participants de chaque groupe.

28
Q

Kruskal-Wallis quand ?

A

Lorsque les prémisses de normalité des distributions et de l’homogénéité des variances ne sont pas respectées, un test non paramétrique appelé Kruskal-Wallis doit être utilisé.

29
Q

Le test Chi-carré quand ?

A

s’applique lorsque la variable d’intérêt est mesurée à partir d’une échelle de mesure nominale dichotomique (seulement 2 réponses possibles), par exemple : « Les participants ont-ils été en mesure de retourner à domicile? » (oui/non). Ainsi, le test Chi-carré ne compare pas les moyennes ou les rangs, mais plutôt les fréquences. Le Chi-carré s’applique à des analyses de deux échantillons ou plus.

30
Q

Le test-t pour échantillons dépendants (aussi appelé test-t pour données pairées) quand ?

A

utilisé lorsque le même groupe de participants est mesuré 2 fois à la suite du passage du temps ou d’une intervention. La première mesure est utilisée comme contrôle de la deuxième.

31
Q

le Wilcoxon Signed Rank Test quand ?

A

En présence de 2 échantillons dépendants, utilisé lorsque les prémisses des tests paramétriques (normalité des distribution et homogénéité des variances) ne sont pas respectées. Note: ne pas confondre ce test avec le Wilcoxon Rank Sum Test (Mann-Whitney) décrit dans la diapositive précédente. Comme pour les autres tests non-paramétriques, la procédure du test est basée sur le rang des observations et, plus spécifiquement, sur le rang de la différence entre les deux observations (T2 - T1) d’un même participant et non sur leur valeur absolue.

32
Q

l’analyse de la variance à mesure répétée (en anglais Repeated Measures ANOVA) quand ?

A

Lorsqu’une expérimentation a plus de 2 temps de mesure et les prémisses des tests paramétriques s’appliquent. D’un principe similaire à l’analyse de variance (ANOVA) présentée précédemment, l’analyse est basée sur les différences entre les temps de mesures (p.ex. T1 - T2 - T3 - Tx).

33
Q

le test ANOVA de Friedman quand ?

A

Lorsque les prémisses de base ne sont pas respectées. Ce test est basé sur le rang des observations plutôt que sur leurs valeurs absolues pour chaque temps de mesure (T1, T2, T3, …).

34
Q

Diagramme de dispersion (Couples X-Y)

A

L’ensemble des points montre globalement la relation entre les deux variables. Pour quantifier le degré d’association, on doit avoir recours à la corrélation simple. Cette analyse statistique permet de déterminer la direction et la force de la relation entre 2 variables et si elle est statistiquement significative.

35
Q

la relation entre 2 variables se vérifie à l’aide ?

A

d’un coefficient de corrélation.

36
Q

Le coefficient de corrélation de Pearson (r)

A

utilisé pour calculer le degré d’association entre deux variables ayant des échelles par intervalle ou proportionnelle. Il détermine la force et la direction (- ou +) de la relation entre deux variables. Voici différentes caractéristiques de ce coefficient:
1) Sa valeur se situe toujours entre -1 et 1. Plus sa valeur approche zéro plus l’association est faible entre les deux variables. Plus sa valeur s’approche de -1 ou de 1, plus l’association est forte.
2) Si la valeur est positive (+), cela signifie que les 2 variables évoluent dans le même sens (lorsque x augmente, y augmente).
3) Si la valeur est négative (-), les 2 variables évoluent dans le sens opposé
(lorsque x augmente, y diminue).

37
Q

calcul de r

A

-on calcul se fait à partir de la transformation des scores des variables X et Y en scores Z afin d’obtenir une échelle commune pour les deux variables. VOIR DIAPO 44
- dans le cas de petits échantillons, un seul participant peut influencer énormément les résultats de l’association.

38
Q

Relation non-linéaire

A

la relation semble curviligne et dans un tel cas, la corrélation simple ne peut pas être utilisée ce qui explique pourquoi la valeur de r est basse lorsque nous tentons de calculer un coefficient de corrélation sur ces données (r=0,35) et n’est pas représentative de l’association entre ces deux variables.
REGARDER diagramme page 45

39
Q

comment vérifier si le coefficient de corrélation représente un association réelle entre deux variables

A

Cette vérification est basée sur l’utilisation d’un test statistique (voir la diapositive). La valeur t du test sera comparée à une valeur t critique (déterminée à partir d’une table de calcul) correspondant à un niveau de signification (alpha) pré-déterminé à 0,05. Si la valeur calculée est plus extrême que la valeur critique, l’association entre les deux variables sera jugée statistiquement significative (donc différente de zéro).

40
Q

Coefficient de corrélation de Spearman

A

-Si une des deux échelles est de type ordinal, le coefficient de corrélation de Spearman doit être utilisé. Il est habituellement représenté par la lettre grecque Rho.

41
Q

Interprétation des coefficients de corrélation

A
  • R=0,00-0,25 : Très faible ou nul
  • R=0,26-0,49 : Corrélation faible
  • R=0,50-0,69 : Corrélation modérée
  • R=0,70-0,89 : Corrélation élevée
  • R=0,90-1,00 : Corrélation très élevée
42
Q

résumé

A

Voir tableau page 49