Introduction à l'analyse descriptive des données Flashcards

1
Q

Variables et échelles de mesure (Rappel)

A

Variable: Toute caractéristique qui peut prendre différentes valeurs selon les participants, les lieux ou les événements à l’étude, ou encore à travers le temps

Variable indépendante (VI ou variable prédictive, explicative ou X)
Phénomène ou événement qui diffère entre les individus ou les groupes et qui peut influencer la valeur de la VD (cause présumée). Ce peut être:
une intervention que l’on souhaite évaluer (p.ex.: traitement vs. placébo);
un facteur de risque potentiel (p.ex.: tabagisme ou non, sédentarité ou non)

Variable dépendante (VD ou variable de résultat, de critère ou Y)
Variable dont l’état dépend d’une ou de plusieurs variables indépendantes.
C’est le phénomène ou l’événement à décrire, à expliquer, à prédire ou à contrôler (p.ex.: cancer, hypertension);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Niveau de mesure (échelles) 4

A

Nominale

Ordinale

Intervalle

Rapport (proportion)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Variable qualitative nominale (échelle nominale) :

A

Exprime une qualité, un état, une condition

Répartit les observations en catégories mutuellement exclusives qui ne peuvent pas être ordonnées (codes arbitraires). P.ex.:
Genre (0 = homme, 1 = femme, 2 = non binaire, 3 = bispirituel);
Religion (1 = catholique, 2 = protestant, 3 = juif, 4 = musulman, 5 = autres);
Groupe sanguin (A, B, AB, O);

Les valeurs de ce type de variable ne peuvent pas être soumises à des opérations mathématiques (seulement des fréquences et des pourcentages);

Une variable nominale à deux catégories est dite binaire ou dichotomique (p.ex.: mort ou vivant, présent ou absent);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Variable qualitative ordinale (échelle ordinale)

A

Exprime une qualité, un état, une condition

Répartit les observations en catégories qui peuvent être ordonnées;
Ex.: Niveau de satisfaction: 1 = très insatisfait; 2 = insatisfait; 3 = neutre; 4 = satisfait; 5 = très satisfait;
Ex.: Douleur: 1+, 2+, 3+, 4+

La signification de l’écart entre deux catégories est arbitraire:
Cet écart n’indique que la position relative d’une observation par rapport à une autre. P.ex.: Une douleur 4+ ne fait pas 4 fois plus mal qu’une douleur 1+. Elle fait seulement plus mal qu’une douleur 1+;

Les opérations mathématiques possibles sont > et <

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Variable quantitative discrète

A

Exprimée avec une unité de mesure, quantifiable
Exprimée en nombre entier (nombre de vaccins, nombre d’accidents de la route, etc.)
Quantités isolées, dénombrement possible

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Variable quantitative continue

A

Exprimée avec une unité de mesure, quantifiable
Infinité de valeurs possibles (glycémie, âge, poids, revenu)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Précisions échelle d’intervalle vs proportion

A

Intervalle
La valeur 0 sur l’échelle est arbitraire; elle n’indique pas l’absence du phénomène;**
Répartit les observations en catégories qu’on peut ordonner;
La signification de l’écart entre deux catégories est connue:
On peut donc comparer deux valeurs par la soustraction (p.ex.: 30oC - 20oC = 70oC - 60oC);
En conséquence, on ne peut pas dire que 20oC est 2 fois plus chaud que 10oC (la multiplication et la division ne sont pas possibles sur cette échelle);
Échelle de Likert : outil constitué d’une série d’énoncés servant à mesurer une attitude ou opinion, permettant d’obtenir un score. Ce score est arbitraire, un score de zéro ne signifie pas nécessairement l’absence du phénomène.

Proportion
Identiques aux échelles à intervalles à l’exception que la valeur 0 est absolue, c’est un zéro réel***
Exemple: Pour des catégories de poids, zéro correspond réellement à l’absence de poids (c’est un zéro absolu);
Permet de faire des comparaisons proportionnées (la multiplication et la division sont possibles). On peut dire que:
120kg est deux fois plus lourd que 60kg;
80 battements/minute est 50% plus lent que 160 battements/minute;

  • La grande majorité des variables quantitatives sont échelle de proportion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Les échelles de mesure jouent un rôle important dans :

A

Le choix des analyses pouvant être effectuées, et;
La manière dont les variables sont utilisées dans l’analyse (nous y reviendrons);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Résumé des types de variables

Qualitative : nominale ou ordinale
quantitative : discrète ou continue

A

Qualitative nominale
Variable dont les modalités sont des catégories sans ordre de grandeur
Sexe
Saison préférée
Origine ethnique
Peut être binaire : malade/sain, immunisé/non immunisé, etc.

Qualitative ordinale
Variable dont les modalités sont des catégories avec ordre de grandeur, qui présente une hiérarchie
Degré de satisfaction (très satisfait, satisfait, insatisfait)
Notes alphabétiques (A+, A, …)
Niveau d’études (bacc, cégep, secondaire, etc)
Gravité maladie (faible, modérée, sévère, etc)

Quantitative discrète
Variable qui ne peut prendre que certaines valeurs numériques.
Nombre d’enfants
Nombre de buts compté
Nombre de cours (Nombre entier)

Quantitative continue
Variable dont les modalités ont des valeurs numériques pouvant prendre n’importe quelle valeur sur un continuum.
Température
Poids
Grandeur
Temps
Distance
Tension artérielle
Glycémie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Représentation graphique

A

But: Permettre au lecteur de saisir rapidement les caractéristiques des données d’une étude;
Le type de représentation graphique varie selon le type d’échelle de mesure employée (c.-à-d., nominale, ordinale, intervalle et proportions);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Représentation graphique

A

Échelles nominale ou ordinale (variables catégorielles/qualitatives)
ex : mariage, divorcé, célibat
Ex: niveau étude

Échelles par intervalles et proportions (variables quantitatives)
ex : histogramme et polygone de fréquences

Échelles par intervalles et proportions (variables quantitatives) ex : graphe en ligne comme age, année et sexe
Le graphe en lignes, tout comme le polygone de fréquences, rend facile la comparaison de deux ou plusieurs distributions sur un même graphique; ce qui serait visuellement très laborieux avec des histogrammes.
ex aussi courbe percentile

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Mesures de tendance centrale et de dispersion

A

But: Décrire les caractéristiques d’un ensemble de données. Deux types: 9analyse statistiques descriptives)
Mesures de tendance centrale: Renseignent sur «la valeur typique» ou «centrale» d’une distribution; Moyenne, médiane, mode

Mesures de dispersion: Renseignent sur l’étendue des scores dans une distribution (autour de la valeur centrale); étendue, écart-type, quantile

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Mesures de tendance centrale
1.Mode

A

Définition: C’est la valeur ou la catégorie qui revient le plus souvent dans une distribution de fréquences;

On trouve le mode par analyse visuelle des données ou des sommets d’une distribution de fréquences;
3, 5, 9, 12, 12, 12, 15, 17, 18, 19
Le mode est donc 12

Une distribution de fréquences peut avoir un seul ou plusieurs modes (unimodale, bimodale, multimodale).

Utile pour décrire des données catégorielles (qualitatives nominales et ordinales), mais il peut aussi s’employer avec des données quantitatives (discrètes ou continues).
Mode = montagne, le point le plus haut dans le graphique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Mesures de tendance centrale : médiane

A

Médiane (Md):
Définition: C’est la valeur qui se situe au milieu d’une distribution de données. Elle divise cette distribution en deux parties égales contenant chacune 50% des observations (50% en bas et 50% en haut de la médiane);
Utile pour décrire:
Des données ordinales;
Des données continues dont la distribution est asymétrique, et ce parce qu’elle n’est pas influencée par les valeurs extrêmes (contrairement à la moyenne);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Mesures de tendance centrale : moyenne

A

Moyenne (M, 𝒙̅ ou µ):
Définition: C’est la somme de toutes les valeurs d’une distribution de fréquences divisée par leur nombre;
Utilisée pour décrire des variables mesurées sur des échelles à intervalles ou à proportions;
Principal problème: influencée par les valeurs extrêmes. Ce problème est toutefois atténué si le nombre d’observations est grand;
Règle générale, on rapporte la moyenne quand une distribution est relativement symétrique. Sinon, on rapporte la médiane.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Mesures de dispersion

A

Mesures qui renseignent sur la variabilité des données, le plus souvent par rapport à la moyenne;
Trois principales mesures de dispersion:

Étendue: Valeur minimale et maximale d’une distribution de fréquences;
Souvent rapportée avec la médiane (Md, range: min - max);
Ne donne aucune information sur la forme de la distribution de fréquences (c.-à-d., symétrique ou asymétrique).
L’étendue est influencée par les valeurs extrêmes (le min et le max);

Quantile : Divise un ensemble ordonné de données en parties égales;
Souvent utilisé lorsque les données sont asymétriques;
Lorsque la distribution est divisée par:
Quatre = quartiles; Cinq = quintiles; Cent = Percentiles ou centiles, etc.

Écart-type : Écart moyen de tous les scores par rapport à la moyenne
Souvent rapporté avec la moyenne (M ± SD);
Un grand écart-type signifie une grande dispersion, et vice versa;
Mesure de dispersion la plus usuelle pour les variables continues;

17
Q

Échelles de mesure et statistiques descriptives

A

Statistiques descriptives: décrire et résumer les caractéristiques d’un échantillon à l’aide de statistiques

Nominale : variables quantitatives
Mode distribution des fréquences, pourcentages

Ordinales : variables qualitatives
mode distribution de fréquences, pourcentages
Ex : médiane, étendue, centile

Par intervalle et proportion : variables quantitatives :
mode
distribution de fréquences, pourcentages
ex : médiane, étendue, centile
ex : moyenne, écart-type etc

17
Q

Présentation des données

A

TOUJOURS présenter les données avec une
mesure de tendance centrale ET une mesure de dispersion

18
Q

caractéristiques : courbe normale

A

Caractéristiques:
Symétrique
Unimodale
Moyenne = médiane = mode
Forme théorique: peu de mesures sont parfaitement normales

Pourcentage des observations se situant à ± 1, 2 et 3 écarts-types par rapport à la moyenne

19
Q

Normalité et anormalité statistique

A

Normal = fréquent (95% de la population)
Anormal = rare (5% de la population)

20
Q

Normalité et anormalité clinique

A

Normal = En bas de la norme clinique
Anormal = Au-delà de la norme clinique

21
Q

Normalité (en résumé)

A

Statistique:
Est une valeur qui ne se situe pas dans les extrêmes (zones peu probables) d’une distribution de fréquences.
Normalité statistique ne signifie pas nécessairement absence de risque de maladie (et vice versa);

Clinique:
Est une valeur qui se situe à l’intérieur d’une norme déterminée par des observations cliniques (idéalement au moyen d’études scientifiques);