Introduction à l'analyse descriptive des données Flashcards
Variables et échelles de mesure (Rappel)
Variable: Toute caractéristique qui peut prendre différentes valeurs selon les participants, les lieux ou les événements à l’étude, ou encore à travers le temps
Variable indépendante (VI ou variable prédictive, explicative ou X)
Phénomène ou événement qui diffère entre les individus ou les groupes et qui peut influencer la valeur de la VD (cause présumée). Ce peut être:
une intervention que l’on souhaite évaluer (p.ex.: traitement vs. placébo);
un facteur de risque potentiel (p.ex.: tabagisme ou non, sédentarité ou non)
Variable dépendante (VD ou variable de résultat, de critère ou Y)
Variable dont l’état dépend d’une ou de plusieurs variables indépendantes.
C’est le phénomène ou l’événement à décrire, à expliquer, à prédire ou à contrôler (p.ex.: cancer, hypertension);
Niveau de mesure (échelles) 4
Nominale
Ordinale
Intervalle
Rapport (proportion)
Variable qualitative nominale (échelle nominale) :
Exprime une qualité, un état, une condition
Répartit les observations en catégories mutuellement exclusives qui ne peuvent pas être ordonnées (codes arbitraires). P.ex.:
Genre (0 = homme, 1 = femme, 2 = non binaire, 3 = bispirituel);
Religion (1 = catholique, 2 = protestant, 3 = juif, 4 = musulman, 5 = autres);
Groupe sanguin (A, B, AB, O);
Les valeurs de ce type de variable ne peuvent pas être soumises à des opérations mathématiques (seulement des fréquences et des pourcentages);
Une variable nominale à deux catégories est dite binaire ou dichotomique (p.ex.: mort ou vivant, présent ou absent);
Variable qualitative ordinale (échelle ordinale)
Exprime une qualité, un état, une condition
Répartit les observations en catégories qui peuvent être ordonnées;
Ex.: Niveau de satisfaction: 1 = très insatisfait; 2 = insatisfait; 3 = neutre; 4 = satisfait; 5 = très satisfait;
Ex.: Douleur: 1+, 2+, 3+, 4+
La signification de l’écart entre deux catégories est arbitraire:
Cet écart n’indique que la position relative d’une observation par rapport à une autre. P.ex.: Une douleur 4+ ne fait pas 4 fois plus mal qu’une douleur 1+. Elle fait seulement plus mal qu’une douleur 1+;
Les opérations mathématiques possibles sont > et <
Variable quantitative discrète
Exprimée avec une unité de mesure, quantifiable
Exprimée en nombre entier (nombre de vaccins, nombre d’accidents de la route, etc.)
Quantités isolées, dénombrement possible
Variable quantitative continue
Exprimée avec une unité de mesure, quantifiable
Infinité de valeurs possibles (glycémie, âge, poids, revenu)
Précisions échelle d’intervalle vs proportion
Intervalle
La valeur 0 sur l’échelle est arbitraire; elle n’indique pas l’absence du phénomène;**
Répartit les observations en catégories qu’on peut ordonner;
La signification de l’écart entre deux catégories est connue:
On peut donc comparer deux valeurs par la soustraction (p.ex.: 30oC - 20oC = 70oC - 60oC);
En conséquence, on ne peut pas dire que 20oC est 2 fois plus chaud que 10oC (la multiplication et la division ne sont pas possibles sur cette échelle);
Échelle de Likert : outil constitué d’une série d’énoncés servant à mesurer une attitude ou opinion, permettant d’obtenir un score. Ce score est arbitraire, un score de zéro ne signifie pas nécessairement l’absence du phénomène.
Proportion
Identiques aux échelles à intervalles à l’exception que la valeur 0 est absolue, c’est un zéro réel***
Exemple: Pour des catégories de poids, zéro correspond réellement à l’absence de poids (c’est un zéro absolu);
Permet de faire des comparaisons proportionnées (la multiplication et la division sont possibles). On peut dire que:
120kg est deux fois plus lourd que 60kg;
80 battements/minute est 50% plus lent que 160 battements/minute;
- La grande majorité des variables quantitatives sont échelle de proportion
Les échelles de mesure jouent un rôle important dans :
Le choix des analyses pouvant être effectuées, et;
La manière dont les variables sont utilisées dans l’analyse (nous y reviendrons);
Résumé des types de variables
Qualitative : nominale ou ordinale
quantitative : discrète ou continue
Qualitative nominale
Variable dont les modalités sont des catégories sans ordre de grandeur
Sexe
Saison préférée
Origine ethnique
Peut être binaire : malade/sain, immunisé/non immunisé, etc.
Qualitative ordinale
Variable dont les modalités sont des catégories avec ordre de grandeur, qui présente une hiérarchie
Degré de satisfaction (très satisfait, satisfait, insatisfait)
Notes alphabétiques (A+, A, …)
Niveau d’études (bacc, cégep, secondaire, etc)
Gravité maladie (faible, modérée, sévère, etc)
Quantitative discrète
Variable qui ne peut prendre que certaines valeurs numériques.
Nombre d’enfants
Nombre de buts compté
Nombre de cours (Nombre entier)
Quantitative continue
Variable dont les modalités ont des valeurs numériques pouvant prendre n’importe quelle valeur sur un continuum.
Température
Poids
Grandeur
Temps
Distance
Tension artérielle
Glycémie
Représentation graphique
But: Permettre au lecteur de saisir rapidement les caractéristiques des données d’une étude;
Le type de représentation graphique varie selon le type d’échelle de mesure employée (c.-à-d., nominale, ordinale, intervalle et proportions);
Représentation graphique
Échelles nominale ou ordinale (variables catégorielles/qualitatives)
ex : mariage, divorcé, célibat
Ex: niveau étude
Échelles par intervalles et proportions (variables quantitatives)
ex : histogramme et polygone de fréquences
Échelles par intervalles et proportions (variables quantitatives) ex : graphe en ligne comme age, année et sexe
Le graphe en lignes, tout comme le polygone de fréquences, rend facile la comparaison de deux ou plusieurs distributions sur un même graphique; ce qui serait visuellement très laborieux avec des histogrammes.
ex aussi courbe percentile
Mesures de tendance centrale et de dispersion
But: Décrire les caractéristiques d’un ensemble de données. Deux types: 9analyse statistiques descriptives)
Mesures de tendance centrale: Renseignent sur «la valeur typique» ou «centrale» d’une distribution; Moyenne, médiane, mode
Mesures de dispersion: Renseignent sur l’étendue des scores dans une distribution (autour de la valeur centrale); étendue, écart-type, quantile
Mesures de tendance centrale
1.Mode
Définition: C’est la valeur ou la catégorie qui revient le plus souvent dans une distribution de fréquences;
On trouve le mode par analyse visuelle des données ou des sommets d’une distribution de fréquences;
3, 5, 9, 12, 12, 12, 15, 17, 18, 19
Le mode est donc 12
Une distribution de fréquences peut avoir un seul ou plusieurs modes (unimodale, bimodale, multimodale).
Utile pour décrire des données catégorielles (qualitatives nominales et ordinales), mais il peut aussi s’employer avec des données quantitatives (discrètes ou continues).
Mode = montagne, le point le plus haut dans le graphique
Mesures de tendance centrale : médiane
Médiane (Md):
Définition: C’est la valeur qui se situe au milieu d’une distribution de données. Elle divise cette distribution en deux parties égales contenant chacune 50% des observations (50% en bas et 50% en haut de la médiane);
Utile pour décrire:
Des données ordinales;
Des données continues dont la distribution est asymétrique, et ce parce qu’elle n’est pas influencée par les valeurs extrêmes (contrairement à la moyenne);
Mesures de tendance centrale : moyenne
Moyenne (M, 𝒙̅ ou µ):
Définition: C’est la somme de toutes les valeurs d’une distribution de fréquences divisée par leur nombre;
Utilisée pour décrire des variables mesurées sur des échelles à intervalles ou à proportions;
Principal problème: influencée par les valeurs extrêmes. Ce problème est toutefois atténué si le nombre d’observations est grand;
Règle générale, on rapporte la moyenne quand une distribution est relativement symétrique. Sinon, on rapporte la médiane.