Module 2A: Questions, objectifs et hypothèses de recherche Flashcards

1
Q

Variable: Définir + exemples

A
  • Déf: On appelle variable toute caractéristique susceptible d’être différente selon les personnes, les lieux ou le temps.
  • Exemples: L’âge, le sexe, le groupe sanguin, la tension artérielle et le nombre de lits par hôpital sont des variables
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Valeur: Définir

A
  • À la notion de variable s’ajoute celle de valeur. Tout état que prend la variable étu- diée est une valeur.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Variable: Types

A
  1. Variable de personnes
  2. Variable de lieux
  3. Variable de temps
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Variable: Types - Variables de personnes - Définir + exemples

A
  • Les variables de personnes renvoient aux attributs anatomiques, physiologiques, sociaux, économiques ou culturels. Les plus fréquemment considérées sont l’âge, le sexe, l’état civil, les habitudes de vie, l’occupation et le statut socioéconomique.
  • Les variables de personnes permettent de répondre à la question : « De qui parle-t-on ?
  • Ex. Yako est un garçon de 5 ans et 3 mois. Il pèse 17 kg et mesure 105 cm.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Variable: Types - Variables de lieux - Définir + ex

A
  • La fréquence d’une maladie peut varier selon le pays, la région ou la situation géogra-phique de la population (zone urbaine ou rurale).
  • Les variables de lieux permettent de répondre à la question : « Où se déroulent les événements dont on parle ? »
  • Exemples
    • La région de Lanaudière a connu une épidémie de rougeole.
    • La mère de Yako travaille dans une manufacture de chaussures.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Variable: Types - Variables de temps - Définir + ex

A
  • De façon générale, la fréquence d’une maladie varie avec le temps.
  • La durée est une caractéristique de la maladie qui permet de marquer sa gravité et son évolution.
  • Le temps est donc un élément nécessaire à la définition des mesures épidémiologiques et une composante de base des concepts de cause.
  • Les variables de temps permettent de répondre à la question : « Quand l’événement est-il survenu ? »
  • Exemples
    • Au début de l’année scolaire, Anne-Marie s’inquiète de la taille de Yako.
    • Le cancer du poumon a fortement augmenté chez les femmes depuis 20 ans.
    • Trois heures après son repas, Jeanne a éprouvé de sérieuses crampes abdominales
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Variables: Classification - Nommez-les

A
  1. Variables quantitatives
  2. Variables qualitatives
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Variables: Classification - Variables quantitatives - Définir

A
  • La valeur de la variable quantitative est numérique.
  • On partage les valeurs numériques en valeurs discrètes et en valeurs continues.
  • Une variable quantitative est discrète lorsque ses valeurs sont des quantités isolées, séparées les unes des autres.
  • Les valeurs d’une telle variable sont obtenues par dénombrement
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Variables: Classification - Variables quantitatives - 2 types + leur déf

A
  • Le fait que ces valeurs soient isolées ou non les unes par rapport aux autres constitue un autre facteur distinctif.
  • Ainsi, entre une classe de 20 enfants et une autre de 21 enfants, il n’y a pas de valeur intermédiaire possible ; le nombre d’enfants dans une classe est donc une variable dont les valeurs sont isolées.
  • Par contre, entre les kilogrammes, il y a toujours les grammes, entre les grammes, les milligrammes, entre les milligrammes, les microgrammes, etc. ; les valeurs du poids ne sont donc pas isolées.
  • Ces distinctions entraînent la classification des variables en variables qualitatives ou quantitatives ; ces dernières peuvent être discrètes ou continues.
  • Ainsi, une variable discrète ne peut être exprimée par une fraction. À l’inverse, une variable est continue lorsque ses valeurs sont des quantités qui peuvent s’exprimer par une fraction
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Variables: Classification - Variables qualitatives - Définir

A
  • La valeur de la variable qualitative ou catégorielle correspond à des qualités, des attributs.
  • Ainsi en est-il du sexe (masculin, féminin) et du groupe sanguin (A, B, AB, O).
  • La variable qualitative est, par convention, discrète.
  • En effet, même si l’on peut observer une continuité dans le ton d’une couleur (de très pâle à très foncé), on conviendra par exemple de les catégoriser en cinq groupes comme « très pâle », « pâle », « moyen », « foncé » et « très foncé ».
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Variables: Classification - Variables qualitatives - Discrète ou continu?

A
  • La variable qualitative est, par convention, discrète.
  • En effet, même si l’on peut observer une continuité dans le ton d’une couleur (de très pâle à très foncé), on conviendra par exemple de les catégoriser en cinq groupes comme « très pâle », « pâle », « moyen », « foncé » et « très foncé ».
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Échelle de classification des observations: Définition + pertinence

A
  • Pour une variable donnée, l’ensemble des classes constitue une échelle de classification.
    • Les quatre classes A, B, AB, O (voir le tableau 2.1) constituent une échelle de clas- sification pour la variable groupe sanguin.
  • Une échelle de classification doit permettre de distribuer toutes les observations, chacune ne pouvant appartenir qu’à une seule catégorie.
    • Pour qu’un classement des observations soit juste, les classes qui constituent l’échelle doivent nécessairement satisfaire à deux conditions.
  • D’une part, elles doivent être mutuellement exclusives : chaque individu ou chaque observation de la variable ne peut appartenir qu’à une seule classe.
    • Les classes d’âge « 1-5 ans », « 5-15 ans », « 15-25 ans » et « 25 ans et plus » ne sont pas mutuellement exclusives, car les individus de 5 ans, 15 ans et 25 ans appartiennent à plus d’une classe. Par contre, les classes « 1-4 ans », « 5-14 ans », « 15-24 ans » et « 25 ans et plus » le sont.
  • D’autre part, elles doivent être collectivement exhaustives : chaque individu ou chaque observation de la variable doit appartenir à une classe.
    • Les classes d’âge « 1-4 ans », « 5-14 ans », « 15-24 ans » et « 25 ans et plus » ne sont pas collectivement exhaustives si un enfant âgé de moins de 1 an se retrouve dans l’ensemble de données. Il faut alors ajouter la classe d’âge « Moins de 1 an » pour en faire des classes collectivement exhaustives.
    • Si l’on choisissait de classer les personnes selon les groupes sanguins A ou O, on n’obtiendrait pas une échelle comportant des classes collectivement exhaustives puisque Jeanne, qui est du groupe B (voir le tableau 2.1), ne pourrait être classée. Il faudrait donc ajouter à l’échelle les classes « B », « AB » – et même prévoir au besoin une catégorie pour les données manquantes.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Échelle de classification des observations: Nommez les caractéristiques obligatoires des classes

A
  1. Les classes doivent être mutuellement exclusives (chaque donnée appartient à une seule classe)
  2. Les classes doivent être collectivement exhaustives (chaque donnée doit appartenir à une classe)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Les types d’échelles de classification des observations: Nommez-les

A
  1. Échelle nominale
  2. Échelle ordinale
  3. Échelle par intervalle
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Les types d’échelles de classification des observations: L’échelle nominale - Définir

A
  • Dans une échelle nominale, les classes ne sont que nommées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Les types d’échelles de classification des observations: L’échelle ordinale - Définir

A
  • Dans une échelle ordinale, les classes sont nommées et ordonnées, allant de la plus petite valeur à la plus grande ou de la plus grande valeur à la plus petite.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Les types d’échelles de classification des observations: L’échelle ordinale - Définir

A
  • Dans une échelle par intervalle, les classes sont nommées et ordonnées ; il existe deplus une relation de distance entre les valeurs.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Les types d’échelles de classification des observations: Le passage d’une échelle à une autre

A
  • Il existe une hiérarchie dans les échelles : il est possible de passer de l’échelle par intervalle à l’échelle ordinale, puis à l’échelle nominale.
  • Chaque regroupement des données pour effectuer le passage d’une échelle à l’autre entraîne une perte d’information. Il s’agit donc, en quelque sorte, d’une voie à sens unique.
  • On aura noté que la même perte d’information survient quand on passe des données brutes à un regroupement en classes.
  • Stéphanie, nutritionniste à la polyclinique Milo, passe en revue les dossiers de sespatients. Elle peut noter, dossier après dossier, la cholestérolémie de chacun d’entreeux. Toutefois, si elle veut présenter un tableau d’ensemble à ses collègues de lapolyclinique, elle doit classer les observations. Si elle utilise une échelle par intervalle, elle perdra l’information sur chacun des patients, mais pourra connaître le nombre de ceux dont la cholestérolémie se situe de 2,8 mmol/l à 3,3 mmol/l, de 3,4 mmol/l à 3,9 mmol/l, …, de 5,2 mmol/l à 5,9 mmol/l, etc. Si elle désire présenter une information plus facile à saisir, elle peut construireune échelle ordinale en définissant les classes suivantes : cholestérolémie basse, cholestérolémie peu élevée, cholestérolémie élevée et cholestérolémie très éle- vée. Ainsi, les classes « 2,8-3,3 mmol/l » et « 3,4-3,9 mmol/l » pourraient être regroupées dans la classe « cholestérolémie basse » ; les classes « 4,0-4,4 mmol/l », « 4,5-4,9 mmol/l » et « 5,0-5,4 mmol/l » pourraient être regroupées dans la classe « cholestérolémie peu élevée », et ainsi de suite. Enfin, pour simplifier davantage, Stéphanie peut brosser un tableau de la cholesté- rolémie de sa clientèle en supprimant toute notion d’ordre et en créant deux catégo- ries : cholestérolémie normale et cholestérolémie anormale. Regroupant dans cette seconde classe les patients de la classe « cholestérolémie basse » et « cholestérolémie très élevée », elle sacrifie la notion d’ordre et passe à une échelle nominale. Pour gagner en simplicité de représentation, Stéphanie accepte de perdre de l’infor- mation, d’abord en regroupant les données individuelles en classes, puis à chaque passage d’une échelle à l’autre. Il est bien clair que la démarche inverse ne peut se faire et qu’une personne qui ne dispose que de l’information que fournit une échelle nominale ne peut reconstruire ni les échelles ordinales ni les échelles par intervalle.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Les distributions des fréquences: Structure d’un tableau de distribution de fréquences

A
  • On peut noter qu’un tableau de distribution de fréquences comporte généralement quatre colonnes.
  • La première présente les classes ; la deuxième, l’effectif ou la fréquence absolue de chaque classe ; la troisième, la fréquence relative qui présente en pourcentage la répartition des effectifs dans les différentes classes (exemple pour la classe 20-24 ans : 10/78 = 12,8 %) ; et la dernière, la fréquence relative cumulée, qui additionne la fréquence relative des classes (exemple pour la classe 25-29 ans : 12,8 % + 14,1 % = 26,9 %).
  • Les tableaux de fréquences, comme tous les tableaux, doivent être numérotés, porter un titre concis qui précise l’information présentée et fournir la source des données utilisées.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Les représentations graphiques des distributions de fréquences: Échelles nominale ou ordinale - Nommez les sortes de représentations graphiques les plus communs

A
  1. Le diagramme en secteurs proportionnels
  2. Le diagramme en barres proportionnelles
  3. Le diagramme en barres
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Les représentations graphiques des distributions de fréquences: Échelles nominale ou ordinale - Le diagramme en secteurs proportionnels

A
  • Aussi appelés « tartes », les diagrammes en secteurs proportionnels représentent les proportions des valeurs prises par une variable.
  • Ils ne permettent cependant pas de représenter aisément plusieurs séries de données.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Les représentations graphiques des distributions de fréquences: Échelles nominale ou ordinale - Le diagramme en barres proportionnelles

A

Cette représentation graphique est analogue à la représentation par tarte, sauf que les fréquences sont partagées sur une barre

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Les représentations graphiques des distributions de fréquences: Échelles nominale ou ordinale - Le diagramme en barres

A
  • Dans ce type de présentation graphique, les données représentées sous forme de barres sont disposées horizontalement ou verticalement.
  • Chaque barre représente la fréquence de la classe d’une variable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Les représentations graphiques des distributions de fréquences: Échelle par intervalle - Nommez les modes de présentation possibles

A
  1. Histogramme
  2. Polygone de fréquences
  3. Graphe en lignes
  4. Graphe en percentiles
25
Q

Les représentations graphiques des distributions de fréquences: Échelle par intervalle - Histogramme

A
  • Cette forme de représentation graphique est utilisée pour les variables quantitatives continues.
  • L’histogramme se construit dans un système d’axes rectangulaires.
  • Pour chaque rectangle, les conditions suivantes doivent être respectées.
  1. Les rectangles se suivent dans l’ordre des classes (par exemple, pour la variable âge: 0-1 an, 2-3 ans, 4-5 ans, 6-7 ans).
  2. Chacune des bases des rectangles coïncide avec l’intervalle de la classe correspondante.
  3. Chacune des aires des rectangles (base × hauteur) mesure la fréquence de la classe correspondante. En pratique, la plupart des auteurs prendront soin de diviser les données en classes égales et, donc, d’accorder une base égale à chaque rectangle. Ainsi, on pourra se fier à la hauteur des rectangles pour évaluer la fréquence de chaque classe.
26
Q

Les représentations graphiques des distributions de fréquences: Échelle par intervalle - Polygone de fréquences

A
  • Ce mode de présentation graphique peut être utilisé pour représenter les variables continues ou les variables discrètes qui ont été regroupées.
  • On le réserve cependant aux variables continues en raison de l’impression de continuité qu’il procure.
  • On obtient un polygone de fréquences en passant une ligne par le milieu des sommets des rectangles constituant un histogramme
27
Q

Les représentations graphiques des distributions de fréquences: Échelle par intervalle - Graphe en lignes

A

On peut construire ce graphe à partir d’une variable y en fonction d’une variablex

28
Q

Les représentations graphiques des distributions de fréquences: Échelle par intervalle - Graphe en percentiles

A
  • Les percentiles partagent une distribution en 100 parties égales entre elles.
  • Danielle constitue un groupe de 200 garçons de l’école de Yako, tous du même âge, et les ordonne selon leur taille. En commençant par le plus petit, les 19e et 20e garçons ont une taille qui correspond au 10e percentile pour ce groupe. De part et d’autre de ces garçons, on trouve 18 et 180 garçons, soit respectivement 9 % et 90 %du groupe. De la même façon, si Danielle considère les 179e et 180e garçons dans le même ordre, leur taille représentera le 90e percentile.
    • C’est selon cette approche que sont construites pour chaque âge les tables de percentiles comme celle représentée à la figure 2.7. L’âge y est indiqué en abscisse, et la taille dans la partie supérieure ainsi que le poids dans la partie inférieure sontindiqués en ordonnée. Les courbes situées dans la partie supérieure qui traversentle graphique représentent la taille en fonction de l’âge des 97e, 95e, …, 10e et3 e percentiles respectivement. Les courbes situées dans la partie inférieure qui tra-versent le graphique représentent le poids en fonction de l’âge également pour les97e, 95e, …, 10e et 3e percentiles. Cette table est disponible en format utile sur lesite de l’OMS
29
Q

Les représentations graphiques des distributions de fréquences: Les autres représentations graphiques - Nommez-les

A
  1. La représentation cartographique
  2. Le graphe en points
    3.
30
Q

Les représentations graphiques des distributions de fréquences: Les autres représentations graphiques - La représentation cartographique

A
  • La représentation cartographique est très utile pour décrire un phénomène en fonction du lieu (province, département, village, secteur, etc.).
  • La figure 2.8 offre un exemple de représentation cartographique de l’infection par le virus de l’immuno déficience humaine à l’échelle mondiale, prévalence chez l’adulte (%), en 2006
31
Q

Les représentations graphiques des distributions de fréquences: Les autres représentations graphiques - Le graphe en points

A
  • Ce graphe est surtout utilisé lorsque le but de l’étude ne consiste pas à faire des extrapolations à partir des valeurs trouvées.
  • Chaque point est caractérisé par son abscisse et son ordonnée sur des axes de repère donnés ou sur une représentation cartographique.
32
Q

Les représentations graphiques des distributions de fréquences: Les règles générales de représentation graphique

A
  • Les graphiques doivent être aussi simples que possible.
  • Chacun doit comporter un titre clair, concis et précis.
  • Les échelles et les unités doivent être spécifiées ; les sources des données, indiquées ; et une légende est ajoutée si elle se révèle nécessaire à la compréhension du graphique. Il faut cependant éviter toute surcharge.
33
Q

Les mesures descriptives générales d’un ensemble de données: Utilité

A
  • Les mesures descriptives générales d’un ensemble de données permettent de produire ou de résumer le même type d’information utile et intelligible que celle obtenue à l’aide d’une distribution de fréquences et de sa représentation graphique.
  • Stéphanie effectue de la surveillance nutritionnelle dans l’école que fréquente Yako. Au début de l’année, elle pèse tous les enfants. L’école compte 20 groupes de15 élèves chacun. Comment peut-elle décrire, de façon générale, le poids des enfants de chacun des groupes ? Les mesures de tendance centrale et les mesures de dispersion sont utilisées à cette fin.
34
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - Définir + nommez-les

A
  • Une valeur centrale se caractérise par le fait que toutes les valeurs observées tendent à se rassembler autour d’elle.
  • On peut imaginer une valeur centrale comme une sorte de valeur typique autour de laquelle gravitent les valeurs observées d’une variable.
  • On distingue trois sortes de mesures de tendance centrale:
    • la moyenne,
    • a médiane
    • et le mode.
35
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - La moyenne - Types

A
  • Il existe plusieurs types de moyennes.
  • Les principaux types qui figurent dans la littérature médicale et psychosociale sont les moyennes
    • arithmétique,
    • pondérée
    • et géométrique
36
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - La moyenne arithmétique

A
  • La moyenne arithmétique représente la somme des valeurs observées, divisée par le nombre de ces valeurs.
  • Elle s’exprime mathématiquement de la façon suivante :
37
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - La moyenne pondérée

A
  • Lorsque les données sont regroupées en classes, comment peut-on calculer une moyenne ?
    • On peut additionner les moyennes des classes, puis les diviser par le nombre de classes, mais l’on introduit ainsi une erreur importante si une classe contient plus d’observations qu’une autre.
    • Pour corriger ce problème, on donne un poids (on pondère) à chaque classe selon son importance (son poids relatif) dans l’ensemble.
  • La moyenne pondérée se calcule en faisant la somme des moyennes des trois classes multipliée par le nombre d’observations dans chaque classe, divisée par le nombre total d’élèves.
  • Une autre façon de calculer la moyenne pondérée pour des données groupées en classe serait d’utiliser le point milieu de chaque classe. Cette approche suppose que la répartition selon le poids est symétrique et uniforme à l’intérieur de chaque groupe d’élèves. Le tableau 2.4 présente cette approche.
38
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - La moyenne géométrique

A
  • Cette moyenne, qui utilise le produit des valeurs observées, n’est définie que pour des valeurs positives.
  • Elle permet de réduire l’influence des valeurs extrêmes, surtout basses.
  • La moyenne géométrique est particulièrement utilisée dans le contexte des analyses de laboratoire où les distributions sont souvent asymétriques.
39
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - La médiane

A
  • Cette mesure divise en deux parties égales en nombre l’ensemble des valeurs observées, préalablement mises en ordre croissant. Une moitié des valeurs observées est inférieure à la médiane, et l’autre moitié est supérieure à celle-ci.
  • La médiane dépend du rang des observations disposées en ordre numérique. Elle prend la valeur de l’observation de rang (n + 1)/2, où n représente le nombre d’observations.
  • Contrairement à la moyenne, la médiane n’est pas influencée par les valeurs extrêmes. On la préfère aux autres mesures de tendance centrale lorsque la distribution desvaleurs est fortement asymétrique.
  • Lorsque la valeur n est impaire, il devient facile de choisir la valeur médiane, puisqu’elle est représentée par un chiffre entier.
40
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - Le mode

A
  • Le mode est la valeur qui revient le plus souvent dans un ensemble de valeurs observées.
  • Le mode est influencé par les fréquences des observations. Il est plus sensible aux changements et moins stable que la moyenne, surtout si l’on dispose de peu d’observations. Il est possible de le déterminer pour des variables tant qualitatives que quantitatives.
  • Dans l’exemple 2.24, il n’y a qu’un seul mode ; on parle alors d’une distribution unimodale. Il est possible de trouver plusieurs modes dans une même distribution de fréquences. L’exemple 2.25 présente deux modes, c’est-à-dire deux valeurs qui reviennent le plus souvent ; il s’agit alors d’une distribution bimodale. Il est possible aussi qu’une distribution n’ait aucun mode.
41
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de tendance centrale - La relation entre les échelles et les mesures de tendance centrale

A
  • On a vu que les échelles utilisées pour classer les valeurs des variables sont porteuses d’une plus ou moins grande quantité d’information.
  • Le tableau 2.6 passe en revue les types de mesures de tendance centrale utilisées en fonction des échelles de classification dont on dispose.
42
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion

A
  • Les mesures de tendance centrale ne suffisent pas à caractériser complètement une distribution de fréquences.
  • Voilà pourquoi il est essentiel de définir des mesures de dispersion qui fournissent des renseignements sur la variabilité des observations.
  • Comme on le constate (voir image), les mesures de tendance centrale s’avèrent identiques pour chacun des deux groupes A et B. Pourtant, ces groupes sont différents : les mesures de la taille observées dans ces deux groupes ne sont pas les mêmes. On trouve dans le groupe B des individus de plus petite taille et d’autres de plus grande taille que ceux observés dans le groupe A. Les mesures de dispersion apportent une information descriptive supplémentaire sur la répartition des per-sonnes selon leur taille qui permettra de les distinguer. Les principales mesures de dispersion sont l’étendue, les quantiles, la variance, l’écart type et le coefficient de variation.
43
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion - Nommez-les

A
  1. L’étendue
  2. Les quantiles
  3. La variance
  4. L’écart type
  5. Le coefficient de variation
44
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion - L’étendue

A
  • L’étendue est la différence entre la valeur la plus grande (maximale) et la valeur laplus petite (minimale) d’un ensemble d’observations.
  • Cette mesure néglige cependant une partie considérable de l’information : elle ne subit l’influence que des valeurs extrêmes.
45
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion - Les quantiles

A
  • Alors que la médiane donne la valeur centrale d’un ensemble de données, les quantiles permettent de diviser l’ensemble en un certain nombre de parties égales.
  • Comme pour la médiane, le calcul des quantiles exige que les données soient ordon- nées.
  • Lorsqu’on divise le groupe en quatre parties égales, on obtient des quartiles.
  • S’il est divisé en cinq parties égales, on obtient des quintiles, etc. Si l’on divise l’ensemble en 100 parties égales, on détermine les percentiles.
46
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion - La variance

A
  • Dans un ensemble de données, la valeur de chacune des données d’une variable est plus ou moins proche de sa moyenne.
  • L’idée d’utiliser la distance (ou l’écart) de chaque valeur par rapport à cette moyenne constitue une mesure de dispersion connue sous le nom de variance.
  • Pour exprimer cette variation par un seul chiffre, on pourrait faire la moyenne de ces écarts. Toutefois, puisque le nombre d’écarts positifs est égal au nombre d’écarts négatifs, on ne peut directement calculer cette moyenne : en effet, la somme des écarts est toujours égale à 0. Pour rendre tous les écarts positifs, on prendra le carré des écarts.
  • La variance est donc la somme des carrés des écarts par rapport à la moyenne divisée par le nombre d’observations.
47
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion - L’écart type

A
  • L’écart type est la racine carrée de la variance.
  • C’est qu’on a constaté que, dans un échantillon, l’écart type était une estimation biaisée de l’écart type de la population s’il était calculé de la même façon. On corrige ce biais en utilisant le dénominateur n – 1 plutôt que le dénominateur n.
48
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion - Notation

A
49
Q

Les mesures descriptives générales d’un ensemble de données: Mesures de dispersion - Coefficient de variation

A
  • Le coefficient de variation permet de comparer deux distributions d’une même variable ou de variables différentes. Il s’agit simplement du rapport de l’écart type à la moyenne.
  • On notera que le résultat du calcul du coefficient de variation est un rapport exprimé par une fraction ou un pourcentage. Il permet de comparer la variabilité des ensembles de données dont les unités diffèrent. Grâce au coefficient de variation, on peut par exemple comparer la variation des valeurs de la variable âge, qui va de 1 à 100 ans, à la variation de la variable cholestérol, dont les valeurs oscillent de 2 à 15 mmol/l. Plus la valeur du coefficient de variation est élevée, plus grande est la variabilité des données observées
50
Q

L’échantillonnage: Pertinence d’avoir un bon échantillonnage

A
  • Dans le domaine scientifique, il n’existe pas d’absolu ; toutes les connaissances sont plus ou moins certaines, et le savoir est fondé sur la probabilité plus ou moins grande d’observer un phénomène.
  • En effet, à partir d’un certain moment, les coûts en temps et en ressources deviennent trop élevés pour justifier que l’on cherche à augmenter encore davantage le degré de certitude.
  • À partir d’un certain seuil, on considère que l’on en sait assez pour agir puisque, de toute façon, une certitude plus grande ne changerait rien aux décisions ni aux mesures à prendre.
  • Une certitude raisonnable suffit.
  • La pratique qui consiste à mener des études (ou des sondages) en utilisant des échantillons découle de cet état de fait.
51
Q

L’échantillonnage: Définir

A
  • Un échantillon est simplement un sous-ensemble de la population que l’on souhaite étudier. Il faut choisir ce sous-groupe de telle sorte que l’on puisse obtenir une certitude raisonnable qui permet de tirer des conclusions et d’agir en fonction du facteur étudié.
52
Q

L’échantillonnage: Le choix de l’échantillonnage

A
  • Pour arriver à choisir son échantillon, Danielle est partie des connaissances qu’elle avait du phénomène à étudier dans le but d’établir des valeurs normales (ou valeurs de référence) qui lui permettraient de situer Yako selon son poids et sa taille.
    • Elle a dû fixer certains critères pour guider le choix de l’échantillon afin de s’assurer d’atteindreson objectif.
    • La sélection d’individus du même âge que Yako constitue l’un de ces critères ; il s’agit d’un critère d’inclusion.
    • Cependant, comme elle s’intéressait aux valeurs normales, elle a décidé de ne pas retenir tout garçon qui présenterait une caractéristique particulière susceptible de venir fausser le résultat.
    • Ainsi, elle a décidé de ne pas inclure dans son échantillon un garçon ayant souffert d’une maladie gastro-intestinale grave à sa naissance qui aurait affecté sa croissance pondérale ; il s’agit d’un critère d’exclusion.
  • Tout en tenant compte des critères d’inclusion et d’exclusion, Danielle a également dû déterminer le nombre de personnes à recruter pour obtenir le seuil de certitude qui rendrait son étude utile, soit la plus petite différence qu’elle veut détecter.
    • De ses cours de statistique, elle avait retenu le principe suivant : un grand échantillon permet de détecter une information plus précise qu’un petit échantillon.
  • Par conséquent, plus on veut augmenter la précision des renseignements recueillis, plus la taille de l’échantillon doit être grande.
    • Par ailleurs, plus il y a de variabilité dans l’information recherchée (par exemple, plus la taille des garçons du même âge que Yako varie d’un individu à l’autre), plus l’échantillon doit être grand.
    • Un grand échantillon permet des analyses statistiques plus puissantes ; plus la puissance est grande, plus le résultat obtenu inspirera confiance.
    • Ainsi, ces notions de précision et de puissance statistique permettent de quantifier la confiance que l’on peut accorder à un résultat observé dans un échantillon lorsqu’on veut le généraliser à une population.
    • Elles seront approfondies dans les chapitres 10 et 11
53
Q

L’échantillonnage: De quoi dépend la taille de l’échantillon?

A
  • La taille de l’échantillon dépendra donc de :
    • la plus petite différence que l’on veut détecter ;
    • la précision souhaitée ;
    • la puissance souhaitée ;
    • la variabilité des données.
  • Il existe des règles de calcul de la taille des échantillons qui permettent de mesurer les différences avec la précision et la puissance voulues en tenant compte de la variabilité des données.
54
Q

L’échantillonnage: Les méthodes d’échantillonnage - Nommez-les

A
  1. Échantillonnage aléatoire simple
  2. Échantillonnage aléatoire stratifié
  3. Échantillonnage systématique
  4. Échantillonnage en grappes
55
Q

L’échantillonnage: Les méthodes d’échantillonnage - Échantillonnage aléatoire simple

A
  • La solution la plus avantageuse consiste à donner une chance égale à toutes les per- sonnes d’être sélectionnées et à s’en remettre au hasard.
  • Ainsi, il sera probable que les caractéristiques des personnes choisies ne soient pas vraiment différentes de celles des personnes non sélectionnées.
  • On nomme ce procédé échantillonnage aléatoire simple.
56
Q

L’échantillonnage: Les méthodes d’échantillonnage - Échantillonnage aléatoire stratifié

A
  • Par contre, selon le contexte de l’étude, il est possible d’avoir recours à d’autres stratégies d’échantillonnage. Par exemple, dans le cadre d’une étude portant sur l’acné chez les adolescentes, on veut comparer l’effet du chiogène hispide contenu dans le « thé » sur la peau blanche et sur la peau noire, et l’on désire recruter 200 sujets pour réaliser l’étude.
  • Or, parmi les 10 000 candidates possibles, seules 3 000 personnes sont de race noire.
  • Par le procédé de l’échantillonnage aléatoire simple, on arriverait selon toute probabilité à constituer deux groupes composés de 60 adolescentes noires et de 140 adolescentes blanches.
  • Pour résoudre ce problème, il faudrait choisir au hasard 100 jeunes filles parmi les 7 000 candidates blanches et 100 autres parmi les 3 000 candidates noires. On nomme cette façon de procéder échantillonnage aléatoire stratifié.
57
Q

L’échantillonnage: Les méthodes d’échantillonnage - Échantillonnage systématique

A
  • Dans un autre cas où l’on désire mener une étude sur la consommation de suppléments vitaminés auprès des clients d’une compagnie d’assurance, un taux de participation de 10 % serait suffisant pour tirer des enseignements concluants.
  • On peut utiliser un outil générateur de chiffres aléatoires pour générer un chiffre de 1 à 10.
  • À défaut d’un tel outil, 10 blocs de bois, numérotés de 1 à 10, sont déposés dans un sac.
  • Une personne tire un bloc au hasard, soit celui portant le numéro 7.
  • Sur la liste alphabétique des clients de la compagnie, le 7e nom a été souligné.
  • On a ensuite souligné le 17e nom, puis le 27e nom, et ainsi de suite jusqu’à la fin de la liste.
  • Ces clients ont finalement constitué l’échantillon. On nomme cette façon de faire échantillonnage systématique
58
Q

L’échantillonnage: Les méthodes d’échantillonnage - Échantillonnage en grappes

A
  • Emmanuelle, coopérante dans un pays en voie de développement, est chargée d’évaluer le degré d’efficacité de la vaccination contre la rougeole chez les enfants âgés de deux à cinq ans.
  • Il n’existe pas de recensement précis des habitants de la région où elle travaille, et les gens y vivent dans des villages dispersés, sans adresses ni noms de rues.
  • Elle explique à ses enquêteurs que, dans quelques villages choisis au hasard, ils devront recueillir des informations auprès de 10 enfants par village. Ils se rendront au centre du village, se dirigeront vers la première maison au nord et obtiendront des informations sur tous les enfants âgés de deux à cinq ans habitant cette mai-son.
  • S’il y en a moins de 10, ils se dirigeront vers la maison voisine située au nord, et ainsi de suite jusqu’à ce qu’ils aient recueilli des informations sur un total de 10 enfants.
  • On nomme cette façon de procéder échantillonnage en grappes