Module 2A: Questions, objectifs et hypothèses de recherche Flashcards
Variable:
Caractéristique susceptible d’être différente selon les personnes, lieux ou temps
Valeur:
Tout état que prend la variable
(ex: variable sexe → 2 valeurs, masculin/féminin)
Types de variables: (3)
- Variables de personnes: attributs anatomiques, physiologiques, sociaux, économiques, culturels
- Variables de lieux: pays, régiom, situation géographique
- Variables de temps: quand?
Classification des variables: (2 types, 2 sous-types chaque)
-
Variable quantitative: numérique
- Discrète → uniquement nombres entiers (ex: # d’enfants)
- Variable → continue, contient des fractions (ex: taille)
-
Variable qualitative: attributs, toujours discrète
- Dichotomique → possèdent que deux modalités
- Ordinale → avec séquence claire
Moyenne vs. proportion:
Moyenne: valeurs quantitatives
Proportion: valeurs qualitatives
Échelle de classification:
Doit permettre de distribuer toutes les observations (chacune dans une seule catégorie)
Échelle de classification:
Doit permettre de distribuer toutes les observations (chacune dans une seule catégorie)
Deux conditions pour assurer que le classification des observations est juste:
- Mutuellement exclusives: each data point can only be in one class
- Collectivement exhaustives: must apply to all data
Trois types d’échelles de classification:
- Échelle nominale: classes sont nommées
- Échelle ordinale: classes sont nommées et ordonnées (plus petit → plus grand ou vice versa)
- Échelle par intervalle: nommées et ordonnées et une relation de distance entre les valeurs
Passage d’une échelle → une autre:
Each pass down = more data lost, therefore becomes +++ general
individuel (6 years old) → intervalle (1-7 years old) → ordinale (school-aged child) → nominale (child)
Distributions de fréquences:
Rend les données plus claires et intelligibles
Fréquence absolue:
= #observations/classe
Colonnes dans tableau de distribution de fréquences: 4
- Classes
- Effectif/fréquence absolue
- Fréquence relative (% de répartition des effectifs dans les classes) → 10/70 people = 12.8%
- Fréquence relative cumulée (additionne fréquence relative des classes, % in that class and those above it)
Représentation graphique: échelle nominale/ordinale
-
Diagramme en secteurs proportionnelles (pie graph)
- Proportions des valeurs prises par une variable
- Seulement une série de données
-
Diagramme en barres proportionnelles
- Analogue à la représentation par tarte
-
Diagramme en barres
- Chaque barre représente fréquence de la classe d’une variable
Représentation graphique: échelle par intervalle (4)
-
L’histogramme:
- Utilisée pour variables quantitatives continue:
-
Chaque rectangle doit:
- Suivent l’ordre des classes
- Base coïncide avec l’intervalle de la classe correspondante
- Aire de rectangle = fréquence de la classe correspondante
-
Chaque rectangle doit:
- Utilisée pour variables quantitatives continue:
-
Polygone de fréquences:
- Utilisée pour variables continue et discrètes mais réservée pour les variables continues
- Obtenu par passer ligne par milieu des sommets des rectangles de l’histogramme
-
Graphe en lignes:
- Variable y en fonction d’une variable x
-
Graphe des percentiles:
- Partagent une distribution en 100 parties égales entre elles
Règles générales de représentation graphique
- Doivent êtres aussi simples que possible
- Titre clair, concis, et précis
- Échelle et unités spécifiques
- Sources indiquées
- Légende ajoutée si nécessaire
IMPORTANT D’ÉVITER SOUTE SURCHARGE
Trois mésures de tendance centrale:
- Moyenne
- Médiane
- Mode
Moyenne arithmétique:
Somme des valeurs observées/nombre de valeurs
Lacune de la moyenne arithmétique:
- Influencée +++ par des valeurs extrêmes (surtout élevées)
- Mais dim. quand tu aug. # d’observations
Moyenne pondérée:
Donne un poids à chaque classe selon son importance dans l’ensemble
somme des (moyennes des classes x par nombre d’observations) / nombre total d’observations
Moyenne géométrique:
- Utilise produit des valeurs observées
- Seulement valeurs positives
- Permet de réduire l’influence des valeurs extrêmes (surtout basses)
- Utilisée dans contexte d’analyses de laboratoires (svt asymétriques)
Comportement des moyennes arithmétiques vs. géométriques en présence de valeurs extrêmes:
Médiane:
- N’est pas influencée par valeurs extrêmes
- Préfère aux autres mesures si distribution est +++ asymétrique
Mode:
VALEUR QUI REVIENT LE + SOUVENT
- Influencé par les fréquences des observations
- Plus sensible aux changements
- Moins stable que la moyenne
- Utilisée pour variables qualitatives et quantitatives
Relation entre échelle et mesure de tendance centrale:
Cinq mesures de dispersion:
- Étendue
- Quantiles
- Variance
- Écart type
- Coefficient de variation
Étendue:
Max - min
Ne subit l’influence que des valeurs extrêmes
Quantiles:
Diviser l’ensemble en un certain # de parties égales
Quartile → 4 parties égales, percentiles → 100 parties égales
Variance:
Distance de chaque valeur par rapport à la moyenne
Somme des carrées des écarts par rapport à la moyenne/# d’observations
Écart type: (standard deviation)
Racine carrée de la variance:
Mesure de la dispersion des valeurs d’un échantillon statistique ou d’une distribution de probabilité
Écart type dans sous-ensemble de la population (échantillon)
Utilise dénominateur n-1 pour corriger le biais
Notation pour population vs. échantillon:
Coefficient de variation:
Permet de comparer deux distributions d’une même variable/variables différences même s’ils ont des unités différents
Aug. CV = aug. variabilité des données
Taille de l’échantillon dépend de:
- Plus petite différence que l’on veut détecter
- Précision souhaitée
- Puissance souhaitée
- Variabilité des données
Aug. précision = Aug. taille
Aug. variabilité = Aug. taille
Aug. taille = Aug. puissance
Aug. puissance = Aug. confiance
Quatres types d’échantillonnage:
- Échantillon aléatoire simple: sélection au hasard
- Échantillon aléatoire stratifié: divise d’abord en strates et ensuite sélectionner de façon aléatoire des membres de chacune des strates
- Échantillonnage systématique: choisi de façon régulière, selon un intervalle régulier, à l’intérieur de la population ciblée
- Échantillonnage en grappes: basant sur la position géographique de la population ciblée, on la divise d’abord en grappes et ensuite sélectionne un certain nombre de façon aléatoire
Comment formuler question de recherche?
P: population
I: Intervention/exposion
C: comparateur
O: outcome (conséquence potentielle)
T: temps
Étude à visée étiologique:
Comprendre les liens cause-à-effet entre des facteurs de risque et des maladies
Étude à visée prédictive:
Prédire développement d’une maladie (dépistage/dx) ou complications (prognostic) chez personne à partir de l’information disponible à moment donné
Hypothèse nulle:
- Postule l’absence d’effet/non-existence d’une relation/association/différence
- Présomption d’absence d’effet
- Affirme de la différence observée est purement due au hasard ou qu’il n’y a pas d’association statistique entre 2 variables
Confrontation d’une hypothèse nulle:
Hypothèse alternative/contre-hypothèse
Test d’hypothèse statistique (test de signification):
Permet d’estimer à quel point les données qu’on observe dans l’étude sont compatibles avec l’hypothèse nulle → calculer valeur d’un test statistique → valeur-p
Valeur-p:
Probabilité que nos observations sont compatibles avec l’hypothèse nulle
- P élévée: données sont compatibles avec nulle et on accepte hypothèse nulle
- P très faible: données sont peu compatibles avec nulle et on rejette nulle
Degré de signification p:
- Probabilité que l’hypothèse nulle est vrai
-
Fixe a priori le seuil de signification statistique (risque alpha): normalement à 5% ou 1%
- Si valeur-p < signification fixé = improbable que résultat est par hasard
- = différence observée est statistiquement significative
- Si valeur-p < signification fixé = improbable que résultat est par hasard