Section 1 : statistique descriptive Flashcards
la statistique descriptive permet de ?
résumer un ensemble de données, dans le but de présenter des faits saillant d’une population ou d’un échantillon
- utilisations des différents méthodes statistiques pour décrire des données avec des %, moyennes ou graphiques
définit :
1) population
2) échantillon
3) échantillon représentatif
4) échantillon aléatoire
1) ensemble d’éléments ou de personnes partageant des caractéristiques communes (ex : pop. du canada / québec / étudiants en physio). Elle n’est pas nécessairement constitué de personnes (ex : on peut étudier l’influence de l’hôpital universitaire ou non sur la qualité des soins, la population sera des hôpitaux)
* souvent trop cher et compliqué à utiliser pour études
2) échantillon : partie de la population
3) échantillon représentatif : échantillon qui représente des caractéristiques similaires à la population (même distribution d’âge, sexe, ou importantes pour l’étude)
4) échantillon aléatoire : échantillon sélectionné au hasard (meilleur échantillonnage)
une mesure de tendance centrale est ?
une façon de résumer des observations qui peuvent être faites dans un échantillon ou dans une population
1) moyenne (X) : somme de toutes les observations / nombre total d’observations
2) médiane (Md) : valeur centrale (ou moyenne des 2 observations centrales) lorsque les observations sont classée en rang
3) mode (Mo) : valeur la plus fréquente (sommet de l’histogramme)
On mesure la distance parcourue lors d’un test de marche de 6 minutes (6 minutes walk-test) pour 5 individus sains entre 50 et 60 ans. Les valeurs en mètre sont: 680, 603, 620, 635, 620. donne la :
1) moyenne
2) médiane
3) mode
replacé en ordre : 603, 620, 620, 635, 680
1) (680+603+620+635+620) / 5 = 631,6
2) 620 (valeur centrale)
3) 620 (valeur la plus fréquente)
les valeurs extrêmes et/ou aberrantes dans un échantillon vont influencer ? (1), il faut donc plus se fier à la ? (2)
1) moyenne
2) médiane
ex ; 20 employés font entre 13 et 16$ de l’heure, mais un autre employé fait 400$ de l’heure. moyenne est de 33$/h, mais pas représentatif car la médiane est de 15$ de l’heure.
lorsque la distribution est normal versus anormal, qu’elle mesure de tendance centrale est plus appropriée à utiliser ?
distribution normale : moyenne
distribution anormale : médiane
est-ce que la moyenne est plus grande ou plus petite que la médiane lorsque ? :
1) asymétrie positive
2) asymétrie nulle
3) asymétrie négative
1) moyenne > médiane
2) moyenne = médiane
3) moyenne < médiane
comment savoir si une distribution est dite normale ?
1) test statistique (shapiro-wilk)
2) inspection visuelle des données (histogramme / diagramme à bâtons)
3) comparaison moyenne vs médiane (une différence = anormale)
dans quelle situation il est pertinent d’utiliser le mode ?
lorsqu’on décrit une distribution bimodale, lorsque les données sont réparties en 2 groupes
une mesure de dispersion est ?
une mesure permettant de savoir comment les données se répartissent
- tous regroupées près de la mesure centrale (moyenne, médiane) ou si elles varient beaucoup ?
nomme les 2 types de mesures de dispersion
1) écart-type et variance : utilisé avec la moyenne lors d’une distribution normale
- variance : somme des carrés des écarts à la moyenne
- écart-type : racine carré de la variance
2) étendue : utilisé avec la médiane lors d’une distribution asymétrique
- étendue (min - max, interquartile, centiles, etc.)
le quartile 2 fait référence à ?
la médiane (50% des données)
IQR fait référence à
au interquartile rang (intervale entre quartile 1 et 3) : représente 50% des données sans prendre en compte les valeurs extrêmes
nomme les types de variables quantitatives et leur particularité
variables quantitatives :
1) échelle continue : infinité de valeurs possibles (peuvent être divisés à l’infini)
- ex ; argent, pression artérielle, âge (peut être en minutes, secondes, etc.)
2) échelle discrète : quantités isolées et non divisables
- ex ; nombre de fractures, accidents, enfants
nomme les types et particularités des variables qualitatives
1) échelle ordinale : les données ont un ordre naturel / évolution
- ex ; degré de satisfaction (faible - moyen - élevé)
2) échelle nominale : pas de rang possible entre les données
- ex ; groupe sanguin, type d’animaux, sexe, statut civil
pour des données qualitatives, on présente les données avec ?
un tableau de fréquence relative et absolue
pour des données quantitatives, on présente les données avec ?
des mesures de tendance centrale et de dispersion
présentation visuelle des données qualitatives et quantitatives discrètes vs quantitative continue
données qualitatives et quantitative discrète : diagramme en bâton
données quantitative continue : histogramme
quantitative discrète
1) représentation numérique
2) représentation graphique
1) étendue et quartiles (mesure de dispersion) et médiane (mesure de tendance centrale)
2) diagramme en bâton
quantitative continue non normale vs normale
1) représentation numérique
2) représentation graphique
quantitative continue non normale :
1) étendue et quartiles (dispersion) et médiane (tendance centrale)
2) histogramme
quantitative normale :
1) écart-type (dispersion) et moyenne (tendance centrale)
2) histogramme
% des observations les écarts-types
1 écart-type par rapport à la moyenne : 68,3%
2 écart-type par rapport à la moyenne : 95,4%
3 écart-type par rapport à la moyenne : 99,7%
intervalle de confiance (formule)
moyenne + (écart-type) : borne supérieure
moyenne - (écart-type) : borne inférieure
tu joins 100 personnes, et mesure leur satisfaction de 0 à 100. Moyenne des résultats est 74, avec un écart-type de 10. Quel est l’intervalle de confiance ?
74 + 2 * 10 = 94
74 - 2 * 10 - 54
95% des observations se situent dans l’intervalle [54-94]
que se passe-t-il lorsqu’il faut calculer une probabilité qui n’est pas dans les écarts-types connues ?
transformation de notre variable en score Z, où la moyenne est égale à 0 et l’écart-type 1
Z = (X - moyenne) / 1
le Z correspond, sous le courbe, à ? Que se passe-t-il s’il est négatif ?
la zone à droite (+) donc dans le tableau, c’est la valeur écrite (ex : Z > 1 = 0,159 = 15,9%)
lorsque le Z est négatif ou qu’on veut savoir la probabilité que ce soit inférieur, il faut prendre le chiffre du tableau et le soustraire par 1
(ex : Z < 1 = 0,159 –> 1 - 0,159 = 0,841 = 84,1%)
que faut-il faire si on veut savoir la probabilité que Z soit entre -1 et 1 ?
on soustrait 0,159 2 fois à 1
1 - 0,159 - 0,159 - 0,682 = 68,2%