6_(Analyse) Statistiques descriptives Flashcards
Tableau de fréquences
- Distribution des données observées selon leur fréquence
* Graphique (diagramme en bâtons ou autre)
Boîte à moustache
- Minimum
- Quartile 25%
- Médiane
- Quartile 75%
- Maximum
- Mode, médiane, moyenne
Tableaux VS graphiques
Les tableaux servent à organiser les données et… les graphiques servent à donner une vue d’ensemble
Mode (Mo)
Valeur dominante, la + fréquente dans une distribution de fréquence
Médiane (Md)
Valeur du milieu d’une série statistique rangée par ordre croissant
Juste pour variable quantitative
Nombre n de données est : - Impair : (n+1)/2 n=5 ; 5+1 = 6 ; 6/2 = 3 - Pair : n = 2k avec k + (k + 1) n=6 ; (6 = 2*k) k = 3 ; 3 + 4 = 7 ; 7/2 = 3,5
*Peu/Pas impact par des données à l’extrême (valeurs aberrantes) = robuste
Moyenne (arithmétique)
Somme de toutes les données / taille de leur effectif
*Impactée par des données à l’extrême
*Si distribution symétrique :
Mode, médiane et moyenne : proches les uns des autres
Ex : Cessation de la cigarette
Étendue (E)
Différence des deux valeurs extrêmes d’une série
E = valeur max – valeur min
*S’il n’y a pas de valeur aberrante, on s’attend à ce que E soit environ égale à 6x écart-types (règle empirique)
Écart type
Mesure la dispersion des données autour de la moyenne
Sorte d’unité de « distance »
Voir Équation !
Variance
Carré de l’écart type
Calculée comme la moyenne des carrés des écarts par rapport à la moyenne
Voir Équation !
Coefficient de variation (CV)
Écart-type / moyenne
En % :
- Pour population : 𝜎 / 𝜇 * 100%
- Pour échantillon : s / 𝑥 * 100%
Utile si on veut comparer les dispersions de deux variables différentes
CV < 15% représente une dispersion faible des données
Quartiles (25% et 75%)
Quartiles : nbr Q1, Q2, Q3 qui séparent les données rangées (ordre croissant) en 4 groupes contenant chacun 25% des observations
Q1 = n / 4
- Nombre entier : Alors Q1 est le point milieu situé entre pème et (p+1)ème donnée
- Nombre pas entier : Soit p sa partie entière. Alors Q1 est la (p+1)ème donnée
Q2 = Md
Étendue (intervalle) interquartile EI = Q3 – Q1
Distribution normale (ou gaussienne)
Plus importante distribution en biostatistiques Dépend de : - Moyenne μ - Écart type σ = N(μ, σ) Si N(0,1) = Centrée réduite
Dans ce graphe: cloche, symétrique, médiane=moyenne
Estimation des paramètres à l’étude
- Connaît jamais vraie valeur de la pop = estimation à partir échantillon (inférence statistique)
- Existe toujours degré d’erreur sur estimation de valeur de notre échantillon (même avec moyenne, mode, médiane)
- MIEUX : utiliser estimation par intervalle pour préciser intervalle à l’intérieur duquel le paramètre de la population est susceptible de se trouver = Intervalles de confiance (IC)
Intervalles de confiance (IC)
- À partir de la distribution théorique de la courbe normale
- Gamme de valeurs dans laquelle devrait se trouver le paramètre de la population
- valeur du paramètre se situe entre les bornes inférieure et supérieure
- de l’IC
- Plus l’intervalle proposé est grand, plus on peut avoir la conviction que la vraie moyenne de la population se situe à l’intérieur de l’IC
- Niveau de confiance exprimé en pourcentage, soit des IC à 95 ou à 99%
𝜇 ± 𝜎 = 68,3% de la population
𝜇 ± 2𝜎 = 95,5% de la population
* Moyenne +/- 2 x STD est souvent utilisée pour identifier les données « hors-norme » (outliers)
𝜇 ± 3𝜎 = 99,7% de la population
IC= x ± (1,96) (écart-type)