6_(Analyse) Statistiques descriptives Flashcards
Tableau de fréquences
- Distribution des données observées selon leur fréquence
* Graphique (diagramme en bâtons ou autre)
Boîte à moustache
- Minimum
- Quartile 25%
- Médiane
- Quartile 75%
- Maximum
- Mode, médiane, moyenne
Tableaux VS graphiques
Les tableaux servent à organiser les données et… les graphiques servent à donner une vue d’ensemble
Mode (Mo)
Valeur dominante, la + fréquente dans une distribution de fréquence
Médiane (Md)
Valeur du milieu d’une série statistique rangée par ordre croissant
Juste pour variable quantitative
Nombre n de données est : - Impair : (n+1)/2 n=5 ; 5+1 = 6 ; 6/2 = 3 - Pair : n = 2k avec k + (k + 1) n=6 ; (6 = 2*k) k = 3 ; 3 + 4 = 7 ; 7/2 = 3,5
*Peu/Pas impact par des données à l’extrême (valeurs aberrantes) = robuste
Moyenne (arithmétique)
Somme de toutes les données / taille de leur effectif
*Impactée par des données à l’extrême
*Si distribution symétrique :
Mode, médiane et moyenne : proches les uns des autres
Ex : Cessation de la cigarette
Étendue (E)
Différence des deux valeurs extrêmes d’une série
E = valeur max – valeur min
*S’il n’y a pas de valeur aberrante, on s’attend à ce que E soit environ égale à 6x écart-types (règle empirique)
Écart type
Mesure la dispersion des données autour de la moyenne
Sorte d’unité de « distance »
Voir Équation !
Variance
Carré de l’écart type
Calculée comme la moyenne des carrés des écarts par rapport à la moyenne
Voir Équation !
Coefficient de variation (CV)
Écart-type / moyenne
En % :
- Pour population : 𝜎 / 𝜇 * 100%
- Pour échantillon : s / 𝑥 * 100%
Utile si on veut comparer les dispersions de deux variables différentes
CV < 15% représente une dispersion faible des données
Quartiles (25% et 75%)
Quartiles : nbr Q1, Q2, Q3 qui séparent les données rangées (ordre croissant) en 4 groupes contenant chacun 25% des observations
Q1 = n / 4
- Nombre entier : Alors Q1 est le point milieu situé entre pème et (p+1)ème donnée
- Nombre pas entier : Soit p sa partie entière. Alors Q1 est la (p+1)ème donnée
Q2 = Md
Étendue (intervalle) interquartile EI = Q3 – Q1
Distribution normale (ou gaussienne)
Plus importante distribution en biostatistiques Dépend de : - Moyenne μ - Écart type σ = N(μ, σ) Si N(0,1) = Centrée réduite
Dans ce graphe: cloche, symétrique, médiane=moyenne
Estimation des paramètres à l’étude
- Connaît jamais vraie valeur de la pop = estimation à partir échantillon (inférence statistique)
- Existe toujours degré d’erreur sur estimation de valeur de notre échantillon (même avec moyenne, mode, médiane)
- MIEUX : utiliser estimation par intervalle pour préciser intervalle à l’intérieur duquel le paramètre de la population est susceptible de se trouver = Intervalles de confiance (IC)
Intervalles de confiance (IC)
- À partir de la distribution théorique de la courbe normale
- Gamme de valeurs dans laquelle devrait se trouver le paramètre de la population
- valeur du paramètre se situe entre les bornes inférieure et supérieure
- de l’IC
- Plus l’intervalle proposé est grand, plus on peut avoir la conviction que la vraie moyenne de la population se situe à l’intérieur de l’IC
- Niveau de confiance exprimé en pourcentage, soit des IC à 95 ou à 99%
𝜇 ± 𝜎 = 68,3% de la population
𝜇 ± 2𝜎 = 95,5% de la population
* Moyenne +/- 2 x STD est souvent utilisée pour identifier les données « hors-norme » (outliers)
𝜇 ± 3𝜎 = 99,7% de la population
IC= x ± (1,96) (écart-type)
Cote Z
Valeurs Z :
- Pour comparer des valeurs dans des distributions différente (suffisamment symétrique)
- Utilité : Pratique pour classer les individus au sein d’un groupe
- Ex : Classer athlètes selon batterie de tests lors de camps de sélection
Voir Équation!
Table Z
- Calcule cote Z avec l’équation
- Lire la table de la loi normale centrée réduite
* Si besoin de trouver X, alors X = σZ + μ
Voir exercices fin du document*
Hypothèse de recherche
H1
Basée sur cadre conceptuel (connaissances actuelles)
Postule sur l’existence de relations entre des variables (études corrélationnelles) ou de différences entre des groupes (études expérimentales)
Hypothèse nulle
Ho
Hypothèse contraire à l’hypothèse de recherche
Exemple H1 et H0
Ex : concernant la différence de sexe pour un ensemble de sauts en longueur :
Ex : concernant la différence de sexe pour un ensemble de sauts en longueur :
(H1) : Les hommes auront une meilleure distance de saut
(Ho) : Toute différence/longueur est due au hasard
Test d’hypothèse
Test d’hypothèse
- Procédure d’inférence statistique qui vise, par la réfutation de l’H0, à rendre l’H1 vraisemblable
- Seule l’hypothèse nulle fait l’objet d’une vérification statistique
Erreurs possibles hypothèses
Erreur de type I : Quand on rejette l’hypothèse nulle alors qu’elle est vraie
Erreur de type II : Quand on ne rejette pas (accepte) l’hypothèse nulle alors qu’elle est fausse