Cours 10 - Analyses statistiques Flashcards
Objectifs de l’analyse de données
-Identifier les principales caractéristiques
-Vérifier des liens
-Élaborer un sens
Statistiques descriptives/exploratoires
-Description des caractéristiques de l’échantillon
-Vérification de la validité et de la fiabilité des données
Statistiques inférentielles
-Démonstration d’un résultat général à partir d’un échantillon
-Fixer une hypothèse et déterminer si elle s’accorde avec les faits
-Niveau explicatif
Analyses descriptives (deux mesures)
-Mesures de tendance centrale
-Mesures de dispersion
Mesures de tendance centrale
-Moyenne
-Médiane
-Mode
Mesures de dispersion
-Étendue
-Variance
-Écart-type
-Erreur type
Moyenne
-La plus courante
-Valeur moyenne de toutes les données de l’ensemble
-Influencée par les valeurs extrêmes
-Choisir si on a une distribution unimodale avec des données continues symétriques ou des données ordinales
Médiane
-Observation du milieu (valeur qui se trouve après 50% des observations)
-Choisir si on a une distribution unimodale avec des données continues asymétriques ou des données nominales
Mode
-Valeur observée la plus souvent (aucun ou plusieurs = possible)
-Choisir si on a une distribution multimodale
Étendue
-Différence entre la plus grande et la plus petite des valeurs
Variance et écart-type
-Distance moyenne qui existe entre les observations et la moyenne (variance = au carré, écart-type = racine de la variance)
-Plus la valeur de l’écart-type est petit, plus l’échantillon est homogène
Visualisation des données
-Tableaux (des fréquences, de contingence, etc)
-Graphiques (box-plot, diagramme en bâtons (variable quantitative discrète ou catégorielle), histogrammes (variable quantitative continue), diagrammes en secteurs, etc)
Symétrie
-Courbe symétrique : mode = médiane = moyenne
-Courbe asymétrique à droite (positive) : mode < médiane < moyenne
-Courbe asymétrique à gauche (négative) : mode > médiane > moyenne
Aplatissement
-Leptocurtique (kurtosis positif)
-Mésocurtique (kurtosis nul) = normal
-Platycurtique (kurtosis négatif)
But de la statistique inférentielle
-Estimer les paramètres de la population (inconnus) en utilisant les statistiques de l’échantillon (connues)
-Rejeter l’hypothèse nulle