Cours 10 - Analyses statistiques Flashcards
Objectifs de l’analyse de données
-Identifier les principales caractéristiques
-Vérifier des liens
-Élaborer un sens
Statistiques descriptives/exploratoires
-Description des caractéristiques de l’échantillon
-Vérification de la validité et de la fiabilité des données
Statistiques inférentielles
-Démonstration d’un résultat général à partir d’un échantillon
-Fixer une hypothèse et déterminer si elle s’accorde avec les faits
-Niveau explicatif
Analyses descriptives (deux mesures)
-Mesures de tendance centrale
-Mesures de dispersion
Mesures de tendance centrale
-Moyenne
-Médiane
-Mode
Mesures de dispersion
-Étendue
-Variance
-Écart-type
-Erreur type
Moyenne
-La plus courante
-Valeur moyenne de toutes les données de l’ensemble
-Influencée par les valeurs extrêmes
-Choisir si on a une distribution unimodale avec des données continues symétriques ou des données ordinales
Médiane
-Observation du milieu (valeur qui se trouve après 50% des observations)
-Choisir si on a une distribution unimodale avec des données continues asymétriques ou des données nominales
Mode
-Valeur observée la plus souvent (aucun ou plusieurs = possible)
-Choisir si on a une distribution multimodale
Étendue
-Différence entre la plus grande et la plus petite des valeurs
Variance et écart-type
-Distance moyenne qui existe entre les observations et la moyenne (variance = au carré, écart-type = racine de la variance)
-Plus la valeur de l’écart-type est petit, plus l’échantillon est homogène
Visualisation des données
-Tableaux (des fréquences, de contingence, etc)
-Graphiques (box-plot, diagramme en bâtons (variable quantitative discrète ou catégorielle), histogrammes (variable quantitative continue), diagrammes en secteurs, etc)
Symétrie
-Courbe symétrique : mode = médiane = moyenne
-Courbe asymétrique à droite (positive) : mode < médiane < moyenne
-Courbe asymétrique à gauche (négative) : mode > médiane > moyenne
Aplatissement
-Leptocurtique (kurtosis positif)
-Mésocurtique (kurtosis nul) = normal
-Platycurtique (kurtosis négatif)
But de la statistique inférentielle
-Estimer les paramètres de la population (inconnus) en utilisant les statistiques de l’échantillon (connues)
-Rejeter l’hypothèse nulle
Hypothèse nulle
-Formulée dans le but d’être rejetée
-Il n’y a pas de différence
Hypothèse alternative
-On veut la démontrer
-H0 est fausse
-Son acceptation est conditionnelle au rejet de l’hypothèse nulle
Marche à suivre inférence statistique (5 étapes)
-Formulation des hypothèses
-Identification du test statistique
-Choisir un seuil de signification
-Procéder aux analyses
-Prendre une décision
Erreur de type I (alpha)
-Hypothèse nulle rejetée alors qu’elle était vraie
-Contrôlée par le chercheur (exemple : choix d’un seuil alpha de .05, alors il y a seulement 5% de chance qu’il rejette l’H0 alors qu’elle est vraie)
-Le choix du seuil n’est pas automatique
Erreur de type II (beta)
-Hypothèse nulle acceptée alors qu’elle était fausse
-Le risque acceptable de commettre ce type d’erreur est souvent à 0.20
-La contrôler en augmentant la puissance statistique d’un test
Puissance statistique
-La chance de pouvoir détecter un effet significatif à un seuil alpha donné
-Capacité du test à identifier une différence réelle
-Puissance = 1 - beta
Comment rendre un test plus puissant?
-Variance plus petite
-Seuil alpha moins sévère
-Taille d’effet (d) plus grande
-Taille d’échantillon (n) plus grande
Plus alpha est petit, plus il est difficile de..?
-Rejeter l’hypothèse nulle
-Donc on a plus de chance d’accepter H0 alors qu’elle est fausse et de faire une erreur de type II
Erreurs de type I vs II
-L’erreur de type I doit être contrôlée
-L’erreur de type II est moins grave, car le chercheur peut refaire un test avec un autre échantillon
Facteurs à déterminer pour le choix du test statistique
-Nombre de VD
-Types de VD
-Nombre de VI
-Types de VI (+ nombres de catégories et intra ou intersujets)
-Respect des postulats des analyses paramétriques?
Nombre de VD
-Une seule : univarié
-Plusieurs : multivarié
Nombre de VI
-Une seule VI : unifactoriel
-Plusieurs VI : factoriel (permet l’estimation des effets principaux et des effets d’interaction)
Type de variables (statistiques)
-VD : Nominales, ordinales, continues
-VI : Catégorielles, continues
Si variables indépendantes catégorielles
-Plan à groupes indépendants : seulement VI intersujets
-Plan à mesures répétées : juste VI intrasujets
-Plan combiné : au moins une VI intra et une Vi inter