cours 10 : introduction aux analyses statistiques Flashcards
Pourquoi des statistiques en psychologie ?
- Pour répondre à nos questions de recherche.
- Permettent de résumer les données.
- Les méthodes statistiques sont nécessaires afin d’assurer que les relations que l’on observe sont significatives et non seulement dues à la chance.
- Permettent de mettre à l’épreuve nos préjugées, nos croyances
Particularités de la psychologie comme domaine de recherche :
- Les sujets qui intéressent les psychologues (états et processus mentaux) peuvent être difficile a observés et mesurés directement .
- Les humains sont complexes et diffèrent des uns des autres de façon arbitraire.
analyse de données : données qualitatives :
données textuelles, non-structurés provenant de questions ouvertes,
analyse du contenu etc.
analyse de données : données quantitatives :
donnée provenant d’indicateurs nominaux, ordinaux et numériques,
analyse statistique
l’objectif de l’analyse de données :
- identifications des principales caractéristiques
- vérification de liens
- élaboration de sens
- synthèse et généralisation
C’est quoi l’objectif des statistiques descriptives ou exploratoires:
- Décrire les caractéristiques de l’échantillon
- Permettent de procéder à des réductions statistiques faciles à interpréter (p.ex., valeurs centrales, valeurs
de dispersion, histogrammes). - Vérifier la validité et la fiabilité des données
- Valider des mesures (p.ex., alpha de cronbach, fidélité test-retest, analyse factorielle).
Quels sont les objectifs des statistiques inférentielles :
- Permettent de «démontrer» un résultat général à partir d’un échantillon. Dans cette démarche, le statisticien se fixe une hypothèse et détermine ensuite si celle-ci s’accorde avec les faits (c.-à-d., tests d’hypothèses; p.ex., tests du khi2, test t).
- Niveau explicatif: Explorer et vérifier des liens
vrai ou faux : Dans la plupart des études, le nombre de sujets est trop important pour que l’on puisse présenter les données réelles de chaque individu. C’est pourquoi, il est nécessaire de trouver un moyen qui donne le maximum d’informations possible sous le format le plus utile.
vrai
Deux mesures sont indispensables pour décrire une variable quantitative :
la mesure de la position centrale des observations et la mesure de leur dispersion
Quels sont les mesures de tendance centrale
Moyenne
Médiane
Mode
Que est la valeur typique:
« comment les individus sont-ils similaires »
mesure de tendance centrale
Quels sont les mesures de dispersion ?
Étendue
Variance et écart type
Erreur type
Le taux de dispersion autour de la valeur typique: « comment les individus diffèrent- ils »
mesure de dispersion
description de la moyenne :
- Mesure de tendance centrale la plus courante
- La moyenne est la valeur moyenne de toutes les données incluses dans l’ensemble.
Moyenne = Somme de toutes les valeurs d’observation ÷ nombre d’observations
VOIR FORMULE
Description de la médiane :
La médiane correspond à l’observation du milieu; la valeur de part et d’autre de laquelle se situe 50% des observations.
Médiane = la valeur intermédiaire d’un ensemble de données une fois les données ordonnées par valeur (en ordre croissant ou décroissant)
la médiane : Si n est impair
Médiane = nbr situé à la position médiane
VOIR FORMULE
la médiane : Si n est pair
Médiane = moyenne des deux nbr adjacents à la position médiane
VOIR FORMULE
description du mode :
- Le mode est la valeur la plus souvent observée dans un ensemble de données.
- Possible qu’il n’y ait aucun mode si aucune des observations n’y apparaît plus qu’une autre.
- Possible qu’il y ait dans le même ensemble deux (bimodal), trois (trimodal) ou quatre modes ou plus (multimodal).
Quelle mesure de tendance centrale choisir
distribution bimodale ou multimodale : mode
distribution unimodale avec donnée continue symétrique : moyenne
distribution unimodale avec des données asymétriques : médiane
distribution unimodale avec des données ordinale : médiane
distribution unimodale avec des données nominales : mode
la définition et l’utilité des mesures de dispersion
Définition: l’indice de dispersion indique la manière dont les individus du groupe se répartissent autour de l’indice de tendance centrale
Utilité: permets de tenir compte de l’ampleur des variations au sein d’un groupe, et éventuellement de comparer cet indice avec celui d’autres groupes
description de l’étendu :
L’étendue se définit comme étant la différence entre la plus grande et la plus petite des valeurs observées.
Étendue = Maximum - Minimum
description de la variance et de l’écart-type :
La variance et l’écart-type indiquent la distance moyenne qui existe entre les observations et la moyenne.
indique de combien d’unités chaque donnée s’écarte de façon type de la valeur de la moyenne
- La variance correspond à la moyenne arithmétique des carrés des écarts à la moyenne.
- L’écart-type correspond à la racine carrée de la variance.
- L’écart-type est l’indice de dispersion le plus utilisé dans le cas des échelles continues
VOIR FORMULE
VRAI OU FAUX : Plus la valeur de l’écart-type est grande, plus l’échantillon est homogène
La valeur de chaque individu ne doit pas être proche de la moyenne
faux et faux
types de tableaux :
Table des fréquences
Table de contingence
types de graphiques :
Box-plots
Diagramme en bâtons
Histogrammes
Diagramme en secteur
différence entre diagramme à bâtonnet et histogramme :
Diagramme en bâtonnets :
Variable quantitative discrète ou catégorielle (c.-à- d., aucune valeur intermédiaire possible)
Histogramme : Variable quantitative continue; les données sont réparties en classes.
VRAI OU FAUX : La moyenne est influencée par les valeurs extrêmes.
C’est pour ça que dans certains cas, elle ne reflète pas bien toute la réalité. Ainsi la médiane est plus fiable.
vrai
propriétés des distributions de fréquences : mode
distribution bimodale : 2 courbes
distribution inumodale : 1 courbe
symétrie : différence entre courbe symétrique et asymétrique gauche / droite
courbe symétrique : mode = médiane = moyenne
courbe asymétrique gauche : mode » médiane » moyenne
courbe asymétrique droite : mode « médiane « moyenne
aplatissement 3 :
Leptocurtique (kurtosis positif)
Mésocurtique (kurtosis nul) Normale
Platycurtique (kurtosis négatif)
Le but de la statistique inférentielle est :
d’estimer les paramètres de la population (inconnues) en utilisant les statistiques de l’échantillon (connues).
L’objectif de l’inférence statistique est :
de rejeter l’hypothèse nulle
étape de l’inférence statistique
- formulation d’hypothèse statistique
- identification du test statistique
- choisir un seuil de signification
- procéder aux analyses
- prendre une décision (rejet de H0 : H1 est vrai ou non rejet de H0 : H1 est faux)
Les hypothèses sont _____ _______ possibles et exclusives dérivées de la ______ ___ _______
deux réponses, question de recherche
H0 - L’hypothèse nulle
Cette hypothèse est formulée dans le but d’être rejetée. Elle consiste à dire qu’il n’y a pas de différence ou que la différence observée est due au hasard
Ha - L’hypothèse alternative
C’est l’hypothèse qu’on aimerait démontrer. Elle est équivalente à dire « H est fausse ». Son
acceptation est conditionnelle au rejet de l’hypothèse nulle.
VRAI OU FAUX : L’acceptation de l’hypothèse nulle n’est pas l’équivalent de dire « H0 est vraie et Ha est fausse » Toutefois, si l’hypothèse nulle est réfutée, la seule option est d’accepter l’hypothèse alternative!
vrai
hypothèse nulle : ____ à réfuter
hypothèse alternative : ____ à prouver
facile, difficile
VOIR TABLEAU DE DÉCISION
erreur a (type 1) : faux positif :
- Lorsque l’hypothèse nulle est rejetée alors qu’elle était vraie.
- L’erreur de type I est contrôlée par le chercheur
p.ex., si le chercheur choisi un seuil alpha de .05 il y a seulement 5% des chances qu’il rejette l’hypothèse nulle alors qu’elle était vraie.
- Le choix du seuil alpha ne doit jamais être automatique!
Ex. conclure qu’un traitement est efficace alors qu’il ne l’est pas
seuil de signification :
-Seuil de rejet ou seuil de signification de l’hypothèse H0
- Noté par la lettre α
- Les seuils de signification les plus utilisés sont α = 0,05 ou α = 0,01
erreur B (type 2) : faux négatif :
- Lorsque l’hypothèse nulle est acceptée alors qu’elle était fausse.
Ex. conclure qu’un traitement n’est pas efficace alors qu’il l’est. Le risque ‘acceptable’ de faire une erreur de type II est
souvent fixé à 0,20.
Comment contrôler l’erreur de type II?
- La meilleure façon est d’augmenter la puissance statistique d’un test.
Que signifie la puissance statistique :
La chance de pouvoir détecter un effet (p.ex., une différence) significatif à un seuil a donné; capacité du test à identifier une différence réelle.
Puissance = 1 – β (probabilité de faire une erreur de type II)
comment rendre un test plus puissant :
- La variance : Plus la variance (s2) est petite, plus la puissance augmente
- Le seuil alpha choisi : Moins le seuil est sévère (0.10 ou 0.05 au lieu de 0.01), plus la puissance augmente
La taille d’effet : Plus l’effet dans la population (d) est grand, plus la puissance augmente
La taille d’échantillon : Plus la taille du n est grande (avec seuil α, s2 et d constant) plus la puissance augmente
Relation entre α et β
- Plus α est petit plus il est difficile de rejeter H0
- Donc, plus on a de chance d’accepter H0 alors qu’elle est fausse et de faire une Erreur β
L’erreur de type I doit être ______ plus sérieusement que celle de type II, car dès qu’un résultat est trouvé → _______
L’erreur de type II est souvent moins ____, car si le chercheur a la conviction d’avoir raison → Peut _____ l’expérience avec un échantillon différent.
contrôlée, publiée, grave, refaire
comment déterminer le test statistique à employer :
- Nombre de variables dépendantes
- Types de variables dépendantes
- Nombre de variables indépendantes
- Types de variables indépendantes
- Si catégorielle, nombre de catégories?
- Si catégorielle, inter ou intra sujets?
- Les données respectent-elles les postulats des analyses paramétriques?
Ex: distribution normale?
VRAI OU FAUX :
Seul le multivarié permet de tenir compte des intercorrélations entre les VD
nombre de variables dépendantes : univarié ou mutlivarié
une VD avec un VI ou plus : univarié
Plusieurs VD avec une VI ou plus : mutlivairé
différence entre plan uni factoriel et factoriel :
- Plan unifactoriel = plan ne contenant qu’une VI (un seul facteur)
- Plan factoriel = plan contenant plusieurs VI (plusieurs facteurs)
- Permet l’estimation des effets principaux et des effets d’interactions
Nos deux types de variables :
Variable(s) dépendante(s) :
* Nominale(s) * Ordinale(s) * Continue(s)
Variables indépendantes
* Catégorielle(s) * Continue(s)
Si la variable est indépendante catégorielle, on peut utiliser quel plan :
- Plan à groupes indépendants = plan ne contenant que des VI intersujets
- Plan à mesures répétées = plan ne contenant que des VI intrasujets
- Plan combiné (mixte) = plan contenant à la fois au moins une VI inter
et une VI intra
VOIR PARTIE TEST STATISTIQUES
GO
la distribution :
- synthétise les données
- distribution des fréquences : regrouper les données en classe