Cours 11 Flashcards
Quel est le but des statistiques descriptives?
- Le but de toutes les statistiques descriptives est de décrire, de façon condensée (parfois un seul nombre), un ensemble de données
- On veut rarement savoir la valeur des scores individuels d’un échantillon
- Implique l’idée de communication
- On s’intéresse à des moyens standardisés de transmettre l’information
Qu’est-ce que des tableaux?
- Condensent l’information en colonnes et rangées
- La première rangée identifie le contenu des colonnes
- La première colonne identifie le contenu des rangées
Quels sont les points importants à respecter lors de la construction d’un tableau?
- Numéros séquentiels (Tableau 1, 2, 3…)
- Titre bref et clair
- Numéro et titre au dessus, centré, lignes séparées
- Seulement trois lignes horizontales(*)
- Aucune ligne verticale
Qu’est-ce qu’un tableau de distribution d’effectifs simples?
- Chaque score avec sa fréquence d’effectifs
- Score sans effectif peut être omis
- Idéal pour variables nominales
- Ordre des rangées = choix personnel
Qu’est-ce qu’une distribution d’effectifs regroupés?
- Chaque score est associé à un (et un seul) intervalle de classe
- Le nombre d’intervalle doit condenser l’info sans masquer des détails importants (tension économie-détail)
*À utiliser avec variables intervalle-rapports
- Intervalles de taille constante
- Intervalles ouverts aux extrémités si besoin
Qu’est-ce qu’une distribution cumulative d’effectifs regroupés?
La fréquence rapportée est celle de l’intervalle de classe courant PLUS celle(s) de l’(des) intervalle(s) précédent(s)
Qu’est-ce qu’une distribution relative d’effectifs regroupés?
La fréquence rapportée est non pas absolue (i.e., le nombre de scores de la classe) mais relative (i.e., la proportion de scores dans la classe rapportée)
Rappel: une proportion est un nombre de choses particulières divisé par le nombre total de choses incluant les choses particulières (e.g., nombre d’hommes divisé par nombre de personnes = proportion d’hommes)
- Minimum: 0.0
- Maximum: 1.0
Comment représenter des données qualitatives?
- Il n’y a pas de manière logique d’ordonner des variables qualitatives sur un continuum (tel l’abscisse d’une figure)
- On les met, au choix, en ordre alphabétique, en ordre d’effectifs, en ordre selon les choix de réponse…
- Puisque les scores se distinguent en fonction de leur essence
- Ils ne peuvent se toucher lorsque représentés le long d’une dimension
- Ne peuvent pas être liés par des lignes ou autres connecteurs
DONC :
* Graphique à bâtons
* Graphique à secteurs (pointes de tartes) –> rare en psychologie
Comment représenter des données quantitatives?
- Avec des mesures à intervalles ou à rapports, on n’utilise pas les graphiques à bâtons ou secteurs
- À moins de transformer les scores en mesures nominales or ordinales
- E.g., taille en format “petit, moyen, et grand”
- À moins de transformer les scores en mesures nominales or ordinales
- On utilise plutôt des polygones de fréquences ou des histogrammes
Que sont les polygones de fréquences?
- Il y a un point dans l’espace 2D pour chaque intervalle de classe (ou rang)
-Le point est positionné au dessus du centre de l’intervalle le
long de l’abscisse- Les étiquettes doivent référer à cette valeur médiane
- La fréquence de l’intervalle de classe est représenté par la position du point selon l’ordonnée
- Généralement un intervalle vide à chaque bout (pas d’intervalle ouvert)
- Des lignes joignent les points voisins
Qu’est-ce qu’un histogramme?
- Très semblable aux polygones
- Plutôt qu’un point, une barre horizontale est placée à la hauteur adéquate au-dessus de chaque intervalle de classe
- La largeur de la barre correspond à la largeur de l’intervalle
- Des lignes verticales (une de chaque côté) joignent la barre à l’abscisse
- Plutôt qu’un point, une barre horizontale est placée à la hauteur adéquate au-dessus de chaque intervalle de classe
Qu’est-ce qu’un graphique à bâtons pour groupes?
- Utiles pour illustrer la relation entre variables indépendantes et dépendantes
- E.g., score d’anxiété moyen (VD) par sexe et technique de relaxation (VIs)
- Par convention, VDs représentées par axe y, VIs le long de l’axe des x
Qu’est-ce qu’un graphique à dispersion?
- Représentent le score sur deux variables pour chaque membre de l’échantillon
- Une variable est assignée à x, l’autre à y
- Pour chaque participant, un point représente son score sur les deux variables
Qu’est-ce qu’une mesure centrale?
- Par mesure ou tendance centrale, on réfère à un nombre qu’on prétend typique ou représentatif d’un ensemble de scores
- Les trois mesures plus communes en psychologie
- Mode
- Médiane
- Moyenne
Qu’est-ce que le mode?
- Le mode est le score qu’on observe le plus souvent
- E.g., 2 3 5 3 5 3 2 2 3 3 3 5 3 2
- Le chiffre le plus fréquent est 3, donc le mode est 3
- Et non 7, qui est la fréquence de 3 dans l’exemple
- Le chiffre le plus fréquent est 3, donc le mode est 3
- Votre meilleure prédiction pour une personne inconnue si vous ne savez rien d’autre
- E.g., 2 3 5 3 5 3 2 2 3 3 3 5 3 2
- Une distribution peut avoir deux modes ou plus
- En quel cas, on dit qu’elle est bimodale ou multimodale, respectivement
- Pas approprié pour des intervalles de classe
- Le score modal n’est pas nécessairement dans l’intervalle modal
Qu’est-ce que la médiane?
- La médiane est le score au milieu d’une distribution ordonnée
- Synonyme de 50e centile
- La moitié des scores en dessous, la moitié au dessus
- Quoiqu’une proportion de scores peuvent être égaux à la médiane
- La moitié des scores en dessous, la moitié au dessus
- Synonyme de 50e centile
- Pour calculer:
- Mettre les scores en ordre de grandeur
- Calculer (n + 1) / 2
- Si le résultat est un nombre entier, il vous donne la position de la médiane
- Si le résultat est une fraction (e.g., 19.5), il vous dit entre quels scores trouver la médiane (i.e., les 19e et 20e scores)
- Si ces deux scores diffèrent, on prend leur moyenne
- Pas approprié pour des intervalles de classe
- L’intervalle médian ne crée pas nécessairement deux moitiés égales
Qu’est-ce que la moyenne?
- La moyenne est la somme de tous les scores, divisée par le nombre de scores. Elle a des propriétés importantes
- La somme des déviations est égale à zéro (vrai seulement pour la moyenne)
- Minimise les déviations carrées
- Comparé aux autres mesures centrales
- Représente la quantité que tout le monde aurait si la caractéristique était distribuée équitablement
- Changer un score change la moyenne
- Le même changement pourrait laisser le mode et/ou la médiane inchangés
À quel moment devons-nous choisir quelle mesure centrale?
Dans une distribution normale, la moyenne, la médiane et le mode sont identiques. Mais quelle choisir?
- Données nominales: mode (autres ne font pas de sens)
- Autre échelles: dépend!
- Plus représentatif? Mode
- Milieu? Médiane
- Sensibilité à tous les scores? Moyenne
- Forme de la distribution
- La moyenne et la médiane peu utiles avec distribution bimodale
- Mode et médiane plus représentatives avec données biaisées
Pourquoi y a-t-il de la dispersion?
- Puisque les scores varient, combien représentative est une mesure de tendance centrale?
- Connaître l’étendue des données est un élément d’information important
- La dispersion est une mesure de la variabilité entre les scores
Qu’est-ce que l’étendue?
- L’étendue est la distance entre le score le plus élevé et le score le plus bas
- Étendue = maximum – minimum
- Facile à calculer et comprendre
- Exemple:
- Les QIs de l’échantillon vont de 103 à 138
- L’étendue des QI est de 35 points
- Les QIs de l’échantillon vont de 103 à 138
Quels sont les problèmes avec l’étendue?
- Basée sur seulement deux mesures
- Et pas n’importe lesquelles: les plus extrêmes!
- Augmente avec la taille de l’échantillon
- De nouveaux scores ne feront jamais réduire l’étendue
- Par contre, un nouveau score qui change le minimum ou le maximum augmente l’étendue
- De nouveaux scores ne feront jamais réduire l’étendue
Qu’est-ce que l’étendue interquartile?
- Corrige certains problèmes de l’étendue
- Utilise les 25e et 75e centiles pour son calcul
- En d’autres mots, les 50% de scores du milieu servent à évaluer l’étendue interquartile
- Peu sensible aux scores extrêmes
- Plus stable en fonction de la taille de l’échantillon
- Devrait diminuer quand l’échantillon grossit si la variable à une distribution “normale” dans la population
- En d’autres mots, les 50% de scores du milieu servent à évaluer l’étendue interquartile
- Utilise les 25e et 75e centiles pour son calcul
- Rarement utilisée, sauf dans les graphiques boîte-et-moustaches
- Permettent d’identifier visuellement les valeurs aberrantes / extrêmes
Comment se construit un graphique boîte-et-moustaches?
- Les valeurs aberrantes sont représentées comme des points en dehors de la figure
- Les moustaches représentent 1.5x l’étendue interquartile
- L’étendue interquartile représente la boîte
- La ligne dans la boîte représente la médiane.
Qu’est-ce que l’écart-type?
- L’écart-type (s dans la population, s dans un échantillon) est la racine carrée de la déviation carrée moyenne
- Les formules diffèrent pour population et échantillon
Qu’est-ce que l’écart-type dans la population?
VOIR DIAPO 47
- La formule définissant l’écart-type rend compte clairement de ce qui se passe:
- En pratique, à la main, très longue à utiliser. On préférera
Qu’est-ce que l’écart-type dans les échantillons?
VOIR LA DIAPO 48
- La formule qui définit:
- La version affreuse mais hautement plus utilisable pour le calcul à la main:
Qu’est-ce que la variance?
- Un indicateur de dispersion très commun, utilisé dans une variété de procédures (non la moindre: analyse de la variance)
- Est le carré de l’écart-type
- Enlevez le symbole de racine carrée des formules précédentes et vous avez les formules de variance pour population et échantillons
- Les symboles pour population et échantillon sont o2
et s2 ,respectivement
- Les symboles pour population et échantillon sont o2
- Enlevez le symbole de racine carrée des formules précédentes et vous avez les formules de variance pour population et échantillons
Pourquoi utiliser des statistiques inférentielles?
- Méthodes qui vous permettent d’évaluer la probabilité que ce que vous observez dans votre échantillon est vrai dans la population
- Testent l’hypothèse nulle H0 et vous donnent la probabilité qu’elle soit vraie selon vos résultats
- Règle générale: on rejette H0 si sa probabilité est inférieure à 0.05 (soit 5% ou, comme les sondages aiment rapporter, 1 fois sur 20)
- Testent l’hypothèse nulle H0 et vous donnent la probabilité qu’elle soit vraie selon vos résultats
- Ce cours ne revient pas sur les analyses que vous devriez connaître (voire maitriser)
- Vous rappelle quel test fait quoi et, en premier lieu, lequel choisir
Comment répondre à la question : « mais quel test utiliser? » ?
- La question “mais quel test utiliser?” est toujours solutionnée par deux simple contraintes
- La nature des scores (nominal, ordinal…)
- Ce qu’on veut savoir des données (différence ou relation…) en lien avec le plan de recherche
- L’ouvrier compétant à qui on donne des clous va chercher son marteau
- Pas un scie ronde ou, pire, un stencil!
- L’étudiant-e en psychologie bien éduqué-e à qui on donne des mesures à rapports de groupes contrôle et expérimental va choisir le bon test t dans le menu SPSS
- L’étudiant-e super bien éduqué-e va commencer par regarder la forme de la distribution pour s’assurer qu’un test non paramétrique n’est pas plus indiqué