Statistiques descriptives et inférentielles Flashcards
Le but de toutes les statistiques descriptives est de
décrire, de façon condensée (parfois un seul nombre), un ensemble de données
… la valeur des scores individuels d’un échantillon
on veut rarement savoir
les stats descriptives impliquent l’idée de
communication : On s’intéresse à des moyens standardisés de transmettre l’information
Rôle du tableau
condense l’info en colonnes et rangées
Première rangée identifie
le contenu des colonnes
première colonne identifie
le contenu des rangées (optionnel)
Important pour les tableaux (5)
Numéros séquentiels (Tableau 1, 2, 3…)
Titre bref et clair
Numéro et titre au dessus, centré, lignes séparées
Seulement trois lignes horizontales(*)
Aucune ligne verticale
tableau de distribution d’effectifs simple est idéal pour
variables nominales
ordre des rangées dans un tableau de distribution d’effectifs simple
choix perso
consignes distribution d’effectifs regroupés
- chaque score est associé à
- le nombre d’intervalles doit
- à utiliser avec des variables ___ ou ___
- intervalles de taille ______
- intervalles __________ aux ________ si besoin
- un (et un seul) intervalle de classe
- condenser l’info sans masquer des détails importants (tension économie-détail)
- intervallerapports
- constante
- ouverts aux extrémités si besoin
distribution cumulative d’effectifs regroupés
La fréquence rapportée est celle de l’intervalle de classe courant PLUS celle(s) de l’(des) intervalle(s) précédent(s)
distribution relative d’effectifs regroupés
La fréquence rapportée est non pas absolue (i.e., le nombre de scores de la classe) mais relative (i.e., la proportion de scores dans la classe rapportée)
Maximum et minimum dans une proportion
1 et 0
une proportion est
un nombre de choses particulières divisé par le nombre total de choses incluant les choses particulières (e.g., nombre d’hommes divisé par nombre de personnes = proportion d’hommes)
Vous décidez comment organiser vos données
Mais toujours avec le but de
résumer / simplifier l’information
données qualitatives : Puisque les scores se distinguent en fonction de leur essence, ils ne peuvent pas (2)
Ils ne peuvent se toucher lorsque représentés le long d’une dimension Ne peuvent pas être liés par des lignes ou autres connecteurs
données qualitatives : les scores se distinguent en fonction de leur …
essence
vrai ou faux
il y a une manière logique d’ordonner des variables quantitatives sur un continuum
faux
vrai ou faux
Il n’y a pas de manière logique d’ordonner des variables qualitatives sur un continuum
vrai
Il n’y a pas de manière logique d’ordonner des variables qualitatives sur un continuum (tel l’abscisse d’une figure)
On les met,
au choix, en ordre alphabétique, en ordre d’effectifs, en ordre selon les choix de réponse…
À noter sur le graphique à bâtons : (3)
*Pas de cadre autour du graphique (les seules lignes sont celles identifiant les axes)
*Pas de contact entre les bâtons
*Légende à texte aligné à gauche sous le graphique, débutant par Figure #. où # est séquentiel
Avec des mesures à intervalles ou à rapports, on n’utilise pas les graphiques
à bâtons ou secteurs, à moins de transformer les scores en mesures nominales ou ordinales
Avec des mesures à intervalles ou à rapports, on n’utilise pas les graphiques à bâtons ou secteurs, mais plutôt
des polygones de fréquences ou des histogrammes
Caractéristiques des polygones de fréquences
Il y a un point dans l’espace 2D pour chaque intervalle de classe
- Le point est positionné au dessus du centre de l’intervalle le long de l’abscisse : Les étiquettes doivent référer à cette valeur centrale
- La fréquence de l’intervalle de classe est représenté par la position du point selon l’ordonnée - Généralement un intervalle vide à chaque bout (pas d’intervalle ouvert)
Des lignes joignent les points voisins
Histogramme
Très semblable aux polygones
Plutôt qu’un point, une barre horizontale est placée à la hauteur adéquate au-dessus de chaque intervalle de classe
La largeur de la barre correspond à la largeur de l’intervalle
Des lignes verticales (une de chaque côté) joignent la barre à l’abscisse
Graphiques à bâtons pour groupes
Utiles pour illustrer la relation entre variables indépendantes et dépendantes
E.g., score d’anxiété moyen (VD) par sexe et technique de relaxation (VIs) Par convention, VDs représentées par axe y, VIs le long de l’axe des x
Graphiques à dispersion
Représentent le score sur deux variables pour chaque membre de l’échantillon
Une variable est assignée à x, l’autre à y Pour chaque participant, un point représente son score sur les deux variables
Par mesure ou tendance centrale, on réfère à
un nombre qu’on prétend typique ou représentatif d’un ensemble de scores
Mode
Le mode est le score qu’on observe le plus souvent
Votre meilleure prédiction pour une personne inconnue si vous ne savez rien d’autre
- Une distribution peut avoir deux modes ou plus, en quel cas, on dit qu’elle est bimodale ou multimodale, respectivement
- Pas approprié pour des intervalles de classe : le score modal n’est pas nécessairement dans l’intervalle modal
Mode et intervalles de classe
Pas approprié pour des intervalles de classe : le score modal n’est pas nécessairement dans l’intervalle modal
Une distribution peut avoir deux modes ou plus En quel cas, on dit qu’elle est
bimodale ou multimodale, respectivement
Médiane
La médiane est le score au milieu d’une distribution ordonnée
La moitié des scores en dessous, la moitié au dessus
Quoiqu’une proportion de scores peuvent être égaux à la médiane
Pour calculer:
Mettre les scores en ordre de grandeur Calculer (n + 1) / 2
Si le résultat est un nombre entier, il vous donne la position de la médiane Si le résultat est une fraction (e.g., 19.5), il vous dit entre quels scores trouver la médiane (i.e., les 19 e et 20 e scores)
Si ces deux scores diffèrent, on prend leur moyenne
Pas approprié pour des intervalles de classe
L’intervalle médian ne crée pas nécessairement deux moitiés égales
Pour calculer la médiane
Mettre les scores en ordre de grandeur Calculer (n + 1) / 2
Si le résultat est un nombre entier, il vous donne la position de la médiane Si le résultat est une fraction (e.g., 19.5), il vous dit entre quels scores trouver la médiane (i.e., les 19 e et 20 e scores)
Si ces deux scores diffèrent, on prend leur moyenne
Médiane et intervalles de classe
Pas approprié pour des intervalles de classe
L’intervalle médian ne crée pas nécessairement deux moitiés égales
Moyenne
La moyenne est la somme de tous les scores, divisée par le nombre de scores. Elle a des propriétés importantes
La somme des déviations est égale à zéro Minimise les déviations carrées
Comparé aux autres mesures centrales
Représente la quantité que tout le monde aurait si la caractéristique était distribuée équitablement Changer un score change la moyenne
Le même changement pourrait laisser le mode et/ou la médiane inchangés
Degrés de liberté illustrés
moyenne : La somme des déviations est égale à
zéro
moyenne : … est égale à zéro
La somme des déviations
la moyenne minimise
les déviations carrées comparé aux autres mesures centrales
Changer un score a quelle influence sur les 3 tendances centrales
change la moyenne mais les 2 autres pourraient rester inchangés
Quelle tendance choisir pour données nominales
mode
Autre échelles: dépend!
Plus représentatif?
mode
Milieu?
médiane
Sensibilité à tous les scores?
moyenne
… peu utiles avec distribution bimodale
moyenne et médiane
… peu utiles avec distribution bimodale
mode et médiane
Pourquoi la dispersion?
Puisque les scores varient, combien représentative est une mesure de tendance centrale?
Connaître l’étendue des données est un élément d’information important
La dispersion est une mesure de la variabilité entre les scores
L’étendue
distance entre le score le plus élevé et le score le plus bas
Problèmes avec l’étendue
Basée sur seulement deux mesures
Et pas n’importe lesquelles: les plus extrêmes!
Augmente avec la taille de l’échantillon
De nouveaux scores ne feront jamais réduire l’étendue
Par contre, un nouveau score qui change le minimum ou le maximum augmente l’étendue
Étendue interquartile
Corrige certains problèmes de l’étendue
Utilise les 25 e et 75 e centiles pour son calcul
Peu sensible aux scores extrêmes
Plus stable en fonction de la taille de l’échantillon
Devrait diminuer quand l’échantillon grossit si la variable a une distribution “normale” dans la population
Rarement utilisée, sauf dans les graphiques boîte-etmoustaches
Permettent d’identifier visuellement les valeurs aberrantes / extrêmes
L’écart-type
L’écart-type (s dans la population, s dans un échantillon) est la racine carrée de la déviation carrée moyenne
Les formules diffèrent pour population et échantillon
Variance
Un indicateur de dispersion très commun, utilisé dans une variété de procédures (non la moindre: analyse de la variance)
Est le carré de l’écart-type
apprendre symboles