Cours 2 Flashcards
Quelles sont les trois techniques d’organisation et de synthétisation des données ?
Tableaux (de fréquence)
Représentations graphiques
Numériques
Pourquoi travaille-t-on le plus souvent avec des statistiques descriptives et non des paramètres ?
Car on travaille le plus souvent avec des échantillons
Qu’est-ce qu’une série statistique ?
Liste des valeurs observées d’un caractère (d’une variable) dans un échantillon
Nb d’observations (de données ) = taille de la série
Par conviention, la variable est représentée par _________ et une observation spécifique par _______
une lettre majuscule
chiffre en indice
Comment procède-t-on à un dépouillement ?
Placer les valeurs en ordre croissant
Utiliser une méthode en bâtons (barrer après 4)
Qu’est-ce qu’une distribution de fréquences ? Quels en sont les avantages (3) ?
Tbleau où chaque valeur possible est représentée accompagnée de sa fréquence (ou effectif)
- synthétiser une masse de données
- identifier la fréquence de chaque valeur très rapidement
- possible à la fois pour les variables nominales (particulièrement pertinent), ordinales et intervalles (nb d’enfants)
Quand est-ce que la distribution de fréquences devient moins pertinente ?
Lorsque la variable continue possède beaucoup de valeurs possibles
Dinstinguez fréquence absolue (ou effectif) et relative
absolue : nb de fois qu’une valeur apparaît dans série (n =23)
relative : % de données prenant la valeur; on doit présenter toutes les catégories, niveaux (ex. 52,3% de femmes et 47,7% d’hommes)
Qu’est-ce que la fréquence cumullée ?
fc ou fc % : nb de données qui prennent une valeur inférieure ou égale
Quand on a une distribution de fréquences, qu’est-il important de rapporter (2)?
Le pourcentage valide (recaculé) et le nombre de valeurs manquantes
Ex. parmi ceux qui ont répondu, voici… mais X valeurs manquantes
Qu’est-ce qu’un groupement des valeurs en classes ? Quand est-ce surtout utile ?
Intervalles de nombres consécutifs, délimitées arbitrairement par des valeurs minimales et maximales
Pour variables quantitatives qui prennent un grand nombre de valeurs
Quelle mise en garde faites-vous par rapport au groupement en classes ?
Perte de précision de la variable continue: le faire seulement si demandé par un chercheur, un employeur ou un éditeur
Qu’est-ce que l’amplitude, les frontières et le centre (point milieu) d’une classe ?
Amplitude : différence entre frontières (min et max); doit tjrs être la même
Frontières: 2 nb entre lesquels sont comprises les valeurs rangées dans la classe
Centre : moyenne des limites inférieures et supérieures
Considère-t-on une variable groupée en classes comme étant continue ?
Si toutes les classes sont égales : variable continue
Dès qu’au moins une classe est ouverte ou d’amplitude inégale (valeurs aberrantes, ex une seule personne fait plus de 100 000$) : variable ordinale
Sur quoi repose le choix du type de graphique ?
Sur l’échelle de mesure de la variable
Quels graphiques peut-on prendre lorsqu’on a une variable nominale ou ordinale ?
Diagramme en bâtons
Diagramme en secteurs
Quels graphiques peut-on prendre lorsqu’on a une variable intervalle / rapport ?
Histogramme
Diagramme en tiges et feuilles
Boîtes et moustaches
Le diagramme en bâtons est la représentation graphique de…
la distribution de fréquences
Qu’est-ce qui se trouve sur l’axe de abscisses et des ordonnées pour un diagramme en bâtons ?
Abscisses: valeurs possibles de la série (niveaux / modalités pour variable nominale) qui peuvent être présentées en ordre ascendant (classes ou rangs d’une variable ordinale)
Ordonnées: la hauteur du bâton correspond à la fréquence absolue (n) ou relative (%) de la valeur
* Indiquer la fréquence associée à chaque bâton
Quel est l’avantage du diagramme en secteurs ? Quand devrait-on se garder de l’utiliser ?
Présente un portrait rapide des fréquences (relatives ou absolues) d’une variable nominale ou ordinale
Affiches / Posters
Ne pas l’utiliser si moins de 3 valeurs ou plus de 8-10
Qu’est-ce qu’un histogramme ?
Visualisation d’une série de valeurs groupées en classes (1er choix pour une variable continue)
Qu’est-ce qui se trouve sur l’axe des abscisses et des ordonnées sur un histogramme ?
Abscisse: frontières des classes ; inscrire les frontières ou les centres
Ordonnées : rectangle dont la hauteur représente la fréquence (absolue ou relative) de chaque classe (PAS d’espace entre les rectangles)
* Indiquer la fréquence sur les rectangles
Le diagramme en tiges et feuilles permet de pallier aux limites de ___________ et de ______________
Expliquez
l’histogramme
la distribution de fréquences
- Histogramme masque différences à l’intérieur des classes (pas assez de détails)
- Distribution de fréquence ne résume pas assez l’info ( trop de détails)
DONC réorganise les données brutes
Qu’est-ce qui se trouve sur l’axe vertical et horizontal du diagramme en tiges et feuilles ?
Vertical (tige): chiffres principaux (unités); doivent avoir la même largeur
Horizontal (feuilles): chiffres secondaires (décimales)
Chaque feuilles est un chiffre qui représente ________
Les ___________ sont indiquées pour chaque tige
Permet d’avoir une idée rapide de la __________________ si on regarde sur le côté
une seule observation
fréquences
distribution
Vrai ou faux ? On ne fait jamais l’asymétrie et l’applatissement pour les variables nominales et continues
Faux : on ne fait jamais l’asymétrie et l’applatissement pour les variables nominales et ordinales (seulement pour les continues)
Qui suis-je ?
L’histogramme s’étale vers la gauche (majorité des réponses à droite)
Asymétrie négative (valeur de l’indice est -)
Qui suis-je ?
L’histogramme s’étale vers la droite (majorité des réponses à gauche)
Asymétrie positive (valeur de l’indice est +)
Qu’est-ce que l’applatissement ?
Concentration relative des scores au centre de la distribution, dans les extrémités et aux épaules (entre le centre et les extrémités)
Quel est l’applatissement désiré ?
Mésocurtique (indice = 0)
Qui suis-je ?
Distribution plus large et aplatie (épaules larges)
Platycurtique (valeur de l’indice -)
Qui suis-je ?
Distribution plus pointue (pas d’épaules)
Leptocurtique (valeur de l’indice +)
Quelles sont les différentes mesures de tendance centrale ?
moyenne, médiane, mode
Sur quels types de variables ne devrait-on jamais calculer la moyenne ?
ordinale + nominale
Quelle est la limite de la moyenne ?
Il est important d’interpréter la moyenne en fonction de _______
sensible aux valeurs extrêmes
l’échelle de mesure
Qu’est-ce qu’une médiane et sur quels types de variables se calcule-t-elle ?
Nombre qui partage la série en deux parties contenant chacune 50% des observations
Ordinales + continues
Quelles sont les étapes pour calculer la médiane ?
- Placer en ordre croissant
- Vérifier si pair / impair
- Trouver médiane: position = (N + 1) / 2
* si nombre impair: médiane = valeur centrale
* si nombre pair : médiane == moyenne des deux valeurs centrales
Quand le mode est-il surtout pertinent ?
Pour les variables nominales et ordinales
Comment appelle-t-on une distribution avec
un mode
2 modes
plus de 2 modes
unimodale
bimodale
plurimodale