Description et exploration des données 1 Flashcards
Qu’est-ce qu’une distribution de fréquences?
-Tableau où figure chaque valeur d’une série stat. accompagnée de sa fréquence
(Combien de personnes ont eu CETTE valeur?)
-Possible pour variables nominales, ordinales et continues
Pourquoi est-il parfois moins pertinent d’avoir une distribution de fréquence pour les variables continues?
Parfois il y a trop de valeurs, donc peu de fréquence
Qu’est-ce que la fréquence absolue/effectif?
C’est le nombre de fois qu’une valeur numérique apparaît dans une série
Quelle est la différence entre “n” et “N”?
n: une partie de l’échantillon
N: l’échantillon total
Qu’est-ce qu’une fréquence relative?
- Pourcentage des données qui prennent cette valeur
- Permet de comparer les résultats = présenter toutes les catégories
*Rapporté dans le texte ou entre parenthèses
Que faut-il mettre devant un “%”?
Un espace insécable!
Qu’est-ce que la fréquence cumulée (fc) ou cumulée en pourcentage (fc %)?
Nombre de données qui prennent une valeur inférieure ou égale à cette valeur
**Important de rapporter le pourcentage valide (exclure données manquantes) ET indiquer valeurs manquantes
Quels sont les types de fréquences possibles?
- Fréquence absolue
- Fréquence relative
- Fréquence cumulée
En quoi consiste le groupement des valeurs en classe?
- Intervalles de nombres consécutifs délimitées par valeurs min et max
- Utile pour variables quantitatives ayant un grand nombre de valeurs (ex: âge)
Pourquoi devons-nous uniquement faire des groupements de valeurs en classes avec une variable continue si c’est demandé par un chercheur?
Parce qu’il y aune perte de précision de cette variable
Quelles sont les différentes composantes du groupement des valeurs en classe?
Amplitude: Différence entre sup. et inf. (max - min)
Frontières: 2 nombres au bout d’une classe
Centre (point milieu): Moyenne des limites inférieures et supérieures
Quelle est l’échelle de mesure si les classes regroupées sont toutes égales?
Variable continue
**Dès qu’au moins un classe est ouverte ou d’amplitude inégale: valeur ordinale
Dans quels cas observons-nous des classes inégales?
- Si il y a des valeurs extrêmes/aberrantes
- Frontière ouverte: juste 1 spécifiée (ex: moins de 18 ans)
Vrai ou faux: les graphiques sont essentiels dans les articles scientifiques?
Faux, ils sont plus rares. Utilisés davantage pour la vulgarisation
Sur quoi repose le choix d’un type de graphique?
Sur l’échelle de mesure!
Quels graphiques utilisons-nous pour les variables nominales ou ordinales?
Contiennent peu de valeurs!
- Diagramme en bâtons
- Diagramme en secteurs (tarte)
Quels graphiques utilisons-nous pour les variables continues?
- Histogramme
- Diagramme en tiges et feuilles
- Boîtes et moustaches
En quoi consiste le diagramme à bâtons?
Axe horizontal/abscisse: Valeurs nominales (niveaux) ou ordinales (classes/rangs)
Axe vertical/ordonnée: Fréquence absolue ou relative
*Indiquer fréquence à chaque bâton
En quoi consiste le diagramme en secteurs?
- Portrait rapide des fréquences relatives (ou absolues)
- Plus pour affiches scientifiques
- Moins pertinent si trop (+ 10) ou si dichotomique
En quoi consiste l’histogramme?
Axe horizontal/abscisse: Représente frontières des classes (écrire frontières ou centres de classes)
Axe horizontal/ordonnées: Fréquence relative ou absolue (indiquer sur rectangle)
**Pas d’espace entre rectangles
En quoi consiste le diagramme en tiges et feuilles?
Tige (vertical): chiffres principaux (dizaine, unité) + avoir même largeur
Feuille (horizontal): chiffres secondaires (décimales)
**Permet d’avoir une idée rapide de la courbe (regarder côté)
Quelles sont les limites auxquelles le diagramme à tiges et feuilles permet de pallier?
- Histo. masque différences à l’intérieur des classes (pas assez détaillé mais avec feuilles oui)
- Distribution de fréquence ne résume pas assez (trop de détail)
- Réorganise données brutes
Quels sont les deux types d’asymétrie?
Asymétrie négative: s’étend vers la gauche (-)
Asymétrie positive: s’étend vers la droite (+)
*Symétrie = 0
Quels sont les types d’aplatissement?
Mésocurtique: Normale (valeur 0)
Platycurtique: Large et aplatie (-)
Leptocurtique: Pointue (+)
Quels sont les mesures de tendance centrale?
- Moyenne
- Médiane
- Mode
Que devons-nous nous souvenir de la moyenne (M)?
- Seulement pour variables continues!!!
- Sensible aux valeurs extrêmes (ex: loterie)
- Importance de l’interpréter en fonction de l’échelle (élevé ou non?)
Que devons-nous nous souvenir de la médiane (Md)?
- Sépare à la moitié (50% des observations)
- Si ordinale, dire à quoi ça correspond
- Impair = Md est valeur centrale, Pair = Md est moyenne 2 valeurs centrales
Qu’est-ce que le mode (Mo)?
C’est la valeur qui revient le plus grand nombre de fois:
- Surtout pertinent pour variables nominales ou ordinales
- Peut avoir plusieurs modes (unimodale, bimodale, plurimodale)
Quels liens pouvons-nous faire avec les trois mesures de tendance centrale?
Unimodale et symétrique: M, Md et Mo sont les mêmes
Bimodale symétrique: M et Md sont les mêmes + 2 Mo
Asymétrie + ou -: 3 mesures diffèrent (moyenne se déplace vers asymétrie)
Quand devons-nous présenter les mesures de tendances centrales?
Symétrie: Juste M (tous pareils)
Asymétrie: Ajouter Md
Bimodale: Ajouter modes