Examen 2 Flashcards
Variables qualitatives
fait référence à des qualités et s’exprime en modalités (ou catégories, attributs)
Variables qualitatives nominales
Catégories sans ordre particulier, pas de hiérarchie (ex: couleur, genre, etc)
Variables qualitatives ordinales
Catégories ordonnées de manière à refléter un gradient, une progression. (ex: estime de soi)
Peut renvoyer à une échelle: niveau d’accord avec un énoncé.
Peut renvoyer à des étendues (revenu entre 90k et 100k, etc.)
Les variables quali doivent être…
Exclusifs : un individu ne peut pas se retrouver dans plusieurs niveaux
Exhaustifs : tous les individus doivent pouvoir être catégorisés
Variables quanti (2)
Cardinales: quantités, valeurs
Peuvent être subdivisés infiniment (distance, longueur)
Discrètes: ne peux pas être subdivisé à l’infini (ex: revenu, nombre d’enfant, etc)
Fréquence
nb d’observations associées à une valeur ou catégorie (niveau de modalité)
Fréquence cummulée
nb d’observations associées à une valeur X ou cagétorie X précédente
Ex: femme 10
homme 10
iels 5
fréquence cummulée h-f 20
fc tout 25
Proportion
Fréquence divisée par le nombre total d’observations
Pourcentage
proportion rapportée à un groupe de 100 observations
Rapport / ratio
Relation entre deux qte qu’on veut comparer
Ex: 6 H pour 7 F = rapport 6/7
Proportion
Les deux qte sont liées (numérateur est un sous ensemble du dénominateur)
Taux
Processus dynamique, on observe un changement dans le temps
Ex: dénominateur exprimé en personne-temps, c.-à-d qu’on attribue chq personne un poids selon la durée de son observation
Histogramme de fréquences
Grosses lignes verticales
Graphique en courbe
Tite ligne horizontale qui monte et descend
Histogramme et polygone de fréquence
Grosses lignes verticales avec une courbe mais permet de voir la distribution de l’échantillon
Distribution
Propriété d’une population
Tendance centrale
Ce qui est typique de la population ; se qui se passe en moyenne
Valeurs autour desquelles la distribution est centrée
Mesures de la tendance centrale
Moyenne, moyenne pondérée, médiane, mode
Moyenne
Somme des observations divisée par le nb d’observation
Moyenne pondérée
Toutes les observations n’ont pas le même poids, permet de modifier la contribution relative des observations
Ex: les notes (un travail qui vaut 30% de 100%)
Médiane
Sépare la distribution entre deux groupes égaux.
Moins affectée que la moyenne par les valeurs extrêmes.
Mode
Catégorie ou valeur ayant la fréquence la plus élevée. Le mode est approprié pour les variables nominales et ordinales.
Mesures de dispersion
Ce qui est typique pt plus ou moins fréquent dans une population: variabilité autour de la tendance centrale.
- Décrit la variabilité autour de la tendance centrale
Cette variabilité autour de la tendance centrale peut être décrite de différentes façons:
étendue, écart moyen, écart type, coefficient de variation, variance.
Étendue
Différence entre les valeurs minimales et maximales de la distribution
Ex: Min 13 et max 44
44 - 13 = 31
Écart moyen
Comment, en moyenne, chq des observations est éloignée de la moyenne.
Variance
Moyenne des carrés des écarts à la moyenne
Produit des mesures difficiles à interpréter car très élevé (écarts à la moyenne sont au carré)
Écart-type
Racine au carré de la variance
Coefficient de variation
Variabilité par rapport à la moyenne
Plus le CV est petit, plus les valeurs de la distribution tendent à être proche de la moyenn
Forme de la distribution
Peuvent aussi être décrites selon leur forme (comparaison avec la distribution normale)
On décrit l’écart à cette distribution selon 2 dimensions
Asymétrie et aplatissement
Asymétrie
Décalage vers la gauche ou la droite de la courbe
Négative: moy < méd
Positive: moy > méd
Aplatissement
Concentration des fréquences autour de la moyenne
Négative: plate
Normale: normale
Positive: bandé
Mesures de position
Tendance centrale et dispersion sont des caractéristiques de la distribution
Mesure de position: situer une valeur relativement à l’ensemble de la distribution
p.e: centile, quartile, etc
Centiles
100 groupes composés chacun de 1% des observations
Quartiles
4 groupes composés chacun de 25% des observations
Q1, Q2, Q3
Q1: milieu de la 1ere moitié
Q2: médiane
Q3: milieu de la 2e moitié
Tendance central, dispersion et position: boîte à moustache
Représentation graphique d’une distribution qui intègre différentes mesures
Permet de comparer des groupes
Voir photo
Score Z
- Exprime un écart à la moyenne qu’on met en relation avec la variabilité (dispersion) dans la population.
- Exprime l’écart à la moyenne en unités d’écart-type
- Permettent de relativiser les valeurs de distribution différentes
Ex: utilisés pour comparer des étudiants dont la performance est mesurée dans des contextes différents
Étudiant A
note: 91, moyenne 80
écart-type: 10
écart à la moyenne: 11
score Z 11/10 = 1,1
Étudiant B
note: 70, moyenne: 50
écart type: 20
écart à la moyenne: 20
20/20 = 1,0
Perfo relativement similaires dans des groupes différents
Échantillon
Sous ensemble de la population composé d’individus qui ont été choisis au hasard.
Le hasard peut faire varier la composition
Échantillonage - échantillon probabiliste
Dans celle-ci, on s’appuie sur des lois de probabilité pour estimer la variabilité théorique des statistiques issues de notre échantillon
La probabilité D’un évènement X est la proportion de X dans toute la population d’évènements !! P(X)= X / N
Si on repétète l’échantillonnage, les différentes moyennes suivraient…
Une distribution normale
C-à-d que certaines moyennes seraient obtenues plus fréquemment que d’autres.
Erreur type
Écart type de la moyenne d’échantillonnage. Plus l’échantillon est petit, plus le truc est élevé
Ex: échantillon de 27, erreur type de 10
Distribution normale centrée et réduite - Qu’est-ce que la courbe décrit?
Distribution des fréquences
- Permet de prévoir probabilités
- Sert de base à l’inférence statistique !!
- Possède certaines caract. importantes (moyenne est de 0, écart-type -1 et symétrique)
Distribution normale centrée et réduite - on peut associer… (table de Z!!)
Parce que la courbe couvre l’ensemble des évènements possibles, on peut associer des probabilités à l’aire sous la courbe
Ex: probabilité d’observer une valeur entre -1,34 et 1,34? 82%
Intervalle de confiance
Mesure de précision de l’estimation obtenue à partir d’un échantillon (estimation d’une moyenne ou d’une proportion
Intervalle de confiance: vise à…. avec quel truc (2)
Vise à identifier les bornes qui représentent les valeurs probables de la moyenne de la population autour de la moyenne estimée par l’échantillon
Avec score Z et erreur type !!