Cours 3 Flashcards
Paradoxe d’amalgamation
Lorsque la taille des groupes est très différente, la variable confondante produit un
déséquilibre dans la distribution des categories par rapport aux autres variables
ex. : grosseur des roches et efficacité du programme
Variabilité
rend plus ou moins “visible” la difference entre des moyennes Valeur minimale = 0 (lorsque la variable est constante) Valeur maximale = théoriquement infinie
Étendue interquartile
- Ordonner les scores en ordre croissant
- Calculer la taille d’un quartile: 𝑛+1/4.
arrondir à l’entier le plus près. - Déterminer les quartiles en comptant la taille d’un quartile du plus petit rang au plus élevé.
- IQR = troisième quartile −
premier quartile
L’etendue du 50% central des scores
Pourquoi n-1 ?
- Pour le calcul de la variance de l’échantillon, la somme des écarts à la moyenne au carré est utilisé. Cependant, la somme des écarts à la moyenne = 0
- Pour la variance de la population, l’écart à la moyenne de la population est
utilisé, qui n’est pas égal à zéro. Donc la somme des carrés des écarts à la
moyenne de la population sera toujours plus élevée que la somme des carrés
des écarts à la moyenne de l’échantillon, ce qui fait en sorte que s sous-estime σ - Ainsi, on réduit le dénominateur de 1 → n-1, pour que s soit un estimé plus
juste de σ - Le terme n-1 est autant plus approprié parce que les degrés de liberté de s
pour estimer σ est n-1, à cause que la somme des écarts à la moyenne = 0.
Règle empirique de l’interprétation de l’écart-type
Pour une distribution symmétrique sans valeurs
extremes significatives:
– 68% des observations se retrouvent à l’intérieur de ± 1 ET de 𝑥ҧ
– 95% des observations se retrouvent à l’intérieur de ± 2 ET de 𝑥ҧ
– 99.7% des observations se retrouvent à l’intérieur de ± 2 ET de 𝑥ҧ
Règle de Chebyshev
Pour toutes les distributions :
Au moins 100 ( 1 − 1/𝑘^2) % des observations se retrouvent à l’intérieur de ± k ET de 𝑥(barre), pourvu que k > 1
Score Z
Peut être interprété comme la “quantité” d’écartstypes
qu’une observation se situe de la moyenne;
essentiel pour standardiser des variables différentes pour pouvoir les comparer entre elles
Asymétrie (skewness)
quantifie l’erreur à la moyenne maximale dans une direction ou l’autre; 𝑆𝑘𝑋 = 0: symétrie parfaite; 𝑆𝑘𝑋 > 0: asymétrie positive, la distribution s’étale davantage vers des valeurs plus élevées de la variable, avec des écarts à la moyenne plus grands à droite de celle-ci; 𝑆𝑘𝑋 < 0: asymétrie négative, la distribution s’étale davantage vers des valeurs plus basses de la variable, avec des écarts à la moyenne plus grands à gauche de celle-ci normalité = + ou = 2
Degré d’aplatissement (kurtosis)
définit à quel point les données se rappochent de la moyenne, donc à quel point la moyenne est un bon estimé de chaque valeur;
𝐾𝑢𝑋 = 0: mésocurtique (aplatissement moyen)
𝐾𝑢𝑋 > 0: leptocurtique (distribution pointue)
𝐾𝑢𝑋 < 0: platycurtique (distribution plate)
normalité = + ou - 2 à 7
coefficient de variabilité
Statistique (cv) permettant de comparer le degré de
variabilité de deux variables différentes;
0.05 et plus petit -> bas
0.5 élevé
variabilité des données qualitatives (échelles
nominales)
– Si les effectifs sont également distribuées dans les catégories, la variabilité est
maximale, et il y a hétérogénéité;
– Si les effectifs sont principalement concentrées dans une seule catégorie, avec
un ratio ≥80% environ, variabilité minimale, il y a homogénéité