Examen 2 Flashcards
Variables qualitatives
fait référence à des qualités et s’exprime en modalités (ou catégories, attributs)
Variables qualitatives nominales
Catégories sans ordre particulier, pas de hiérarchie (ex: couleur, genre, etc)
Variables qualitatives ordinales
Catégories ordonnées de manière à refléter un gradient, une progression. (ex: estime de soi)
Peut renvoyer à une échelle: niveau d’accord avec un énoncé.
Peut renvoyer à des étendues (revenu entre 90k et 100k, etc.)
Les variables quali doivent être…
Exclusifs : un individu ne peut pas se retrouver dans plusieurs niveaux
Exhaustifs : tous les individus doivent pouvoir être catégorisés
Variables quanti (2)
Cardinales: quantités, valeurs
Peuvent être subdivisés infiniment (distance, longueur)
Discrètes: ne peux pas être subdivisé à l’infini (ex: revenu, nombre d’enfant, etc)
Fréquence
nb d’observations associées à une valeur ou catégorie (niveau de modalité)
Fréquence cummulée
nb d’observations associées à une valeur X ou cagétorie X précédente
Ex: femme 10
homme 10
iels 5
fréquence cummulée h-f 20
fc tout 25
Proportion
Fréquence divisée par le nombre total d’observations
Pourcentage
proportion rapportée à un groupe de 100 observations
Rapport / ratio
Relation entre deux qte qu’on veut comparer
Ex: 6 H pour 7 F = rapport 6/7
Proportion
Les deux qte sont liées (numérateur est un sous ensemble du dénominateur)
Taux
Processus dynamique, on observe un changement dans le temps
Ex: dénominateur exprimé en personne-temps, c.-à-d qu’on attribue chq personne un poids selon la durée de son observation
Histogramme de fréquences
Grosses lignes verticales
Graphique en courbe
Tite ligne horizontale qui monte et descend
Histogramme et polygone de fréquence
Grosses lignes verticales avec une courbe mais permet de voir la distribution de l’échantillon
Distribution
Propriété d’une population
Tendance centrale
Ce qui est typique de la population ; se qui se passe en moyenne
Valeurs autour desquelles la distribution est centrée
Mesures de la tendance centrale
Moyenne, moyenne pondérée, médiane, mode
Moyenne
Somme des observations divisée par le nb d’observation
Moyenne pondérée
Toutes les observations n’ont pas le même poids, permet de modifier la contribution relative des observations
Ex: les notes (un travail qui vaut 30% de 100%)
Médiane
Sépare la distribution entre deux groupes égaux.
Moins affectée que la moyenne par les valeurs extrêmes.
Mode
Catégorie ou valeur ayant la fréquence la plus élevée. Le mode est approprié pour les variables nominales et ordinales.
Mesures de dispersion
Ce qui est typique pt plus ou moins fréquent dans une population: variabilité autour de la tendance centrale.
- Décrit la variabilité autour de la tendance centrale
Cette variabilité autour de la tendance centrale peut être décrite de différentes façons:
étendue, écart moyen, écart type, coefficient de variation, variance.
Étendue
Différence entre les valeurs minimales et maximales de la distribution
Ex: Min 13 et max 44
44 - 13 = 31
Écart moyen
Comment, en moyenne, chq des observations est éloignée de la moyenne.
Variance
Moyenne des carrés des écarts à la moyenne
Produit des mesures difficiles à interpréter car très élevé (écarts à la moyenne sont au carré)
Écart-type
Racine au carré de la variance
Coefficient de variation
Variabilité par rapport à la moyenne
Plus le CV est petit, plus les valeurs de la distribution tendent à être proche de la moyenn
Forme de la distribution
Peuvent aussi être décrites selon leur forme (comparaison avec la distribution normale)
On décrit l’écart à cette distribution selon 2 dimensions
Asymétrie et aplatissement
Asymétrie
Décalage vers la gauche ou la droite de la courbe
Négative: moy < méd
Positive: moy > méd
Aplatissement
Concentration des fréquences autour de la moyenne
Négative: plate
Normale: normale
Positive: bandé
Mesures de position
Tendance centrale et dispersion sont des caractéristiques de la distribution
Mesure de position: situer une valeur relativement à l’ensemble de la distribution
p.e: centile, quartile, etc
Centiles
100 groupes composés chacun de 1% des observations
Quartiles
4 groupes composés chacun de 25% des observations
Q1, Q2, Q3
Q1: milieu de la 1ere moitié
Q2: médiane
Q3: milieu de la 2e moitié
Tendance central, dispersion et position: boîte à moustache
Représentation graphique d’une distribution qui intègre différentes mesures
Permet de comparer des groupes
Voir photo
Score Z
- Exprime un écart à la moyenne qu’on met en relation avec la variabilité (dispersion) dans la population.
- Exprime l’écart à la moyenne en unités d’écart-type
- Permettent de relativiser les valeurs de distribution différentes
Ex: utilisés pour comparer des étudiants dont la performance est mesurée dans des contextes différents
Étudiant A
note: 91, moyenne 80
écart-type: 10
écart à la moyenne: 11
score Z 11/10 = 1,1
Étudiant B
note: 70, moyenne: 50
écart type: 20
écart à la moyenne: 20
20/20 = 1,0
Perfo relativement similaires dans des groupes différents
Échantillon
Sous ensemble de la population composé d’individus qui ont été choisis au hasard.
Le hasard peut faire varier la composition
Échantillonage - échantillon probabiliste
Dans celle-ci, on s’appuie sur des lois de probabilité pour estimer la variabilité théorique des statistiques issues de notre échantillon
La probabilité D’un évènement X est la proportion de X dans toute la population d’évènements !! P(X)= X / N
Si on repétète l’échantillonnage, les différentes moyennes suivraient…
Une distribution normale
C-à-d que certaines moyennes seraient obtenues plus fréquemment que d’autres.
Erreur type
Écart type de la moyenne d’échantillonnage. Plus l’échantillon est petit, plus le truc est élevé
Ex: échantillon de 27, erreur type de 10
Distribution normale centrée et réduite - Qu’est-ce que la courbe décrit?
Distribution des fréquences
- Permet de prévoir probabilités
- Sert de base à l’inférence statistique !!
- Possède certaines caract. importantes (moyenne est de 0, écart-type -1 et symétrique)
Distribution normale centrée et réduite - on peut associer… (table de Z!!)
Parce que la courbe couvre l’ensemble des évènements possibles, on peut associer des probabilités à l’aire sous la courbe
Ex: probabilité d’observer une valeur entre -1,34 et 1,34? 82%
Intervalle de confiance
Mesure de précision de l’estimation obtenue à partir d’un échantillon (estimation d’une moyenne ou d’une proportion
Intervalle de confiance: vise à…. avec quel truc (2)
Vise à identifier les bornes qui représentent les valeurs probables de la moyenne de la population autour de la moyenne estimée par l’échantillon
Avec score Z et erreur type !!
Le score Z pour le calcul de l’IC dépend du…
Niveau de certitude souhaité
90%, 95%, 99%
Variables nominales à 2 catégories on utilise quoi pour décrire l’échantillon
On va utiliser une proportion pour décrire l’échantillon
Proportion
Forme particulière d’une moyenne
Somme des mesures binaires (0,1) = fréquence de valeur 1
Erreur-type d’une proportion pas calculé comme celui d’une moyenne
Tests d’hypothèses
Permet l’inférence en évaluant si une condition est vraie ou non
- Démarche qui permet de prendre une décision concernant l’hypothèse statistique
- La démarche porte sur H0
Si rejet de H0 = condition est vraie.
Erreur de type I
Rejet de H0 alors qu’elle est vraie (notée @)
Erreur de type II
Accepter H0 alors qu’elle est fausse (notée B)
Erreur de type I explications
Liée au hasard: variabilité inhérente à l’échantillonnage
Seuil @ comparé à la valeur p du test
Seuil @: risque consenti à l’avance de rejeter à tort H0
Valeur p: probabilité qu’une différence soit attribuable au hasard
Erreur de type II explications
Liée à la puissance statistique (1-B) de l’étude
Capacité à prendre une décision statistique (à détecter une différence réelle)
Test Z
Test d’hypothèse qui utilise la valeur Z pour associer une probabilité à une condition décrite par H0.
Permet de comparer une moyenne observée à une moyenne connue
EX: votre client a il réellement des relations plus fréquentes que la moyenne
Valeur Z
Permet d’évaluer la probabilité que la moyenne de notre échantillon est réellement supérieure à la moyenne de la population
Valeur p
Renseigne la probabilité que H0 soit vraie.
Test Z quelle échantillon
Approprié pour les échantillons de grande taille parce que l’écart type de l’échantillon (s) est considéré comme étant un bon estimateur de l’écart-type de la population
Test t - échantillon
Lorsque l’écart-type de l’échantillon n’est pas un bon estimateur de l’écart type de la population
Échantillon de petite taille !
Test t: plus la taille de l’échantillon augmente, plus…
+ rejet du H0 = (…)
Comme pour le Z, utilisation d’une table
Plus la taille de l’échantillon augmente, plus les valeurs de t et Z tendent à se ressembler.
- Même manière que Z
- Rejet de H= t calculé > t critique
DL: qu’est-ce que ça décrit? Et déduit?
Degrés de liberté, décrivent le nb d’observations qui peuvent varier dans le calcul d’une stat
À partir d’une moyenne, capable de déduire la valeur d’une observation si on connait la valeur de toutes les autres observations
Test t - DL - Avec 1 ou 2 échantillon, le nb d’observations qui peuvent varier est
1 échantillon: n - 1
2 échantillons: (n1+n2) -2
l’IC permet de…
Comparer des groupes
Test t pour échantillons indépendants
Comparaison de deux groupes indépendants
ex: groupe expérimental VS groupe contrôle
Test t pour échantillons appariés
Un seul groupe à deux temps de mesure
Test t - échantillons indépendants (variation)
t tend à augmenter lorsque :
- Différence entre les moyennes augments
- La variance diminue
- La taille des échantillons augments
Covariance des deux échantillons, décrit la relation entre…
COVx1x2
Décrit la relation entre les deux distributions
ANOVA
Permet de comparer plus de 2 groupes
La comparaison est faite en comparant les variances inter-groupes (à quel point ya de fortes variabilité entre les groupes)
ANOVA - dl
dl inter = nb de groupe 1
dl intra = nb total d’observations - nb de groupes
F augments quand variance inter-groupe > variance intra-groupe
Donc, plus les groupes sont différents entre eux, plus F augmente!
Hypothèses anova
h0= tous les groupes sont pareils
h1= un des groupes est différent
Quel test on fait? 1 moyenne vs une valeur attendue n= >30
Test Z ou test t à 1 échantillon
Quel test on fait? 1 moyenne vs une valeur attendue n= <30
test t à 1 échantillon
Quel test on fait? 2 moyennes échantillons indépendants
test t à 2 échantillons indépendants
Quel test on fait? 2 moyennes échantillons appariés
test t à 2 échantillons appariés
Quel test on fait? plus de 2 moyennes
ANOVA
Décision statistique: rejet de H0 si… (2)
- p < a
- |valeur calculée| > |valeur critique| (si val cal supérieure, on rejette H0 ça revoie à la même chose)
***Les hypothèses doivent faire référence à une différence et pas une association
Corrélation
Comment les changements observés sur un facteur sont-ils liés aux changements observés sur un autre facteur?
**Évalue la co-variation entre le X et Y, à quel point il existe une corrélation entre deux variables.
Nuage de point
Représentation graphique pour décrire une relation entre deux variables cardinales
**Évalue la co-variation entre le X et Y, à quel point il existe une corrélation entre deux variables.
Quelle est la mesure la plus courante dans les variables cardinales?
Coefficient de corrélation de Pearson
Coefficient de corrélation de Pearson (r) est utilisé pour…
Utilisé pour analyser l’association entre deux variables quanti
Corrélation de Pearson = variables cardinales
Coefficient de corrélation de Pearson (r) permet d’évaluer… (2)
La force et la direction de la relation
- Force: haut r = association forte
r = 1 ou -1 corrélation parfaite
r vers 0 = pas d’association
- Direction
r+ = association positive (un aug, l’autre aug)
r- = association négative
Coefficient de détermination (r2)
Indique la proportion de la variance d’une variable qui est exprimée par l’autre variable
À quel proportion la variable Y est expliquée par X: 0 pentoute, 0,99, à 99%, 1 au complet
Comment savoir ce qui influence quoi quand le r2 est élevé?
Le devis de l’étude est le seul qui permet d’établir le sens de la relation
Association n’est PAS une causalité !!!
Khi-deux (X2) permet de..
Décrire l’association entre deux variables ordinales ou nominales
Le test du Khi-deux (X2) compare…
Les fréquences observées à des fréquences attendues sous l’hypothèse d’absence d’association
Quel test doit être utilisé?
On souhaite savoir si le score d’anxiété est associé au score de satisfaction sexu.
Résultat: p = 0,02 et 2 = -0,54 ( r2 = 0,292)
Corrélation
Rejet de H0 (p<0,05) ; association négative modérée: le score d’anxiété augmente lorsque le score de satisfaction sexuelle diminue. 29,2% de la variance du score d’anxiété s’explique par la variation du score de la satisfaction sexu et inversement ( r2 = 0,292)
Quel test on doit utiliser?
Une équipe de recherche souhaite évaluer l’association entre la législation des pays (légal ou partiellement légal, criminalisé, absence de loi) et le statut de séropositivité (positif/négatif) des travailleurs.ses du sexe
Résultats: X2 = 4,259 (x2 critique = 5,991)
Khi deux
Acceptation de H0; pas d’association; la répartition des personnes séropositives ne varie pas significativement selon la législation
Régression permet…
Permet d’évaluer une association entre une VI et une VD en contrôlant l’effet des autres VI
Régression - contrôle et ajustement
Élimine l’effet d’une autre variable (confusion) sur l’association observée
Formule régression
Y = mx+b
Y: variable dont les valeurs sont prédites par celles de X
m et b: paramètres qui définissent la relation entre Y et X
b: valeur qu’aura Y lorsque X sera égal à 0 (ordonnée à l’origine)
Régression:
si Y = 1,15 +0,282X
X = 25
8,2
deux variables cardinales
Régression linéaire
On quantifie la relation entre deux variables: plus c’est élevé plus une relation est forte et l’inverse
Coefficient de régression décrit…
La pente de la droite des moindres carrés (la droite qui minimise le carré des écart entre les valeurs prédites par la droite et les valeurs réelles, observées)
Coefficient de régression est une mesure de…
Co-variation
Il indique dans quelle mesure la variation de X s’accompagne d’une variation sur Y.
Vrai ou faux: Il peut y avoir plusieurs co-variables (x) dans une régression
Vrai: il peut y avoir plusieurs co-variables dans une régression, ce qui permet l’ajustement de plusieurs facteurs de confusion.
Décrit l’association de X et Y indépendamment des autres co-variables
Variable muette quand?
Lorsque VI (x) catégorielle est une variable factice ou muette (dummy)
Variable muette permet de….
indique la présence ou l’absence d’une caractéristique ou d’une catégorie spécifique. Si une variable a plus de 2 catégories, une variable factice peut être créée pour chaque catégorie, excluant une catégorie de référence.
Exemple variable muette
Fréquence conso porn: jamais, occasionnellement, souvent. On veut que la ref soit “jamais”
Jamais (0), occasionnellement (1), souvent (1)
On créer deux nouvelle variables:
Porn occasionnelle: 0 = non, 1 = oui
Porn souvent: 0 = non; 1 = oui
On obtient: occasionnellement VS jamais et souvent VS jamais
Une équipe souhaite analyser les liens entre l’adhésion à des valeurs
conservatrice (score) et l’âge à partir duquel il est perçu comme normal
d’avoir des relations sexuelles pour un garçon. Résultats:
Intercept: B = 16,21 ; valeur p = 0,000
Conservatisme: B = -0,21 ; valeur p = 0,045
Quoi conclure?
D’après ce modèle, quel est l’estimation de l’âge considéré comme normal pour une personne ayant un score pour conservatisme = 3 ?
Rejet de H0 ; le score mesurant l’adhésion aux valeurs conservatrice est négativement associée à l’âge considérée comme normal pour avoir des relations sexuelles pour un garçon (β=-0,21 ; SE=0,10 ; p=0,045).
Y = 𝛽0 + 𝛽1X1 16,21 + (-0,21 x 3) = 15,58
Régression logistique (3)
- Permet l’utilisation d’une variable dépendante dichotomique
- Facile d’utilisation
- Produit directement des rapports de cotes (odds, ratio, OR)
Régression - Risque relatif (RR)
Similaire à un rapport de cotes
RRi = (cas1/pop1) / (cas2/pop)
RR = 1,2 : Les personnes non pratiquantes ont un risque d’avoir une syphilis 1,2 fois plus grand que les personnes pratiquantes
RR rapport à 1
RR > 1 : risque plus grand du groupe au numérateur
RR < 1: risque plus petit du groupe au numérateur
RR = 1 : no diff
Un rapport de cotes compare… (différence avec RR)
Cotes et non des risques
Cotes = comparaison de probabilités
RC = 1,22: les personnes non pratiquantes ont une COTE d’avoir une syphilis 1,22 plus grande que les personnes pratiquantes.
cote PAS risque
risque = probabilité
cote = probabilité d’un évènement probabilité d’un non évènement
RC = exp(β) !
Estimation de paramètres - estimation ponctuelle
Valeur de la statistique d’un échantillon:
- mesures de tendance centrale
- mesures de dispersion
La moyenne décrit un échantillon à partir de variables…
Cardinales
Comment s’intéresser à des variables catégorielles dichotomiques ?
En utilisant des proportions
l’intervalle de confiance (IC) mesure..
Précision de l’estimation obtenue à partir d’un échantillon (estimation d’une moyenne ou d’une proportion)
Mesure
Description des propriétés d’un concept
Opérationnalisation
Passage du concept à la mesure
Biais:
Écart entre ce qu’on observe ou conclu et la réalité. « Toute influence ou action pouvant fausser les résultats d’une étude » (F&G, p. 171)
Biais de confusion
Erreur susceptible d’intervenir dans l’interprétation de l’association entre le VD et la VI en raison de l’interférence d’autres variables qui n’ont pas été considérées
Inférence
Porter un jugement sur l’ensemble de la population à partir d’un sous-ensemble (échantillon)
Représentativité
Capacité d’un échantillon à présenter les mêmes caractéristiques que la population
Intervalle de confiance
Mesure de précision de l’estimation obtenue à partir d’un échantillon (estimation d’une moyenne ou d’une proportion)
Puissance statistique
Capacité d’une étude à prendre une décision statistique (p. ex. se prononcer sur la présence d’une différence ou d’une association)
Variable
Expression d’un concept par le biais d’une mesure.