exam final MQ Flashcards
QU’EST-CE QU’UNE ANALYSE BIVARIÉE ?
Elle permet d’étudier la relation entre deux variables (variable dépendante et indépendante).
Avantages et limites d’une analyse bivariée ?
Avantages :
-Permet de comprendre le sens des relations
-Permet de comprendre la force des relations
-Permet de faire du ‘‘ménage’’ dans nos données
Limites :
-Analyse d’une relation simple
-Limite les interprétations possibles
-Limite notre compréhension du monde (la nature complexe des relations)
QUEL TEST STATISTIQUE CHOISIR ? Postulation d’utilisation
- Des postulats d’utilisation sont associés à chaque famille de test.
- Les postulats sont un ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats.
- Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.
- On vérifie les postulats avant de réaliser le test et d’analyser les résultats.
test pour Statistiques descriptives ?
Mesure de tendance centrale et de dispersion
Statistique bivariée : deux variables catégorielles ?
Familles des tableaux de contingence
Statistique bivariée : variable catégorielle avec variable continue (ordinale) ?
Famille des tests de moyenne
Statistique bivariée : variable catégorielle avec variable continue (ordinale) Distribution normale ? n>30
2 groupes : T-student
Plus de 2 groupes : Oneway Anova
Statistique bivariée : variable catégorielle avec variable continue (ordinale) Distribution non-normale ? n<30
2 groupes : U de Man whitney
plus de 2 groupes : Kruskal Wallis
Statistique bivarié : deux variables continues ou ordinales
Famille de corrélation
Statistique bivarié : deux variables continues ou ordinales. Distribution normale
R de Pearson
Statistique bivarié : deux variables continues ou ordinales. Distribution non-normale ou variables ordinales
Rho de Spearman
Statistique multivariée : Prédiction
analyse de régression
Statistique multivariée : Distinction
Analyse de variance
Analyse de régression : variable dépendante intervalle
régression linéaire multiple
Analyse de régression : variable dépendante dichotomique
régression logistic
Analyse de variance : sans variable contrôle
ANOVA
Analyse de variance : avec variable contrôle
ANCOVA
Qu’est-ce que la signification ?
La mesure de signification teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.
La signification nous aide à répondre à quel question ?
Est-ce que ma relation entre X et Y est statistiquement significative ?
Que devons-nous regarder en lien avec la signification ?
La signification est souvent représentée par la lettre p ou par sig. (signification), ou même des étoiles dans les tableaux (=p<0,05, **=p<0,01, **=p<0,001)
C’est quoi le p ?
c’est la probabilité que l’hypothèse nulle soit vraie lorsque comparée à l’hypothèse testée
Comment analyser le p ?
- Le seuil minimal en sciences sociales pour affirmer qu’il existe une relation statistiquement significative entre nos deux variables est p< 0,05
- Lorsque c’est significatif à p<0,05, nous rejetons H0 et concluons qu’il semble bel et bien exister un lien entre nos deux variables.
- Lorsque c’est supérieur à 0,05, nous ne pouvons pas rejeter l’hypothèse nulle.
- Par convention, les niveaux de signification sont (la plupart du temps) identifiés comme suit dans les tableaux :
* = p ≤ 0,05 ** = p ≤ 0,01 *** = p ≤ 0,001
Qu’est-ce que la force de la relation ?
Le coefficient de force (ou d’association) qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.
La force de la relation nous aide à répondre à quelle question ?
Est-ce que l’impact de X sur Y est fort, modéré ou faible ?
Que devons-nous regarder en lien avec la force de la relation ?
Le coefficient de force est différent pour chaque test statistique.
Il importe de connaitre le domaine d’étude pour identifier la force de la relation.
Un coefficient de force de plus de 0,80 peut indiquer de la colinéarité… (c.-à-d. les deux variables mesurent le même phénomène).
Que représente le barème de force de Rea et Parker ?
Des effets forts ne sont pas nécessairement intéressants
La force des relations est souvent fonction du champ ou du domaine de recherche
Qu’est-ce que le sens d’une relation ?
C’est à ce niveau que l’on transpose en mots concrets la relation entre nos variables.
À quoi servent les tableaux croisés et tests de moyenne ?
Quels groupes a la fréquence ou la moyenne la plus élevée ? On compare les deux groupes sur la variable dépendante.
Quels sont les 2 types de relation d’une corrélation ?
Relation positive : Plus un individu consomme de l’alcool, plus il risque de faire des délits…
Relation négative : Plus un individu consomme de l’alcool, moins celui-ci a d’inhibitions…
3 conditions pour différencier une corrélation d’une causalité ?
Il y a covariation (corrélation) entre les deux phénomènes
La cause précède la conséquence
Les explications alternatives sont exclues
Qu’est ce que le tableau de contingence ?
Permettent de synthétiser l’information et de tester le lien d’indépendance entre deux variables nominales.
Principalement, sert à tester le lien d’indépendance entre deux variables
Sert aussi à synthétiser l’information
Exemple le pourcentage de femmes et d’hommes en faveur de la peine de mort
Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population
Mais aussi d’étudier le lien qui les unit
2 postulats pour utiliser le Chi2 ?
Échantillonnage aléatoire
Pour calculer un Chi carré, les nombres ne doivent pas être trop petits : le total ne doit pas être plus petit que 20, et la fréquence espérée inférieure à 5.
À quel question le Chi2 répond ?
Existe-t-il un lien entre deux variables nominales?
Il sert donc à tester des hypothèses.
Le test d’indépendance du Chi² est utile pour savoir si oui ou non il existe un lien entre deux variables : il nous indique la signification de la relation.
Lorsque c’est significatif à p<0,05, nous rejetons H0 et concluons qu’il y a une relation entre nos deux variables. Lorsque c’est supérieur, nous ne pouvons rejeter avec certitude l’hypothèse nulle
À quoi sert le test d’indépendance du Chi 2 ?
Calculer le test d’indépendance du Chi carré revient à comparer les résultats obtenus dans notre étude aux résultats théoriquement obtenus à l’aide du hasard.
Plus la différence entre les deux ensembles de résultats est élevée, plus la valeur du Chi carré est élevée, et plus la probabilité que le lien observé entre ces deux variables soit réel est élevée.
Que représente la signification du Chi 2 ?
Le chi carré nous indique si nos variables sont associées ou non
Nous testons l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.
Elle est associée au nombre de sujets (n)
Une très petite différence entre 2 groupes est significative avec 1000 sujets
À l’inverse, avec de petits échantillons, on a besoin de grandes différences pour que ce soit significatif
Que représente la force du Chi 2 ?
Le test de Chi deux nous sert à répondre à la question suivante : Existe-t-il un lien entre deux variables nominales? Il sert donc à tester des hypothèses.
Lorsque c’est significatif à p<0,05, nous rejetons H0. Lorsque c’est supérieur, nous ne pouvons rejeter l’hypothèse nulle.
Le test d’indépendance du Chi deux est utile pour savoir si oui ou non il existe un lien entre deux variables : il nous indique la signification de la relation.
À quoi sert le Phi ?
Le Phi : Mesure dérivée du Chi carré.
On se rappelle que la valeur du Chi est directement influencée par le nombre de sujets et la force de la relation.
Le phi élimine l’effet de la taille de l’échantillon en divisant le chi carré par n, et en extrayant la racine carrée.
Il est aussi appelé Pearson’s coefficient of mean-square contingency.
Il est surtout utilisé dans le cas de tableaux 2x2
Pour un tableau de plus de 2x2, la valeur du phi dépasse 1, et le rend moins intéressant.
À quoi sert le V de Cramer ?
Le V de Cramer est la mesure d’association la plus populaire basée sur une variation du Chi carré.
Il varie de 0 à 1, et est donc facile à utiliser et à interpréter.
On l’utilise généralement dans les tableaux supérieurs à 2x2.
Pourquoi utiliser différents test de moyenne ?
Lorsque l’on veut comparer les moyennes de plusieurs groupes
Une variable nominale (groupale)
Une variable continue ou ordinale
Il existe deux séries de critères utiles afin de choisir le bon test à utiliser
Le critère paramétrique / non paramétrique (normalité de la distribution, N > 30)
Le critère du nombre de groupes à comparer
Quels sont les règles d’utilisation de T de Student ?
En raison de sa popularité, le test t est fréquemment utilisé sans égard aux consignes d’utilisation, c’est-à-dire sans que ne soient respectés ses postulats. Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test. Pour que soit valide le t, on doit s’assurer de deux choses :
Les distributions sont normales (cours 4)
Car si distributions non normales : moyenne non représentative
Les variances sont comparables (test de Levene)
Les formes de la variance de chaque groupe sont-elles similaires?
Que représente la signification du T de Student ?
Le test de T sert à répondre à la question suivante : Existe-t-il un lien entre une variable dichotomique et une variable continue (ou ordinale)?
La signification (p) associée au coefficient t est utile pour savoir si oui ou non il existe un lien entre deux variables.
Que représente la force du T de Student ?
La signification (p) associée au coefficient t donne la signification mais non la force de la relation…
Le Eta2 est le coefficient d’association (ou de force) des tests de moyennes paramétriques.
Il mesure la force de l’association entre la variable catégorielle (nominale) et la variable continue.
Il varie entre 0 et 1.
Il donne une indication de la proportion de la variance expliquée.
On l’obtient en utilisant la commande Means.
Que représente le sens du T de Student ? (test de moyenne)
Pour les tests de moyennes (comme pour les tableaux de contingence), on ne parle pas de relation positive ou négative.
Le sens de la relation est analysé à l’aide des moyennes de vos groupes.
Par exemple : les garçons commettent plus de violence physique que les filles.
Qu’est ce que l’analyse de variance ou oneway anova ?
Aussi appelé analyse de variance simple ou à un facteur
Vise à comparer non pas deux groupes mais bien trois groupes ou plus
Le Ratio F (plutôt que le t) teste l’hypothèse d’une différence de moyennes entre les groupes
Il ne nous aide pas à comprendre la nature de ces différences. Nous devons utiliser une autre série d’analyses afin de connaître plus en détail quels groupes sont significativement différents desquels.
Comment contourner les limites de l’utilisation de la moyenne ?
Dans certaines situations, les moyennes ne rendent pas justice aux résultats (distributions asymétriques, valeurs extrêmes, petits groupes, etc.)
Il y a donc lieu de se tourner vers des équivalents plus souples pour comparer les groupes : les tests non paramétriques (i.e. les tests basés sur les rangs)
Ces tests, au lieu d’utiliser les scores, utilisent les rangs occupés dans une distribution
Dans une étude de 100 participants, la personne au score le plus élevé a le rang 100 tandis que celle au score le plus faible a le rang 1.
Quel est l’utilité des analyses corrélationnelles ?
L’utilité de telles analyses : tester le lien (dépendance) entre des variables sur des échelles de mesure continue ou ordinale
Le choix de l’analyse corrélationnelle dépend :
De la nature des variables
De la distribution des variables
Que représente le coefficient de corrélation R de Pearson ?
Il varie entre -1 et 1
Le signe indique le sens de la relation (un signe + indique une relation proportionnelle et un signe – indique une relation inversement proportionnelle)
Un R près de 0 indique une absence de relation
Un R près de 1 indique une très forte relation, 1 étant une relation parfaite (connaître notre variable indépendante nous permet de connaître notre variable dépendante)
Un R de 0,10 peut être significatif, tout dépend du nombre de sujets utilisé (taille d’effet!)
Un bon R dépend du domaine d’étude dans lequel vous travaillez… (En psycho et en crimino, à 0,40, on sort le champagne. En chimie, on vient probablement de faire sauter le labo…)
Que représente le R2 (coefficient de force d’une corrélation) ?
Le R2 est plus facile à interpréter que le R. Le R2 varie entre 0 et 1.
R2 est la proportion de variance expliquée par la variable indépendante, ou la proportion de variance commune entre les deux variables.
Si on observe une corrélation significative de 0,75 entre les placements et les lambdas de crimes, cela nous indique que 56,3% de la variance de ces deux variables est commune. En d’autres termes, connaître le nombre de placement nous permet de connaître 56,3% de la variance du Lambda.
Il n’en demeure pas moins que 43,7% de la variance demeure inexpliquée…
Conséquemment, il y a d’autres trucs que cette VI qui explique la variance de la VD
Comment éliminer les valeurs extrêmes ?
Identifier via graphiques de distribution et tableaux de fréquence :
Soit éliminer les participants avec des valeurs extrêmes via select cases
Soit en recodant les valeurs extrêmes en valeurs moins extrêmes
Qu’est-ce que le Rho de Spearman ?
Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s’il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l’existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance, …).
Ce coefficient est donc très utile lorsque l’analyse du nuage de point révèle une forme curvilinéaire dans une relation qui semble mal s’ajuster à une droite. On notera également qu’il est préférable au coefficient de Pearson lorsque les distributions X et Y sont asymétriques et/ou comportent des valeurs exceptionnelles.
Il varie de -1 à 1 et s’interprète de la même façon que le R de Pearson.
Pourquoi utilise-t-on le multivariée ?
Modéliser le monde de manière plus réaliste : La vie est plus que du bivarié : le monde n’est pas noir/blanc + Plusieurs aspects influencent simultanément les phénomènes que nous étudions
Pour identifier la contribution unique des prédicteurs
Afin de détecter les relations artificielles
Prédire le plus efficacement à l’aide d’un nombre raisonnable de variables
Comment savoir si on doit faire un régression linéaire ou logistique ?
Linéaire multiple : pour variable continue (ou ordinale)
Logistique : pour variable catégorielle
Qu’est ce qu’une analyse de régression linéaire multiple ?
La RLM (Pearson, 1908) a pour objectif de mieux comprendre les relations entre plusieurs variables indépendantes (aussi appelés prédicteurs) et une variable dépendante.
Elle constitue donc une extension multivariée de l’analyse de corrélation.
Puisqu’elle utilise des variables continues, on peut la comprendre comme visant la prédiction plus que la distinction entre des groupes de personnes (test de moyenne vs corrélation).
Qu’est ce que la régression linéaire multiple permet de faire ?
L’analyse de régression permettra:
De prédire une variable dépendante continue à l’aide d’autres variables intervalles ou de variables dichotomiques (aussi appelées variables dummy, ou variables indicatrices)
D’estimer la proportion de variances expliquées de la variable dépendante, à un certain seuil de signification.
D’estimer l’impact relatif des prédicteurs les uns par rapport aux autres
À quoi sert le R2 (estimation de la force de la relation) ?
Jusqu’à quel point la régression explique-t-elle la variance de notre variable dépendante?
L’inspection du diagramme de points nous donne déjà un aperçu de la force de la relation
plus les points sont condensés autour de la droite, plus la régression prédit avec précision la variable dépendante
Le R2 ou coefficient de détermination, donne une mesure formelle de la proportion de la variance expliquée
Quels sont les étapes de la régression (4)?
- Le « ménage » des données
- L’inspection des distributions
- L’élimination ou le recodage des valeurs extrêmes
- L’inspection de la linéarité des relations
Devrait normalement avoir été fait lors des analyses bivariées
Qu’est ce que les coefficients de régression Beta β ?
Ce sont les coefficients de régression standardisés (aussi appelés poids Beta)
Ils sont utiles afin de comparer les influences relatives de chacun des prédicteurs du modèle. Il permet d’identifier les meilleurs prédicteurs.
On peut comparer les β entre eux
truc pour se rappeler : poisson BETA → se batte
donc le beta se batte pour savoir c’est qui le plus fort, on peut donc les comparer
Qu’est-ce que les coefficients de régression B ?
Estimés non biaisés (unbiaised estimates): ce sont les effets purs des variables indépendantes sur la variable dépendante exprimés en unités naturelles
On les utilise lorsque l’on veut prédire un score pour un sujet en particulier
On ne peut pas comparer les B entre eux
Quel est l’utilité de la régression logistique ?
Lorsque les variables avec lesquelles on travaille sont catégorielles, les choix analytiques sont particuliers
Dans ce cas, on a généralement recours à l’analyse à l’aide de tableaux croisés en analyses bivariées
Toutefois, l’analyse avec le tableau croisé ne permet pas
de traiter plus d’un prédicteur à la fois
- d’estimer s’il existe des effets
- d’interaction entre les prédicteurs
- d’utiliser des prédicteurs continus
Quels sont les deux sortes de régression logistique ?
Binomiale : pour variable dichotomique (ex : oui vs non)
Multinomiale : pour variable à 3 groupes ou plus (ex : bleu, vert, rouge)
Qu’est-ce qu’on prédit avec la régression logistique ?
on ne prédit pas une « quantité », mais bien une probabilité
ex : la probabilité que la personne répond oui au début et à la fin
Qu’est-ce que la régression logistique permet d’estimer ?
La régression logistique permet d’estimer la contribution unique de plusieurs prédicteurs sur la présence ou non d’une caractéristique dichotomique (ou catégorielle)
Quel type de variables utilise la régression logistique ?
Elle s’utilise dans les cas de variables dépendantes catégorielles