Révision Flashcards
Qu’est-ce qu’une analyse bivariée ?
-Elle permet d’étudier la relation entre deux variables (variable dépendante et indépendante).
-La famille de tests utilisée dépend du type de variables utilisées (nominale, continue, ordinale).
Quels sont les avantages et limites des statistiques bivariées?
Avantages :
-Permet de comprendre le sens des relations
-Permet de comprendre la force des relations
-Permet de faire du ‘‘ménage’’ dans nos données
Limites :
-Analyse d’une relation simple
-Limite les interprétations possibles
-Limite notre compréhension du monde (la nature complexe des relations)
Comment savoir quel test statistique choisir?
Les postulats d’utilisation
-Des postulats d’utilisation sont associés à chaque famille de test.
-Les postulats sont un ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats.
-Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.
-On vérifie les postulats avant de réaliser le test et d’analyser les résultats.
Qu’est ce que l’arbre décisionel?
un arbre pour choisir l’analyse statistique approprié
Quelles sont les 3 étapes de l’analyse des résultats
Signification, Force de la relation, Sens de la relation
Qu’est-ce que la signification ?
La mesure de signification teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.
La signification nous aide à répondre à quelle question?
Est-ce que ma relation entre X et Y est statistiquement significative ?
Que devons-nous regarder en lien avec la signification ?
La signification est souvent représentée par la lettre p ou par sig. (signification), ou même des étoiles dans les tableaux (=p<0,05, **=p<0,01, **=p<0,001
Quelques mots sur le p
-Le p, c’est la probabilité que l’hypothèse nulle soit vraie lorsque comparée à l’hypothèse testée
-Le seuil minimal en sciences sociales pour affirmer qu’il existe une relation statistiquement significative entre nos deux variables est p< 0,05
-Lorsque c’est significatif à p<0,05, nous rejetons H0 et concluons qu’il semble bel et bien exister un lien entre nos deux variables.
-Lorsque c’est supérieur à 0,05, nous ne pouvons pas rejeter l’hypothèse nulle.
-Par convention, les niveaux de signification sont (la plupart du temps) identifiés comme suit dans les tableaux :
* = p ≤ 0,05 ** = p ≤ 0,01 *** = p ≤ 0,001
Qu’est-ce que la force de la relation ?
Le coefficient de force (ou d’association) qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.
La force de la relation nous aide à répondre à quelle question
Est-ce que l’impact de X sur Y est fort, modéré ou faible ?
Que devons-nous regarder en lien avec la force de la relation ?
-Le coefficient de force est différent pour chaque test statistique.
-Il importe de connaitre le domaine d’étude pour identifier la force de la relation.
-Un coefficient de force de plus de 0,80 peut indiquer de la colinéarité… (c.-à-d. les deux variables mesurent le même phénomène).
Comment qualifier la force?
un barème selon Rea & Parker (1992)
-Des effets forts ne sont pas nécessairement intéressants
-La force des relations est souvent fonction du champ ou du domaine de recherche
Qu’est ce que le sens de la relation?
C’est à ce niveau que l’on transpose en mots concrets la relation entre nos variables.
Quels tests sont associés au sens de la relation?
Tableaux croisés et tests de moyenne:
Quels groupes a la fréquence ou la moyenne la plus élevée ? On compare les deux groupes sur la variable dépendante.
Corrélation
Relation positive : Plus un individu consomme de l’alcool, plus il risque de faire des délits…
Relation négative : Plus un individu consomme de l’alcool, moins celui-ci a d’inhibitions…
Corrélation vs causalité : conditions
- Il y a covariation (corrélation) entre les deux phénomènes
- La cause précède la conséquence
- Les explications alternatives sont exclues
Solution : design expérimental
Exemple : police et crime
Qu’est ce que le tableau de contingence
Permettent de synthétiser l’information et de tester le lien d’indépendance entre deux variables nominales.
-Principalement, sert à tester le lien d’indépendance entre deux variables
-Sert aussi à synthétiser l’information(exemple le pourcentage de femmes et d’hommes en faveur de la peine de mort)
Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population
-Mais aussi d’étudier le lien qui les unit
Les postulats d’utilisation et le Chi deux
Les postulats d’utilisation des tableaux de contingence utilisant le Chi carré
-Échantillonnage aléatoire
-Pour calculer un Chi carré, les nombres ne doivent pas être trop petits: le total ne doit pas être plus petit que 20, et la fréquence espérée inférieure à 5.
Le test d’indépendance de Chi² sert à répondre à la question suivante:
Existe-t-il un lien entre deux variables nominales? Il sert donc à tester des hypothèses.
Le test d’indépendance du Chi² est utile pour savoir si
si oui ou non il existe un lien entre deux variables: il nous indique la signification de la relation.
Qu’arrive t-il si le test de Chi est significatif à p<0,05
Nous rejetons H0 et concluons qu’il y a une relation entre nos deux variables. Lorsque c’est supérieur, nous ne pouvons rejeter avec certitude l’hypothèse nulle
Quelles sont les particularités du tableau de contingence du test de Chi
Calculer le test d’indépendance du Chi carré revient à comparer les résultats obtenus dans notre étude aux résultats théoriquement obtenus à l’aide du hasard.
Plus la différence entre les deux ensembles de résultats est élevée, plus la valeur du Chi carré est élevée, et plus la probabilité que le lien observé entre ces deux variables soit réel est élevée.
Quelle est la signification du Chi carré
-Le chi carré nous indique si nos variables sont associées ou non
Nous testons l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.
-Elle est associée au nombre de sujets (n)
Une très petite différence entre 2 groupes est significative avec 1000 sujets
-À l’inverse, avec de petits échantillons, on a besoin de grandes différences pour que ce soit significatif
Qu’est ce que la force de la relation pour le test de Chi
Le test de Chi deux nous sert à répondre à la question suivante: Existe-t-il un lien entre deux variables nominales? Il sert donc à tester des hypothèses.
Lorsque c’est significatif à p<0,05, nous rejetons H0. Lorsque c’est supérieur, nous ne pouvons rejeter l’hypothèse nulle.
Le test d’indépendance du Chi deux est utile pour savoir si oui ou non il existe un lien entre deux variables: il nous indique la signification de la relation.
Qu’est ce que le Phi?
Le Phi: Mesure dérivée du Chi carré.
On se rappelle que la valeur du Chi est directement influencée par le nombre de sujets et la force de la relation.
Le phi élimine l’effet de la taille de l’échantillon en divisant le chi carré par n, et en extrayant la racine carrée.
-Il est aussi appelé Pearson’s coefficient of mean-square contingency.
-Il est surtout utilisé dans le cas de tableaux 2x2
-Pour un tableau de plus de 2x2, la valeur du phi dépasse 1, et le rend moins intéressant.
Qu’est ce que le V de Cramer?
Le V de Cramer:
-Le V de Cramer est la mesure d’association la plus populaire basée sur une variation du Chi carré.
-Il varie de 0 à 1, et est donc facile à utiliser et à interpréter.
On l’utilise généralement dans les tableaux supérieurs à 2x2.
Les tests de différences de moyennes
Lorsque l’on veut comparer les moyennes de plusieurs groupes
-Une variable nominale (groupale)
-Une variable continue ou ordinale
Il existe deux séries de critères utiles afin de choisir le bon test à utiliser
-Le critère paramétrique / non paramétrique (normalité de la distribution, N > 30)
-Le critère du nombre de groupes à comparer
Les postulats d’utilisation du t de Student : les règles du jeu
En raison de sa popularité, le test t est fréquemment utilisé sans égard aux consignes d’utilisation, c’est-à-dire sans que ne soient respectés ses postulats. Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.
Quelles sont les 2 choses a s’assurer avant de faire le T de Student
Pour que soit valide le t, on doit s’assurer de deux choses:
Les distributions sont normales (cours 4)
Car si distributions non normales : moyenne non représentative
Les variances sont comparables (test de Levene)
Les formes de la variance de chaque groupe sont-elles similaires?
Qu’elle est la signification du T de Student
Le test de T sert à répondre à la question suivante: Existe-t-il un lien entre une variable dichotomique et une variable continue (ou ordinale)?
La signification (p) associée au coefficient t est utile pour savoir si oui ou non il existe un lien entre deux variables.
Qu’elle est la force de la relation du T de Student
La signification (p) associée au coefficient t donne la signification mais non la force de la relation…
Le Eta2 est le coefficient d’association (ou de force) des tests de moyennes paramétriques.
-Il mesure la force de l’association entre la variable catégorielle (nominale) et la variable continue.
-Il varie entre 0 et 1.
-Il donne une indication de la proportion de la variance expliquée.
-On l’obtient en utilisant la commande Means.
Qu’elle est le sens de la relation du T de Student
Pour les tests de moyennes (comme pour les tableaux de contingence), on ne parle pas de relation positive ou négative.
Le sens de la relation est analysé à l’aide des moyennes de vos groupes.
-Par exemple : les garçons commettent plus de violence physique que les filles.
Qu’est ce que l’analyse de variance simple ou oneway anova
-Aussi appelé analyse de variance simple ou à un facteur
-Vise à comparer non pas deux groupes mais bien trois groupes ou plus
-Le Ratio F (plutôt que le t) teste l’hypothèse d’une différence de moyennes entre les groupes
-Il ne nous aide pas à comprendre la nature de ces différences. Nous devons utiliser une autre série d’analyses afin de connaître plus en détail quels groupes sont significativement différents desquels
Comment contourner les limites associées à l’utilisation de la moyenne
-Dans certaines situations, les moyennes ne rendent pas justice aux résultats (distributions asymétriques, valeurs extrêmes, petits groupes, etc.)
-Il y a donc lieu de se tourner vers des équivalents plus souples pour comparer les groupes : les tests non paramétriques (i.e. les tests basés sur les rangs)
-Ces tests, au lieu d’utiliser les scores, utilisent les rangs occupés dans une distribution
-Dans une étude de 100 participants, la personne au score le plus élevé a le rang 100 tandis que celle au score le plus faible a le rang 1.
Qu’est ce que les analyses corrélationnelles
L’utilité de telles analyses : tester le lien (dépendance) entre des variables sur des échelles de mesure continue ou ordinale
Le choix de l’analyse corrélationnelle dépend :
-De la nature des variables
-De la distribution des variables
faits sur le coefficient de corrélationR de Pearson :
-Il varie entre -1 et 1
-Le signe indique le sens de la relation(un signe + indique une relation proportionnelle et un signe – indique une relation inversement proportionnelle)
-Un R près de 0 indique une absence de relation
-Un R près de 1 indique une très forte relation, 1 étant une relation parfaite (connaître notre variable indépendante nous permet de connaître notre variable dépendante)
-Un R de 0,10 peut être significatif, tout dépend du nombre de sujets utilisé (taille d’effet!)
-Un bon R dépend du domaine d’étude dans lequel vous travaillez… (En psycho et en crimino, à 0,40, on sort le champagne. En chimie, on vient probablement de faire sauter le labo…)
Qu’est ce que le R2 dans Le coefficient de Force d’une corrélation
-Le R2 est plus facile à interpréter que le R. Le R2 varie entre 0 et 1.
-R2 est la proportion de variance expliquée par la variable indépendante, ou la proportion de variance commune entre les deux variables.
-Si on observe une corrélation significative de 0,75 entre les placements et les lambdas de crimes, cela nous indique que 56,3% de la variance de ces deux variables est commune. En d’autres termes, connaître le nombre de placement nous permet de connaître 56,3% de la variance du Lambda.
-Il n’en demeure pas moins que 43,7% de la variance demeure inexpliquée…
Conséquemment, il y a d’autres trucs que cette VI qui explique la variance de la VD
Comment éliminer des valeurs extrêmes?
-Identifier via graphiques de distribution et tableaux de fréquence
-Soit éliminer les participants avec des valeurs extrêmes via select cases
-Soit en recodant les valeurs extrêmes en valeurs moins extrêmes
Qu’est ce que La version non-paramétrique de la corrélation
le Rho de Spearman
-Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s’il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l’existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance, …).
-Ce coefficient est donc très utile lorsque l’analyse du nuage de point révèle une forme curvilinéaire dans une relation qui semble mal s’ajuster à une droite. On notera également qu’il est préférable au coefficient de Pearson lorsque les distributions X et Y sont asymétriques et/ou comportent des valeurs exceptionnelles.
-Il varie de -1 à 1 et s’interprète de la même façon que le R de Pearson.
Pourquoi le multivarié ?
Modéliser le monde de manière plus réaliste
-La vie est plus que du bivarié : le monde n’est pas noir/blanc
-Plusieurs aspects influencent simultanément les phénomènes que nous étudions
Pour identifier la contribution unique des prédicteurs
Afin de détecter les relations artificielles
Prédire le plus efficacement à l’aide d’un nombre raisonnable de variables
Qu’est ce que La logique derrière l’analyse de régression linéaire multiple(RLM)
La RLM (Pearson, 1908) a pour objectif de mieux comprendre les relations entre plusieurs variables indépendantes (aussi appelés prédicteurs) et une variable dépendante.
Elle constitue donc une extension multivariée de l’analyse de corrélation.
Puisqu’elle utilise des variables continues, on peut la comprendre comme visant la prédiction plus que la distinction entre des groupes de personnes (test de moyenne vs corrélation).
Qu’est ce que La logique sous-jacente à l’analyse de régression linéaire multiple
L’analyse de régression permettra:
-De prédire une variable dépendante continue à l’aide d’autres variables intervalles ou de variables dichotomiques (aussi appelées variables dummy, ou variables indicatrices)
-D’estimer la proportion de variances expliquées de la variable dépendante, à un certain seuil de signification.
-D’estimer l’impact relatif des prédicteurs les uns par rapport aux autres
Qu’est ce que le R2
L’estimation de la force de la relation
-Jusqu’à quel point la régression explique-t-elle la variance de notre variable dépendante?
-L’inspection du diagramme de points nous donne déjà un aperçu de la force de la relation
plus les points sont condensés autour de la droite, plus la régression prédit avec précision la variable dépendante
-Le R2 ou coefficient de détermination, donne une mesure formelle de la proportion de la variance expliquée
Quelles sont les étapes de la régression
-Le «ménage» des données
-L’inspection des distributions
-L’élimination ou le recodage des valeurs extrêmes
-L’inspection de la linéarité des relations
(Devrait normalement avoir été fait lors des analyses bivariées)
Question 1: Le modèle fonctionne-t-il? (en régression linéaire)
-Peut-on prédire notre variable dépendante à l’aide de nos prédicteurs?
-Le ratio F test l’hypothèse selon laquelle tous les coefficients sont de 0.
-La réponse: La signification du F de l’ANOVA du modèle
Qu’est ce que Les coefficients de régression Beta β
-Ce sont les coefficients de régression standardisés (aussi appelés poids Beta)
-Ils sont utiles afin de comparer les influences relatives de chacun des prédicteurs du modèle. Il permet d’identifier les meilleurs prédicteurs.
-On peut comparer les β entre eux
Quels sont les coefficients de régression B?
-Estimés non biaisés (unbiaised estimates): ce sont les effets purs des variables indépendantes sur la variable dépendante exprimés en unités naturelles
-On les utilise lorsque l’on veut prédire un score pour un sujet en particulier
-On ne peut pas comparer les B entre eux
Quelle est l’utilité de la régression logistique
Lorsque les variables avec lesquelles on travaille sont catégorielles, les choix analytiques sont particuliers
Dans ce cas, on a généralement recours à l’analyse à l’aide de tableaux croisés en analyses bivariées
Toutefois, l’analyse avec le tableau croisé ne permet pas
-de traiter plus d’un prédicteur à la fois
-d’estimer s’il existe des effets d’interaction entre les prédicteurs
-d’utiliser des prédicteurs continus
-Elle s’utilise dans les cas de variables dépendantes catégorielles
-Attention : on ne prédit pas une «quantité», mais bien une probabilité
-Au même titre que la régression linéaire, la régression logistique permet d’estimer la contribution unique de plusieurs prédicteurs sur la présence ou non d’une caractéristique dichotomique (ou catégorielle)
Il y en a deux sortes :
-Binomiale : pour variable dichotomique (ex : oui vs non)
-Multinomiale : pour variable à 3 groupes ou plus (ex : bleu, vert, rouge)
Comment savoir quel type de régression à utiliser
Tu choisis le modèle de régression en fonction du type de ta variable dépendante, pas l’inverse.
- Régression linéaire multiple
À utiliser quand la variable dépendante est continue (ex : revenu, taille, score, etc.).
Parfois aussi utilisée pour une variable ordinale (ex : niveau d’éducation “primaire, secondaire, universitaire”), mais avec prudence.
Elle prédit une valeur numérique.
Exemple : prédire le revenu en fonction de l’âge, du niveau d’études, et du genre.
- Régression logistique
À utiliser quand la variable dépendante est catégorielle (ex : oui/non, succès/échec, groupe A/B/C).
Elle prédit la probabilité d’appartenir à une catégorie.
Exemple : prédire si une personne va voter (oui/non) selon son âge, son genre et son niveau d’éducation.