Examen final Flashcards
Qu’est-ce qu’une analyse bivariée ?
- Elle permet d’étudier la relation entre deux variables (variable dépendante et indépendante).
- La famille de tests utilisée dépend du type de variables (nominale, continue, ordinale).
Quels sont les avantages des statistiques bivariées ?
- Permet de comprendre le sens des relations.
- Permet de comprendre la force des relations.
- Permet de faire du « ménage » dans nos données (les réorganiser).
Quelles sont les limites des statistiques bivariées ?
- Analyse uniquement une relation simple.
- Limite les interprétations possibles.
- Limite notre compréhension du monde (la nature complexe des relations).
Quels sont les postulats d’utilisation ?
Quel test statistique choisir ?
Ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats.
- Ils sont associés à chaque famille de test.
- Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.
- On vérifie les postulats avant de réaliser le test et d’analyser les résultats.
Qu’est-ce que la signification ?
Étape 1 de l’analyse des résultats.
Teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population ou si elle est attribuable à la chance/au hasard.
- Représentée par p ou sig. : la probabilité que l’hypothèse nulle soit vraie lorsque comparée à l’hypothèse testée.
* = p ≤ 0,05 | ** = p ≤ 0,01 | *** = p ≤ 0,001
- Significatif à p<0,05 : rejet de H0, un lien existe entre nos deux variables.
- Supérieur à 0,05 : ne peut pas rejeter l’hypothèse nulle.
Est-ce que ma relation entre X et Y est statistiquement significative ?
Qu’est-ce que la force (association) de la relation ?
Étape 2 de l’analyse des résultats.
Qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.
- Il est différent pour chaque test statistique.
- Connaitre le domaine d’étude pour identifier la force de la relation.
- Un coefficient de force de plus de 0,80 peut indiquer de la colinéarité (les deux variables mesurent le même phénomène).
Est-ce que l’impact de X sur Y est fort, modéré ou faible ?
Qu’est-ce que le barème selon Rea & Parker (1992) ?
- Des effets forts ne sont pas nécessairement intéressants.
- La force des relations est souvent en fonction du champ ou du domaine de recherche.
En sciences sociales, peu important. Alors qu’en sciences natures, très important.
Qu’est-ce que le sens de la relation ?
Étape 3 de l’analyse des résultats.
On transpose en mots concrets la relation entre nos variables.
1. Tableaux croisés et tests de moyenne :
- Quel groupe a la fréquence ou la moyenne la plus élevée ?
- On compare les deux groupes sur la variable dépendante.
2. Corrélation :
- Relation positive : Plus X, plus Y.
- Relation négative : Plus X, moins Y.
Quelles sont les conditions de la corrélation vs la causalité ?
- Causalité : certains facteurs doivent causer un événement, la cause précède la conséquence.
- Corrélation/Covariation : relation entre deux variables.
- Les explications alternatives sont exclues.
EXEMPLE
Le crime et le prix des maisons : causalité ou corrélation?
1. Une différence de 0,1% de la densité criminelle dans les quartiers de Londres est associée à une hausse des prix de l’immobilier de 1%.
- Lorsque le crime augmente, le prix des maisons baisse.
2. Éloigner une maison d’un km d’un hot spot criminel augmente sa valeur de 4000$.
- Lorsque le prix des maisons augmente, le taux de crimes augmente (plus de biens de valeur, pas le même type de criminalité, violence intrafamiliale).
3. Le prix de vente des maisons (1995-1998) est moins élevé si le niveau de crime de l’année précédente est plus élevé.
- Donc, le crime et le prix des maisons s’inter-influencent.
Qu’est-ce que le tableau de contingence ?
Permet de :
1. Tester le lien d’indépendance entre deux variables.
2. Synthétiser l’information.
- Moyen de représenter simultanément deux caractères observés sur une même population et d’étudier le lien qui les unit.
Quelle sorte de variables (continue, dichotomique, nominale) ?
Que sont les postulats d’utilisation utilisant le Chi carré ?
- Avec un échantillonnage aléatoire.
- Le total ne doit pas être plus petit que 20.
- La fréquence espérée ne doit pas être inférieure à 5.
Qu’est-ce que la signification avec Chi carré ?
- Il sert à tester des hypothèses.
- Existe-t-il un lien entre deux variables nominales ? - Il est utile pour savoir s’il existe un lien entre deux variables nominales (signification de la relation).
- Significatif à p<0,05 : rejet de H0, une relation existe entre nos deux variables.
- Lorsque c’est supérieur, nous ne pouvons rejeter avec certitude l’hypothèse nulle. -
Associée au nombre de sujets (n).
- Une très petite différence entre deux groupes est significative avec 1000 sujets.
- À l’inverse, avec de petits échantillons, on a besoin de grandes différences pour que ce soit significatif.
Qu’est-ce que le tableau de contingence utilisant le Chi carré ?
- Comparer les résultats obtenus dans notre étude aux résultats théoriquement obtenus à l’aide du hasard.
- Plus la différence entre les deux ensembles de résultats est élevée, plus la valeur du Chi carré est élevée.
= Plus la probabilité que le lien observé entre ces deux variables soit réel est élevée.
En théorie vs en pratique (résultats).
Qu’est-ce que la force de la relation avec le Chi carré ?
- La valeur du Chi est directement influencée par le nombre de sujets et la force de la relation.
- Le Phi (Pearson’s coefficient of mean-square contingency) : mesure dérivée du Chi carré.
- Élimine l’effet de la taille de l’échantillon en divisant le chi carré par n, et en extrayant la racine carrée.
- Utilisé dans les tableaux 2x2.
- Tableau de plus de 2x2 : la valeur du phi dépasse 1 = le rend moins intéressant.
- Influencé par le nombre de catégories.
Qu’est-ce que le V de Cramer ?
Dans la force de la relation.
La mesure d’association la plus populaire basée sur une variation du Chi carré.
- Varie de 0 à 1.
- Facile à utiliser et à interpréter.
- Utilisé dans les tableaux supérieurs à 2x2.
Que sont les tests de différences de moyenne ?
-
Comparer les moyennes de plusieurs groupes.
- Une variable nominale (groupale).
- Une variable continue ou ordinale. -
Critères pour choisir le bon test à utiliser.
- Paramétrique ou Non paramétrique (normalité de la distribution, N > 30).
- Pas normal = automatiquement NON paramétrique.
- Nombre de groupes à comparer.
Qu’est-ce que le T de Student ?
- Postulats d’utilisation non respectés = fausse sensibilité du test.
- Pour qu’il soit valide :
- Les distributions sont normales.
Distributions non normales : moyenne non représentative (quel test ?).
- Les variances sont comparables (test de Levene).
Les formes de la variance de chaque groupe sont-elles similaires ?
Qu’est-ce que la signification du T de Student ?
- *Existe-t-il un lien entre une variable dichotomique et une variable continue (ou ordinale) ? *
- Utile pour savoir s’il existe un lien entre deux variables.
Qu’est-ce que la force de la relation du T de Student ?
Le Eta2.
- Coefficient d’association (ou de force) des tests de moyennes paramétriques.
- Entre la variable catégorielle (nominale) et la variable continue.
- Varie entre 0 et 1.
- Indication de la proportion de la variance expliquée.
SPSS : commande Means.
Qu’est-ce que le sens de la relation avec le T de Student ?
- Pour les tests de moyennes (comme pour les tableaux de contingence), on ne parle pas de relation positive ou négative.
- Analysé à l’aide des moyennes de vos groupes.
Quelle analyse peut-on faire avec la variance simple
(à un facteur) ou Oneway ANOVA ?
- Vise à comparer trois groupes ou plus.
- Ratio F : teste l’hypothèse d’une différence de moyennes entre les groupes.
- Il ne fait pas comprendre la nature de ces différences.
Il faut utiliser une autre série d’analyses afin de connaître plus en détail quels groupes sont significativement différents desquels.
Comment peut-on neutraliser les limites de l’utilisation de la moyenne ?
- Pour les distributions asymétriques, valeurs extrêmes, petits groupes, etc.
-
Tests non paramétriques utilisent les rangs occupés dans une distribution, donnés par la médiane.
EXEMPLE : dans une étude de 100 participants, la personne au score le plus élevé a le rang 100 tandis que celle au score le plus faible a le rang 1.
Quelle est l’utilité des analyses corrélationnelles ?
Tester le lien (dépendance) entre des variables sur des échelles de mesure continue ou ordinale.
Le choix dépend :
- De la nature des variables.
- De la distribution des variables.
Mesure ordinale : 7 choix ou plus.
Qu’est-ce que le coefficient de corrélation R de Pearson ?
Varie entre -1 et 1.
- Signe + : relation proportionnelle.
- Signe – : relation inversement proportionnelle.
- R près de 0 : absence de relation.
- R près de 1 : très forte relation, 1=relation parfaite. Connaître notre variable indépendante nous permet de connaître notre variable dépendante.
- R de 0,10 peut être significatif (dépend du nombre de sujets utilisé, taille d’effet).
= Dépend du domaine d’étude.
0.80 = colinéarité.
Qu’est-ce que le coefficient de force d’une corrélation R2 ?
- Plus facile à interpréter.
- Varie entre 0 et 1.
- Proportion de variance commune entre les deux variables expliquée par la variable indépendante.
EXEMPLE : corrélation significative de 0.75 entre les placements et les lambdas de crimes, cela nous indique que 56,3% de la variance de ces deux variables est commune.
- Connaître le nombre de placement nous permet de connaître 56,3% de la variance du Lambda.
- 43,7% de la variance demeure inexpliquée.
Comment peut-on éliminer des valeurs extrêmes ?
- Identifier via graphiques de distribution et tableaux de fréquence.
- Soit éliminer les participants avec des valeurs extrêmes en sélectionnant les données (selec cases).
- Soit en recodant les valeurs extrêmes en valeurs moins extrêmes.
Justifier dans l’examen.
Qu’est-ce que le Rho de Spearman ?
- Aussi appelé coefficient de corrélation de rang.
- Varie de -1 à 1.
- S’interprète de la même façon que le R de Pearson.
- Savoir s’il existe une relation entre le rang des observations pour deux caractères X et Y.
= Permet de détecter l’existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance, etc.). - Utile lorsque l’analyse du nuage de point révèle une forme curvilinéaire dans une relation qui semble mal s’ajuster à une droite.
- Il est préférable lorsque les distributions X et Y sont asymétriques et/ou comportent des valeurs exceptionnelles.
Pourquoi choisir le multivarié ?
-
Modéliser le monde de manière plus réaliste.
- La vie n’est pas bivariée : il existe plus que deux aspects de chaque chose.
- Plusieurs aspects influencent simultanément les phénomènes que nous étudions. - Pour identifier la contribution unique des prédicteurs.
- Détecter les relations artificielles.
- Prédire plus efficacement à l’aide d’un nombre raisonnable de variables.
Quels sont les principes généraux du multivarié ?
Dépend de la variable dépendante (pas un choix).
- Linéaire multiple : pour variable continue (ou ordinale).
- Logistique : pour variable catégorielle.
Qu’est-ce que la logique derrière l’analyse de régression linéaire multiple ?
- Mieux comprendre les relations entre plusieurs variables indépendantes (prédicteurs) et une variable dépendante.
- Extension multivariée de l’analyse de corrélation.
- Utilise des variables continues : vise la prédiction plus que la distinction entre des groupes de personnes (test de moyenne vs corrélation).
NE PAS retenir les postulats d’utilisation (pris pour acquis).
- Prédire une variable dépendante continue à l’aide d’autres variables intervalles ou de variables dichotomiques (variables dummy / indicatrices).
- Estimer la proportion de variances expliquées de la variable dépendante (à un certain seuil de signification).
- Estimer l’impact relatif des prédicteurs les uns par rapport aux autres.
B et Beta : différences ?
Jusqu’à quel point la régression explique-t-elle la variance de notre variable dépendante ?
L’estimation de la force de la relation : le R2.
- L’inspection du diagramme de points.
- Plus les points sont condensés autour de la droite, plus la régression prédit avec précision la variable dépendante. - Le R2 (coefficient de détermination) donne une mesure formelle de la proportion de la variance expliquée.
Quelles sont les étapes de la régression ?
- Le «ménage» des données.
- L’inspection des distributions.
- L’élimination ou le recodage des valeurs extrêmes.
- L’inspection de la linéarité des relations
- Avoir été fait lors des analyses bivariées.
Le modèle fonctionne-t-il ?
Régression linéaire.
Peut-on prédire notre variable dépendante à l’aide de nos prédicteurs?
- Le Ratio F test l’hypothèse selon laquelle tous les coefficients sont de 0.
- La réponse : la signification du F de l’ANOVA du modèle.
- Ratio F : aussi dans les tests de moyenne.
- Même ratio que l’ANOVA.
Qu’est-ce que le coefficient de régression standardisé Beta β ?
- Appelé poids Beta.
- Comparer les influences relatives de chacun des prédicteurs du modèle.
- Il permet d’identifier les meilleurs prédicteurs.
- Comparer les β entre eux.
Qu’est-ce que le coefficient de régression non-standardisé B ?
- Estimé non biaisé (unbiaised estimates) : effets purs des variables indépendantes sur la variable dépendante exprimés en unités naturelles (à chaque augmentation d’une unité de la VI).
- Prédire un score pour un sujet en particulier.
- On ne peut pas comparer les B entre eux.
Qu’est-ce que l’utilité de la régression logistique ?
- Variables dépendantes catégorielles.
- Prédire une probabilité que quelque chose arrive.
-
Estimer la contribution unique de plusieurs prédicteurs sur la présence ou non d’une caractéristique dichotomique (ou catégorielle).
1. Binomiale : variable dichotomique (oui/non).
2. Multinomiale : variable à trois groupes ou plus (bleu, vert, rouge). - Analyse à l’aide de tableaux croisés en analyses bivariées.
- Analyse avec le tableau croisé ne permet pas :
- De traiter plus d’un prédicteur à la fois.
- D’estimer s’il existe des effets d’interaction entre les prédicteurs.
- D’utiliser des prédicteurs continus.
Pour expliquer une variable oui/non, homme/femme, un peu/beaucoup/etc.