exam final MQ Flashcards

1
Q

QU’EST-CE QU’UNE ANALYSE BIVARIÉE ?

A

Elle permet d’étudier la relation entre deux variables (variable dépendante et indépendante).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Avantages et limites d’une analyse bivariée ?

A

Avantages :
-Permet de comprendre le sens des relations
-Permet de comprendre la force des relations
-Permet de faire du ‘‘ménage’’ dans nos données

Limites :
-Analyse d’une relation simple
-Limite les interprétations possibles
-Limite notre compréhension du monde (la nature complexe des relations)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

QUEL TEST STATISTIQUE CHOISIR ? Postulation d’utilisation

A
  • Des postulats d’utilisation sont associés à chaque famille de test.
  • Les postulats sont un ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats.
  • Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.
  • On vérifie les postulats avant de réaliser le test et d’analyser les résultats.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

test pour Statistiques descriptives ?

A

Mesure de tendance centrale et de dispersion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Statistique bivariée : deux variables catégorielles ?

A

Familles des tableaux de contingence

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Statistique bivariée : variable catégorielle avec variable continue (ordinale) ?

A

Famille des tests de moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Statistique bivariée : variable catégorielle avec variable continue (ordinale) Distribution normale ? n>30

A

2 groupes : T-student
Plus de 2 groupes : Oneway Anova

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Statistique bivariée : variable catégorielle avec variable continue (ordinale) Distribution non-normale ? n<30

A

2 groupes : U de Man whitney
plus de 2 groupes : Kruskal Wallis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Statistique bivarié : deux variables continues ou ordinales

A

Famille de corrélation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Statistique bivarié : deux variables continues ou ordinales. Distribution normale

A

R de Pearson

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Statistique bivarié : deux variables continues ou ordinales. Distribution non-normale ou variables ordinales

A

Rho de Spearman

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Statistique multivariée : Prédiction

A

analyse de régression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Statistique multivariée : Distinction

A

Analyse de variance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Analyse de régression : variable dépendante intervalle

A

régression linéaire multiple

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Analyse de régression : variable dépendante dichotomique

A

régression logistic

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Analyse de variance : sans variable contrôle

A

ANOVA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Analyse de variance : avec variable contrôle

A

ANCOVA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Qu’est-ce que la signification ?

A

La mesure de signification teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

La signification nous aide à répondre à quel question ?

A

Est-ce que ma relation entre X et Y est statistiquement significative ?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Que devons-nous regarder en lien avec la signification ?

A

La signification est souvent représentée par la lettre p ou par sig. (signification), ou même des étoiles dans les tableaux (=p<0,05, **=p<0,01, **=p<0,001)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

C’est quoi le p ?

A

c’est la probabilité que l’hypothèse nulle soit vraie lorsque comparée à l’hypothèse testée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Comment analyser le p ?

A
  • Le seuil minimal en sciences sociales pour affirmer qu’il existe une relation statistiquement significative entre nos deux variables est p< 0,05
  • Lorsque c’est significatif à p<0,05, nous rejetons H0 et concluons qu’il semble bel et bien exister un lien entre nos deux variables.
  • Lorsque c’est supérieur à 0,05, nous ne pouvons pas rejeter l’hypothèse nulle.
  • Par convention, les niveaux de signification sont (la plupart du temps) identifiés comme suit dans les tableaux :
    * = p ≤ 0,05 ** = p ≤ 0,01 *** = p ≤ 0,001
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Qu’est-ce que la force de la relation ?

A

Le coefficient de force (ou d’association) qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

La force de la relation nous aide à répondre à quelle question ?

A

Est-ce que l’impact de X sur Y est fort, modéré ou faible ?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Que devons-nous regarder en lien avec la force de la relation ?

A

Le coefficient de force est différent pour chaque test statistique.

Il importe de connaitre le domaine d’étude pour identifier la force de la relation.

Un coefficient de force de plus de 0,80 peut indiquer de la colinéarité… (c.-à-d. les deux variables mesurent le même phénomène).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Que représente le barème de force de Rea et Parker ?

A

Des effets forts ne sont pas nécessairement intéressants

La force des relations est souvent fonction du champ ou du domaine de recherche

27
Q

Qu’est-ce que le sens d’une relation ?

A

C’est à ce niveau que l’on transpose en mots concrets la relation entre nos variables.

28
Q

À quoi servent les tableaux croisés et tests de moyenne ?

A

Quels groupes a la fréquence ou la moyenne la plus élevée ? On compare les deux groupes sur la variable dépendante.

29
Q

Quels sont les 2 types de relation d’une corrélation ?

A

Relation positive : Plus un individu consomme de l’alcool, plus il risque de faire des délits…

Relation négative : Plus un individu consomme de l’alcool, moins celui-ci a d’inhibitions…

30
Q

3 conditions pour différencier une corrélation d’une causalité ?

A

Il y a covariation (corrélation) entre les deux phénomènes

La cause précède la conséquence

Les explications alternatives sont exclues

31
Q

Qu’est ce que le tableau de contingence ?

A

Permettent de synthétiser l’information et de tester le lien d’indépendance entre deux variables nominales.

Principalement, sert à tester le lien d’indépendance entre deux variables

Sert aussi à synthétiser l’information
Exemple le pourcentage de femmes et d’hommes en faveur de la peine de mort

Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population
Mais aussi d’étudier le lien qui les unit

32
Q

2 postulats pour utiliser le Chi2 ?

A

Échantillonnage aléatoire

Pour calculer un Chi carré, les nombres ne doivent pas être trop petits : le total ne doit pas être plus petit que 20, et la fréquence espérée inférieure à 5.

33
Q

À quel question le Chi2 répond ?

A

Existe-t-il un lien entre deux variables nominales?

Il sert donc à tester des hypothèses.

Le test d’indépendance du Chi² est utile pour savoir si oui ou non il existe un lien entre deux variables : il nous indique la signification de la relation.

Lorsque c’est significatif à p<0,05, nous rejetons H0 et concluons qu’il y a une relation entre nos deux variables. Lorsque c’est supérieur, nous ne pouvons rejeter avec certitude l’hypothèse nulle

34
Q

À quoi sert le test d’indépendance du Chi 2 ?

A

Calculer le test d’indépendance du Chi carré revient à comparer les résultats obtenus dans notre étude aux résultats théoriquement obtenus à l’aide du hasard.

Plus la différence entre les deux ensembles de résultats est élevée, plus la valeur du Chi carré est élevée, et plus la probabilité que le lien observé entre ces deux variables soit réel est élevée.

35
Q

Que représente la signification du Chi 2 ?

A

Le chi carré nous indique si nos variables sont associées ou non

Nous testons l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.

Elle est associée au nombre de sujets (n)
Une très petite différence entre 2 groupes est significative avec 1000 sujets

À l’inverse, avec de petits échantillons, on a besoin de grandes différences pour que ce soit significatif

36
Q

Que représente la force du Chi 2 ?

A

Le test de Chi deux nous sert à répondre à la question suivante : Existe-t-il un lien entre deux variables nominales? Il sert donc à tester des hypothèses.

Lorsque c’est significatif à p<0,05, nous rejetons H0. Lorsque c’est supérieur, nous ne pouvons rejeter l’hypothèse nulle.

Le test d’indépendance du Chi deux est utile pour savoir si oui ou non il existe un lien entre deux variables : il nous indique la signification de la relation.

37
Q

À quoi sert le Phi ?

A

Le Phi : Mesure dérivée du Chi carré.
On se rappelle que la valeur du Chi est directement influencée par le nombre de sujets et la force de la relation.

Le phi élimine l’effet de la taille de l’échantillon en divisant le chi carré par n, et en extrayant la racine carrée.

Il est aussi appelé Pearson’s coefficient of mean-square contingency.

Il est surtout utilisé dans le cas de tableaux 2x2

Pour un tableau de plus de 2x2, la valeur du phi dépasse 1, et le rend moins intéressant.

38
Q

À quoi sert le V de Cramer ?

A

Le V de Cramer est la mesure d’association la plus populaire basée sur une variation du Chi carré.
Il varie de 0 à 1, et est donc facile à utiliser et à interpréter.

On l’utilise généralement dans les tableaux supérieurs à 2x2.

39
Q

Pourquoi utiliser différents test de moyenne ?

A

Lorsque l’on veut comparer les moyennes de plusieurs groupes

Une variable nominale (groupale)

Une variable continue ou ordinale

Il existe deux séries de critères utiles afin de choisir le bon test à utiliser

Le critère paramétrique / non paramétrique (normalité de la distribution, N > 30)

Le critère du nombre de groupes à comparer

40
Q

Quels sont les règles d’utilisation de T de Student ?

A

En raison de sa popularité, le test t est fréquemment utilisé sans égard aux consignes d’utilisation, c’est-à-dire sans que ne soient respectés ses postulats. Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test. Pour que soit valide le t, on doit s’assurer de deux choses :

Les distributions sont normales (cours 4)
Car si distributions non normales : moyenne non représentative

Les variances sont comparables (test de Levene)
Les formes de la variance de chaque groupe sont-elles similaires?

41
Q

Que représente la signification du T de Student ?

A

Le test de T sert à répondre à la question suivante : Existe-t-il un lien entre une variable dichotomique et une variable continue (ou ordinale)?

La signification (p) associée au coefficient t est utile pour savoir si oui ou non il existe un lien entre deux variables.

42
Q

Que représente la force du T de Student ?

A

La signification (p) associée au coefficient t donne la signification mais non la force de la relation…

Le Eta2 est le coefficient d’association (ou de force) des tests de moyennes paramétriques.

Il mesure la force de l’association entre la variable catégorielle (nominale) et la variable continue.

Il varie entre 0 et 1.

Il donne une indication de la proportion de la variance expliquée.

On l’obtient en utilisant la commande Means.

43
Q

Que représente le sens du T de Student ? (test de moyenne)

A

Pour les tests de moyennes (comme pour les tableaux de contingence), on ne parle pas de relation positive ou négative.

Le sens de la relation est analysé à l’aide des moyennes de vos groupes.
Par exemple : les garçons commettent plus de violence physique que les filles.

44
Q

Qu’est ce que l’analyse de variance ou oneway anova ?

A

Aussi appelé analyse de variance simple ou à un facteur

Vise à comparer non pas deux groupes mais bien trois groupes ou plus

Le Ratio F (plutôt que le t) teste l’hypothèse d’une différence de moyennes entre les groupes

Il ne nous aide pas à comprendre la nature de ces différences. Nous devons utiliser une autre série d’analyses afin de connaître plus en détail quels groupes sont significativement différents desquels.

45
Q

Comment contourner les limites de l’utilisation de la moyenne ?

A

Dans certaines situations, les moyennes ne rendent pas justice aux résultats (distributions asymétriques, valeurs extrêmes, petits groupes, etc.)

Il y a donc lieu de se tourner vers des équivalents plus souples pour comparer les groupes : les tests non paramétriques (i.e. les tests basés sur les rangs)

Ces tests, au lieu d’utiliser les scores, utilisent les rangs occupés dans une distribution

Dans une étude de 100 participants, la personne au score le plus élevé a le rang 100 tandis que celle au score le plus faible a le rang 1.

46
Q

Quel est l’utilité des analyses corrélationnelles ?

A

L’utilité de telles analyses : tester le lien (dépendance) entre des variables sur des échelles de mesure continue ou ordinale

Le choix de l’analyse corrélationnelle dépend :
De la nature des variables
De la distribution des variables

47
Q

Que représente le coefficient de corrélation R de Pearson ?

A

Il varie entre -1 et 1

Le signe indique le sens de la relation (un signe + indique une relation proportionnelle et un signe – indique une relation inversement proportionnelle)

Un R près de 0 indique une absence de relation

Un R près de 1 indique une très forte relation, 1 étant une relation parfaite (connaître notre variable indépendante nous permet de connaître notre variable dépendante)

Un R de 0,10 peut être significatif, tout dépend du nombre de sujets utilisé (taille d’effet!)

Un bon R dépend du domaine d’étude dans lequel vous travaillez… (En psycho et en crimino, à 0,40, on sort le champagne. En chimie, on vient probablement de faire sauter le labo…)

48
Q

Que représente le R2 (coefficient de force d’une corrélation) ?

A

Le R2 est plus facile à interpréter que le R. Le R2 varie entre 0 et 1.

R2 est la proportion de variance expliquée par la variable indépendante, ou la proportion de variance commune entre les deux variables.

Si on observe une corrélation significative de 0,75 entre les placements et les lambdas de crimes, cela nous indique que 56,3% de la variance de ces deux variables est commune. En d’autres termes, connaître le nombre de placement nous permet de connaître 56,3% de la variance du Lambda.

Il n’en demeure pas moins que 43,7% de la variance demeure inexpliquée…
Conséquemment, il y a d’autres trucs que cette VI qui explique la variance de la VD

49
Q

Comment éliminer les valeurs extrêmes ?

A

Identifier via graphiques de distribution et tableaux de fréquence :

Soit éliminer les participants avec des valeurs extrêmes via select cases

Soit en recodant les valeurs extrêmes en valeurs moins extrêmes

50
Q

Qu’est-ce que le Rho de Spearman ?

A

Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s’il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l’existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance, …).

Ce coefficient est donc très utile lorsque l’analyse du nuage de point révèle une forme curvilinéaire dans une relation qui semble mal s’ajuster à une droite. On notera également qu’il est préférable au coefficient de Pearson lorsque les distributions X et Y sont asymétriques et/ou comportent des valeurs exceptionnelles.

Il varie de -1 à 1 et s’interprète de la même façon que le R de Pearson.

51
Q

Pourquoi utilise-t-on le multivariée ?

A

Modéliser le monde de manière plus réaliste : La vie est plus que du bivarié : le monde n’est pas noir/blanc + Plusieurs aspects influencent simultanément les phénomènes que nous étudions

Pour identifier la contribution unique des prédicteurs

Afin de détecter les relations artificielles

Prédire le plus efficacement à l’aide d’un nombre raisonnable de variables

52
Q

Comment savoir si on doit faire un régression linéaire ou logistique ?

A

Linéaire multiple : pour variable continue (ou ordinale)
Logistique : pour variable catégorielle

53
Q

Qu’est ce qu’une analyse de régression linéaire multiple ?

A

La RLM (Pearson, 1908) a pour objectif de mieux comprendre les relations entre plusieurs variables indépendantes (aussi appelés prédicteurs) et une variable dépendante.

Elle constitue donc une extension multivariée de l’analyse de corrélation.

Puisqu’elle utilise des variables continues, on peut la comprendre comme visant la prédiction plus que la distinction entre des groupes de personnes (test de moyenne vs corrélation).

54
Q

Qu’est ce que la régression linéaire multiple permet de faire ?

A

L’analyse de régression permettra:
De prédire une variable dépendante continue à l’aide d’autres variables intervalles ou de variables dichotomiques (aussi appelées variables dummy, ou variables indicatrices)

D’estimer la proportion de variances expliquées de la variable dépendante, à un certain seuil de signification.

D’estimer l’impact relatif des prédicteurs les uns par rapport aux autres

55
Q

À quoi sert le R2 (estimation de la force de la relation) ?

A

Jusqu’à quel point la régression explique-t-elle la variance de notre variable dépendante?

L’inspection du diagramme de points nous donne déjà un aperçu de la force de la relation
plus les points sont condensés autour de la droite, plus la régression prédit avec précision la variable dépendante

Le R2 ou coefficient de détermination, donne une mesure formelle de la proportion de la variance expliquée

56
Q

Quels sont les étapes de la régression (4)?

A
  1. Le « ménage » des données
  2. L’inspection des distributions
  3. L’élimination ou le recodage des valeurs extrêmes
  4. L’inspection de la linéarité des relations

Devrait normalement avoir été fait lors des analyses bivariées

57
Q

Qu’est ce que les coefficients de régression Beta β ?

A

Ce sont les coefficients de régression standardisés (aussi appelés poids Beta)

Ils sont utiles afin de comparer les influences relatives de chacun des prédicteurs du modèle. Il permet d’identifier les meilleurs prédicteurs.

On peut comparer les β entre eux

truc pour se rappeler : poisson BETA → se batte
donc le beta se batte pour savoir c’est qui le plus fort, on peut donc les comparer

58
Q

Qu’est-ce que les coefficients de régression B ?

A

Estimés non biaisés (unbiaised estimates): ce sont les effets purs des variables indépendantes sur la variable dépendante exprimés en unités naturelles

On les utilise lorsque l’on veut prédire un score pour un sujet en particulier

On ne peut pas comparer les B entre eux

59
Q

Quel est l’utilité de la régression logistique ?

A

Lorsque les variables avec lesquelles on travaille sont catégorielles, les choix analytiques sont particuliers

Dans ce cas, on a généralement recours à l’analyse à l’aide de tableaux croisés en analyses bivariées

Toutefois, l’analyse avec le tableau croisé ne permet pas
de traiter plus d’un prédicteur à la fois
- d’estimer s’il existe des effets
- d’interaction entre les prédicteurs
- d’utiliser des prédicteurs continus

60
Q

Quels sont les deux sortes de régression logistique ?

A

Binomiale : pour variable dichotomique (ex : oui vs non)

Multinomiale : pour variable à 3 groupes ou plus (ex : bleu, vert, rouge)

61
Q

Qu’est-ce qu’on prédit avec la régression logistique ?

A

on ne prédit pas une « quantité », mais bien une probabilité

ex : la probabilité que la personne répond oui au début et à la fin

62
Q

Qu’est-ce que la régression logistique permet d’estimer ?

A

La régression logistique permet d’estimer la contribution unique de plusieurs prédicteurs sur la présence ou non d’une caractéristique dichotomique (ou catégorielle)

63
Q

Quel type de variables utilise la régression logistique ?

A

Elle s’utilise dans les cas de variables dépendantes catégorielles