Révision Flashcards

1
Q

Qu’est-ce qu’une analyse bivariée ?

A

-Elle permet d’étudier la relation entre deux variables (variable dépendante et indépendante).
-La famille de tests utilisée dépend du type de variables utilisées (nominale, continue, ordinale).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quels sont les avantages et limites des statistiques bivariées?

A

Avantages :
-Permet de comprendre le sens des relations
-Permet de comprendre la force des relations
-Permet de faire du ‘‘ménage’’ dans nos données

Limites :
-Analyse d’une relation simple
-Limite les interprétations possibles
-Limite notre compréhension du monde (la nature complexe des relations)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment savoir quel test statistique choisir?

A

Les postulats d’utilisation

-Des postulats d’utilisation sont associés à chaque famille de test.
-Les postulats sont un ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats.
-Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.
-On vérifie les postulats avant de réaliser le test et d’analyser les résultats.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est ce que l’arbre décisionel?

A

un arbre pour choisir l’analyse statistique approprié

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quelles sont les 3 étapes de l’analyse des résultats

A

Signification, Force de la relation, Sens de la relation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce que la signification ?

A

La mesure de signification teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

La signification nous aide à répondre à quelle question?

A

Est-ce que ma relation entre X et Y est statistiquement significative ?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que devons-nous regarder en lien avec la signification ?

A

La signification est souvent représentée par la lettre p ou par sig. (signification), ou même des étoiles dans les tableaux (=p<0,05, **=p<0,01, **=p<0,001

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelques mots sur le p

A

-Le p, c’est la probabilité que l’hypothèse nulle soit vraie lorsque comparée à l’hypothèse testée
-Le seuil minimal en sciences sociales pour affirmer qu’il existe une relation statistiquement significative entre nos deux variables est p< 0,05
-Lorsque c’est significatif à p<0,05, nous rejetons H0 et concluons qu’il semble bel et bien exister un lien entre nos deux variables.
-Lorsque c’est supérieur à 0,05, nous ne pouvons pas rejeter l’hypothèse nulle.
-Par convention, les niveaux de signification sont (la plupart du temps) identifiés comme suit dans les tableaux :
* = p ≤ 0,05 ** = p ≤ 0,01 *** = p ≤ 0,001

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce que la force de la relation ?

A

Le coefficient de force (ou d’association) qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

La force de la relation nous aide à répondre à quelle question

A

Est-ce que l’impact de X sur Y est fort, modéré ou faible ?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que devons-nous regarder en lien avec la force de la relation ?

A

-Le coefficient de force est différent pour chaque test statistique.
-Il importe de connaitre le domaine d’étude pour identifier la force de la relation.
-Un coefficient de force de plus de 0,80 peut indiquer de la colinéarité… (c.-à-d. les deux variables mesurent le même phénomène).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Comment qualifier la force?

A

un barème selon Rea & Parker (1992)

-Des effets forts ne sont pas nécessairement intéressants
-La force des relations est souvent fonction du champ ou du domaine de recherche

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est ce que le sens de la relation?

A

C’est à ce niveau que l’on transpose en mots concrets la relation entre nos variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quels tests sont associés au sens de la relation?

A

Tableaux croisés et tests de moyenne:
Quels groupes a la fréquence ou la moyenne la plus élevée ? On compare les deux groupes sur la variable dépendante.

Corrélation
Relation positive : Plus un individu consomme de l’alcool, plus il risque de faire des délits…
Relation négative : Plus un individu consomme de l’alcool, moins celui-ci a d’inhibitions…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Corrélation vs causalité : conditions

A
  1. Il y a covariation (corrélation) entre les deux phénomènes
  2. La cause précède la conséquence
  3. Les explications alternatives sont exclues
    Solution : design expérimental
    Exemple : police et crime
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Qu’est ce que le tableau de contingence

A

Permettent de synthétiser l’information et de tester le lien d’indépendance entre deux variables nominales.
-Principalement, sert à tester le lien d’indépendance entre deux variables
-Sert aussi à synthétiser l’information(exemple le pourcentage de femmes et d’hommes en faveur de la peine de mort)

Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population
-Mais aussi d’étudier le lien qui les unit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Les postulats d’utilisation et le Chi deux

A

Les postulats d’utilisation des tableaux de contingence utilisant le Chi carré

-Échantillonnage aléatoire

-Pour calculer un Chi carré, les nombres ne doivent pas être trop petits: le total ne doit pas être plus petit que 20, et la fréquence espérée inférieure à 5.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Le test d’indépendance de Chi² sert à répondre à la question suivante:

A

Existe-t-il un lien entre deux variables nominales? Il sert donc à tester des hypothèses.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Le test d’indépendance du Chi² est utile pour savoir si

A

si oui ou non il existe un lien entre deux variables: il nous indique la signification de la relation.

21
Q

Qu’arrive t-il si le test de Chi est significatif à p<0,05

A

Nous rejetons H0 et concluons qu’il y a une relation entre nos deux variables. Lorsque c’est supérieur, nous ne pouvons rejeter avec certitude l’hypothèse nulle

22
Q

Quelles sont les particularités du tableau de contingence du test de Chi

A

Calculer le test d’indépendance du Chi carré revient à comparer les résultats obtenus dans notre étude aux résultats théoriquement obtenus à l’aide du hasard.

Plus la différence entre les deux ensembles de résultats est élevée, plus la valeur du Chi carré est élevée, et plus la probabilité que le lien observé entre ces deux variables soit réel est élevée.

23
Q

Quelle est la signification du Chi carré

A

-Le chi carré nous indique si nos variables sont associées ou non
Nous testons l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.

-Elle est associée au nombre de sujets (n)
Une très petite différence entre 2 groupes est significative avec 1000 sujets

-À l’inverse, avec de petits échantillons, on a besoin de grandes différences pour que ce soit significatif

24
Q

Qu’est ce que la force de la relation pour le test de Chi

A

Le test de Chi deux nous sert à répondre à la question suivante: Existe-t-il un lien entre deux variables nominales? Il sert donc à tester des hypothèses.

Lorsque c’est significatif à p<0,05, nous rejetons H0. Lorsque c’est supérieur, nous ne pouvons rejeter l’hypothèse nulle.

Le test d’indépendance du Chi deux est utile pour savoir si oui ou non il existe un lien entre deux variables: il nous indique la signification de la relation.

25
Q

Qu’est ce que le Phi?

A

Le Phi: Mesure dérivée du Chi carré.

On se rappelle que la valeur du Chi est directement influencée par le nombre de sujets et la force de la relation.

Le phi élimine l’effet de la taille de l’échantillon en divisant le chi carré par n, et en extrayant la racine carrée.
-Il est aussi appelé Pearson’s coefficient of mean-square contingency.
-Il est surtout utilisé dans le cas de tableaux 2x2
-Pour un tableau de plus de 2x2, la valeur du phi dépasse 1, et le rend moins intéressant.

26
Q

Qu’est ce que le V de Cramer?

A

Le V de Cramer:
-Le V de Cramer est la mesure d’association la plus populaire basée sur une variation du Chi carré.
-Il varie de 0 à 1, et est donc facile à utiliser et à interpréter.

On l’utilise généralement dans les tableaux supérieurs à 2x2.

27
Q

Les tests de différences de moyennes

A

Lorsque l’on veut comparer les moyennes de plusieurs groupes
-Une variable nominale (groupale)
-Une variable continue ou ordinale

Il existe deux séries de critères utiles afin de choisir le bon test à utiliser
-Le critère paramétrique / non paramétrique (normalité de la distribution, N > 30)
-Le critère du nombre de groupes à comparer

28
Q

Les postulats d’utilisation du t de Student : les règles du jeu

A

En raison de sa popularité, le test t est fréquemment utilisé sans égard aux consignes d’utilisation, c’est-à-dire sans que ne soient respectés ses postulats. Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.

29
Q

Quelles sont les 2 choses a s’assurer avant de faire le T de Student

A

Pour que soit valide le t, on doit s’assurer de deux choses:

Les distributions sont normales (cours 4)
Car si distributions non normales : moyenne non représentative

Les variances sont comparables (test de Levene)
Les formes de la variance de chaque groupe sont-elles similaires?

30
Q

Qu’elle est la signification du T de Student

A

Le test de T sert à répondre à la question suivante: Existe-t-il un lien entre une variable dichotomique et une variable continue (ou ordinale)?
La signification (p) associée au coefficient t est utile pour savoir si oui ou non il existe un lien entre deux variables.

31
Q

Qu’elle est la force de la relation du T de Student

A

La signification (p) associée au coefficient t donne la signification mais non la force de la relation…

Le Eta2 est le coefficient d’association (ou de force) des tests de moyennes paramétriques.
-Il mesure la force de l’association entre la variable catégorielle (nominale) et la variable continue.
-Il varie entre 0 et 1.
-Il donne une indication de la proportion de la variance expliquée.
-On l’obtient en utilisant la commande Means.

32
Q

Qu’elle est le sens de la relation du T de Student

A

Pour les tests de moyennes (comme pour les tableaux de contingence), on ne parle pas de relation positive ou négative.

Le sens de la relation est analysé à l’aide des moyennes de vos groupes.
-Par exemple : les garçons commettent plus de violence physique que les filles.

33
Q

Qu’est ce que l’analyse de variance simple ou oneway anova

A

-Aussi appelé analyse de variance simple ou à un facteur
-Vise à comparer non pas deux groupes mais bien trois groupes ou plus
-Le Ratio F (plutôt que le t) teste l’hypothèse d’une différence de moyennes entre les groupes
-Il ne nous aide pas à comprendre la nature de ces différences. Nous devons utiliser une autre série d’analyses afin de connaître plus en détail quels groupes sont significativement différents desquels

34
Q

Comment contourner les limites associées à l’utilisation de la moyenne

A

-Dans certaines situations, les moyennes ne rendent pas justice aux résultats (distributions asymétriques, valeurs extrêmes, petits groupes, etc.)

-Il y a donc lieu de se tourner vers des équivalents plus souples pour comparer les groupes : les tests non paramétriques (i.e. les tests basés sur les rangs)

-Ces tests, au lieu d’utiliser les scores, utilisent les rangs occupés dans une distribution

-Dans une étude de 100 participants, la personne au score le plus élevé a le rang 100 tandis que celle au score le plus faible a le rang 1.

35
Q

Qu’est ce que les analyses corrélationnelles

A

L’utilité de telles analyses : tester le lien (dépendance) entre des variables sur des échelles de mesure continue ou ordinale

Le choix de l’analyse corrélationnelle dépend :
-De la nature des variables
-De la distribution des variables

36
Q

faits sur le coefficient de corrélationR de Pearson :

A

-Il varie entre -1 et 1

-Le signe indique le sens de la relation(un signe + indique une relation proportionnelle et un signe – indique une relation inversement proportionnelle)
-Un R près de 0 indique une absence de relation

-Un R près de 1 indique une très forte relation, 1 étant une relation parfaite (connaître notre variable indépendante nous permet de connaître notre variable dépendante)

-Un R de 0,10 peut être significatif, tout dépend du nombre de sujets utilisé (taille d’effet!)

-Un bon R dépend du domaine d’étude dans lequel vous travaillez… (En psycho et en crimino, à 0,40, on sort le champagne. En chimie, on vient probablement de faire sauter le labo…)

37
Q

Qu’est ce que le R2 dans Le coefficient de Force d’une corrélation

A

-Le R2 est plus facile à interpréter que le R. Le R2 varie entre 0 et 1.

-R2 est la proportion de variance expliquée par la variable indépendante, ou la proportion de variance commune entre les deux variables.

-Si on observe une corrélation significative de 0,75 entre les placements et les lambdas de crimes, cela nous indique que 56,3% de la variance de ces deux variables est commune. En d’autres termes, connaître le nombre de placement nous permet de connaître 56,3% de la variance du Lambda.

-Il n’en demeure pas moins que 43,7% de la variance demeure inexpliquée…
Conséquemment, il y a d’autres trucs que cette VI qui explique la variance de la VD

38
Q

Comment éliminer des valeurs extrêmes?

A

-Identifier via graphiques de distribution et tableaux de fréquence
-Soit éliminer les participants avec des valeurs extrêmes via select cases
-Soit en recodant les valeurs extrêmes en valeurs moins extrêmes

39
Q

Qu’est ce que La version non-paramétrique de la corrélation

A

le Rho de Spearman
-Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s’il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l’existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance, …).
-Ce coefficient est donc très utile lorsque l’analyse du nuage de point révèle une forme curvilinéaire dans une relation qui semble mal s’ajuster à une droite. On notera également qu’il est préférable au coefficient de Pearson lorsque les distributions X et Y sont asymétriques et/ou comportent des valeurs exceptionnelles.
-Il varie de -1 à 1 et s’interprète de la même façon que le R de Pearson.

40
Q

Pourquoi le multivarié ?

A

Modéliser le monde de manière plus réaliste
-La vie est plus que du bivarié : le monde n’est pas noir/blanc
-Plusieurs aspects influencent simultanément les phénomènes que nous étudions

Pour identifier la contribution unique des prédicteurs

Afin de détecter les relations artificielles

Prédire le plus efficacement à l’aide d’un nombre raisonnable de variables

41
Q

Qu’est ce que La logique derrière l’analyse de régression linéaire multiple(RLM)

A

La RLM (Pearson, 1908) a pour objectif de mieux comprendre les relations entre plusieurs variables indépendantes (aussi appelés prédicteurs) et une variable dépendante.

Elle constitue donc une extension multivariée de l’analyse de corrélation.

Puisqu’elle utilise des variables continues, on peut la comprendre comme visant la prédiction plus que la distinction entre des groupes de personnes (test de moyenne vs corrélation).

42
Q

Qu’est ce que La logique sous-jacente à l’analyse de régression linéaire multiple

A

L’analyse de régression permettra:
-De prédire une variable dépendante continue à l’aide d’autres variables intervalles ou de variables dichotomiques (aussi appelées variables dummy, ou variables indicatrices)

-D’estimer la proportion de variances expliquées de la variable dépendante, à un certain seuil de signification.

-D’estimer l’impact relatif des prédicteurs les uns par rapport aux autres

43
Q

Qu’est ce que le R2

A

L’estimation de la force de la relation
-Jusqu’à quel point la régression explique-t-elle la variance de notre variable dépendante?

-L’inspection du diagramme de points nous donne déjà un aperçu de la force de la relation
plus les points sont condensés autour de la droite, plus la régression prédit avec précision la variable dépendante

-Le R2 ou coefficient de détermination, donne une mesure formelle de la proportion de la variance expliquée

44
Q

Quelles sont les étapes de la régression

A

-Le «ménage» des données
-L’inspection des distributions
-L’élimination ou le recodage des valeurs extrêmes
-L’inspection de la linéarité des relations
(Devrait normalement avoir été fait lors des analyses bivariées)

45
Q

Question 1: Le modèle fonctionne-t-il? (en régression linéaire)

A

-Peut-on prédire notre variable dépendante à l’aide de nos prédicteurs?
-Le ratio F test l’hypothèse selon laquelle tous les coefficients sont de 0.
-La réponse: La signification du F de l’ANOVA du modèle

46
Q

Qu’est ce que Les coefficients de régression Beta β

A

-Ce sont les coefficients de régression standardisés (aussi appelés poids Beta)
-Ils sont utiles afin de comparer les influences relatives de chacun des prédicteurs du modèle. Il permet d’identifier les meilleurs prédicteurs.
-On peut comparer les β entre eux

47
Q

Quels sont les coefficients de régression B?

A

-Estimés non biaisés (unbiaised estimates): ce sont les effets purs des variables indépendantes sur la variable dépendante exprimés en unités naturelles
-On les utilise lorsque l’on veut prédire un score pour un sujet en particulier
-On ne peut pas comparer les B entre eux

48
Q

Quelle est l’utilité de la régression logistique

A

Lorsque les variables avec lesquelles on travaille sont catégorielles, les choix analytiques sont particuliers

Dans ce cas, on a généralement recours à l’analyse à l’aide de tableaux croisés en analyses bivariées

Toutefois, l’analyse avec le tableau croisé ne permet pas
-de traiter plus d’un prédicteur à la fois
-d’estimer s’il existe des effets d’interaction entre les prédicteurs
-d’utiliser des prédicteurs continus

-Elle s’utilise dans les cas de variables dépendantes catégorielles
-Attention : on ne prédit pas une «quantité», mais bien une probabilité
-Au même titre que la régression linéaire, la régression logistique permet d’estimer la contribution unique de plusieurs prédicteurs sur la présence ou non d’une caractéristique dichotomique (ou catégorielle)

Il y en a deux sortes :
-Binomiale : pour variable dichotomique (ex : oui vs non)
-Multinomiale : pour variable à 3 groupes ou plus (ex : bleu, vert, rouge)

49
Q

Comment savoir quel type de régression à utiliser

A

Tu choisis le modèle de régression en fonction du type de ta variable dépendante, pas l’inverse.

  1. Régression linéaire multiple
    À utiliser quand la variable dépendante est continue (ex : revenu, taille, score, etc.).

Parfois aussi utilisée pour une variable ordinale (ex : niveau d’éducation “primaire, secondaire, universitaire”), mais avec prudence.

Elle prédit une valeur numérique.

Exemple : prédire le revenu en fonction de l’âge, du niveau d’études, et du genre.

  1. Régression logistique
    À utiliser quand la variable dépendante est catégorielle (ex : oui/non, succès/échec, groupe A/B/C).

Elle prédit la probabilité d’appartenir à une catégorie.

Exemple : prédire si une personne va voter (oui/non) selon son âge, son genre et son niveau d’éducation.