La corrélation et la régression simple Flashcards

1
Q

Quelle est l’utilité de la corrélation?

A
  • Permet de savoir s’il existe une association entre 2 variables quantitatives (+force et sens).
  • Étape nécessaire avant de faire une analyse multivariée.
  • Aussi utilisée pour connaitre l’association entre les variables indépendantes à l’étude. (C’est ici qu’on entre dans les directions de relations positive/négative).
    • Mesurent-elles la même chose (colinéarité)? On utilise aussi corrélation pour s’assurer que VI quantitative sont indépendantes entre elles et ne mesurent pas la même chose. On veut s’assurer de l’indépendance des uns des autres avec nos VI pour ne pas qu’on mesure la même chose. On s’assure qu’il n’y a pas de colinéarité entre les VI (tautologique, on mesure qqch par sa mesure : on veut éviter ça ; c’est pour ça l’indépendance des VI). Analyse de corrélation permet de mesurer cet aspect de colinéarité
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Avec la corrélation, quelle serait l’hypotèse de recherche pour les variables “âge à la 1ière culpabilité officielle” et “revenu légitime mensuel” si la relation est positive?

A

H(1): Il existe une association entre le revenu criminel mensuel et l’âge à la 1ère culpabilité officielle. Plus précisément, plus l’âge à la 1ère culpabilité est tardif, plus le revenu criminel mensuel déclaré sera élevé.

H(0): Il n’existe aucune association entre l’âge à la 1ère culpabilité et le revenu criminel mensuel déclaré.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quels sont les postulats d’utilisation de la corrélation?

A
  1. Distribution normale des 2 variables quantitatives
  2. Absence de valeur(s) extrême(s) problématique(s)
  3. Principe de linéarité de la relation
  4. Min. de 30 effectifs/cas par variable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Comment vérifier la normalité (postulat #1)?

A

Inspection des données univariées (asymétrie, aplatissement,…) et des histogrammes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Pourquoi vérifier l’absence de valeurs extrêmes (postulat #2)?

A
  • Elles peuvent exagérer ou minimiser l’association entre les deux variables
  • Les éliminer si problématique ou utiliser corrélation non paramétrique (rho de Spearman). On doit justifier pourquoi on choisit ces possibilités
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comment vérifier la linéarité (postulat #3)?

A
  • La linéatité est observée à l’aide du diagramme de dispersion/ nuage de points
  • Présente graphiquement l’ensemble des pairs des valeurs des deux variables.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quel type de relation est présenté?

A

Relation linéaire négative

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quel type de relation est présenté?

A

Relation linéaire positive

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quel type de relation est présenté?

A

a

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quel type de relation est présenté?

A

Relation non linéaire curvilinéaire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quel type de relation est présenté?

A

Relation non linéaire exponentielle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quel type de relation est présenté?

A

Relation non linéaire exponentielle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Faire interprétation pour les variables de l’âge et de la sévérité de la sentence dans le cas où il y a non respect du principe de linéairité et dont le diagramme de point est curvilinéaire.

A

Plus on est jeune et plus on est vieux, plus la sentence sera moins sévère, donc les sentences sont plus sévères pour ceux qui sont en milieu de vie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quelle est la différence entre le cas où tous les postulats sont respecté vs un (ou plusieurs) postulat(s) pas respecté(s)?

A

Cela va faire en sorte que l’on choisi un test paraétrique (respect) ou non paramétrique (non-respect).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce qu’un test non-paramétrique?

A

Un des postulats n’est pas respecté

  • Un test de corrélation non paramétrique
    • rho de Spearman
  • Utilisation du rang des observations plutôt que des valeurs(moyenne)
  • Permet de détecter l’existence et le sens d’une relation, peu importe sa « forme »
  • Perte d’information

On associe des rangs/la position de qqn, donc c’est moins robuste car oui on peut trouver relation statistiquement significative mais on ne respecte pas certains postulats de normalité, donc on n’est moins certains dans les résultats qu’on avance.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce qu’un test paramétrique?

A
  • r de Pearson
  • Calcul basé sur la somme des écarts à la moyenne pour les valeurs des variables X et Y
  • L’écart à la moyenne de chacunes des réponses de l’individu à ces 2 variables (x,y)
17
Q

Quels sont les étapes d’un test de corrélation ?

A
  1. Vérifier le respect des postulats d’utilisation
    • Vérifier les histogrammes des deux variables (rapport d’applatissement)
    • Réaliser un diagramme de dispersion
  2. Réaliser le test de corrélation
  3. Vérifier s’il existe une relation significative (à plus petit que .05)
  4. Si relation significative
    • Vérifier le sens de la relation
    • Vérifier la force de la relation
  5. Présenter et interpréter les résultats
18
Q

Interprétation

A

Les analyses de la corrélation ont été fait avec 403 répondants.

  • Le nombre de personne qui ont fait parti de l’analyse en fonction de mes variables.*
  • Pour la variable du revenu légitime, on avait 410 indvidus.*
  • Pour la variable de l’âge à la première culpabilité, on avait 403 individus.*
19
Q

Interprétation

A
  • Seuil de signification bilatéral, relation entre l’âgeà la première culpabilité et le revenu mensuel légitime.
  • La relation est significative entre les 2 variables à l’étude et on peut rejetter l’hypothèse nulle à p <0.01
20
Q

Interprétation

sens et force

A
  • La relation est positive, donc plu j’augmente en âge à ma première culpabilité, plus jaurai un salair légitime important
  • La force est faible-modérée
21
Q

Comment calculer le degré de liberté pour la corrélation?

A

ddl= n-2

(r/rho (401)= 0.18, p’0.001) –>401 = Degré de liberté

ex: 403 sujets inclus pour l’analyse -2 =401

22
Q

Est-ce que les corrélations permettent d’établir la causalité?

A

Non. On ne parle pas de cause avec la corrélation, on parle plutôt d’association.

23
Q

Qu’est-ce que la régression simple?

A
  • Les postulats de la corrélation s’appliquent
  • Permet de représenter graphiquement la relation entre les variables par une droite
  • Permet de faire des prédictions (droite/équation linéaire). Ici on rentre dans les notions de prédiction et non pas juste à quel point VI influence VD ou est associée à. Donc on change un peu la terminologie.
  • Permet de connaitre la force explicative de la VI sur VD :
    • coefficient de détermination (fait penser à l’êta carré : indique à quel point la variable est un fort/faible prédicteur).

On prédit des valeurs et position du nuage de point à l’aide de la droite qu’on aura calculé. Sans connaitre on peut prédire (avec analyse de régression simple)

24
Q

Quelle est la formule de la régression simple?

A

Y= a+b(X)+e

Y = La prédiction de notre variable dépendante

a = constante ou ordonnée à l’origine (valeur moyenne de Y(ou VD) lorsque X (ou VI) =0

b = la pente de la courbe

X= le prédicteur, la valeur de la variable indépendante. Ex âge lors de la première culpabilité officielle.

e= résidus; terme d’erreur

25
Q

Quel est l’utilité d’une droite de régression?

A

C’est la droite qui prédit le mieux le scre de la VD d’un cas lorsqu’on connait le score de la VI de ce cas.

26
Q

Comment sera le r de pearson (grand/petit; force) si les cas (les points) se regroupe de façon étroite le long de la droite de régression?

A

r de Pearson sera grand, ce qui indique une forte relation.

27
Q

Comment sera le r de pearson (grand/petit; force) si les cas (les points) sont plur dispersés le long de la droite de régression?

A

r de Pearson sera petit, indiquant une faible relation

28
Q

Le r de Pearson varie entre -1 et 1. Qu’est-ce qui caractérise ça?

A
  • Quand r = -1 ou r = 1, la relation est parfaite.
  • Quand r = 0, les 2 variables ne sont pas associées
  • La valeur du r entre 0 et +/- 1 reflète l’intensité de l’association
  • On ne met pas le signe +, à moins qu’il y ait une ambiguïté à propos de la direction