La corrélation et la régression simple Flashcards
Quelle est l’utilité de la corrélation?
- Permet de savoir s’il existe une association entre 2 variables quantitatives (+force et sens).
- Étape nécessaire avant de faire une analyse multivariée.
- Aussi utilisée pour connaitre l’association entre les variables indépendantes à l’étude. (C’est ici qu’on entre dans les directions de relations positive/négative).
- Mesurent-elles la même chose (colinéarité)? On utilise aussi corrélation pour s’assurer que VI quantitative sont indépendantes entre elles et ne mesurent pas la même chose. On veut s’assurer de l’indépendance des uns des autres avec nos VI pour ne pas qu’on mesure la même chose. On s’assure qu’il n’y a pas de colinéarité entre les VI (tautologique, on mesure qqch par sa mesure : on veut éviter ça ; c’est pour ça l’indépendance des VI). Analyse de corrélation permet de mesurer cet aspect de colinéarité
Avec la corrélation, quelle serait l’hypotèse de recherche pour les variables “âge à la 1ière culpabilité officielle” et “revenu légitime mensuel” si la relation est positive?
H(1): Il existe une association entre le revenu criminel mensuel et l’âge à la 1ère culpabilité officielle. Plus précisément, plus l’âge à la 1ère culpabilité est tardif, plus le revenu criminel mensuel déclaré sera élevé.
H(0): Il n’existe aucune association entre l’âge à la 1ère culpabilité et le revenu criminel mensuel déclaré.
Quels sont les postulats d’utilisation de la corrélation?
- Distribution normale des 2 variables quantitatives
- Absence de valeur(s) extrême(s) problématique(s)
- Principe de linéarité de la relation
- Min. de 30 effectifs/cas par variable
Comment vérifier la normalité (postulat #1)?
Inspection des données univariées (asymétrie, aplatissement,…) et des histogrammes
Pourquoi vérifier l’absence de valeurs extrêmes (postulat #2)?
- Elles peuvent exagérer ou minimiser l’association entre les deux variables
- Les éliminer si problématique ou utiliser corrélation non paramétrique (rho de Spearman). On doit justifier pourquoi on choisit ces possibilités
Comment vérifier la linéarité (postulat #3)?
- La linéatité est observée à l’aide du diagramme de dispersion/ nuage de points
- Présente graphiquement l’ensemble des pairs des valeurs des deux variables.
Quel type de relation est présenté?

Relation linéaire négative
Quel type de relation est présenté?

Relation linéaire positive
Quel type de relation est présenté?

a
Quel type de relation est présenté?

Relation non linéaire curvilinéaire
Quel type de relation est présenté?

Relation non linéaire exponentielle
Quel type de relation est présenté?

Relation non linéaire exponentielle
Faire interprétation pour les variables de l’âge et de la sévérité de la sentence dans le cas où il y a non respect du principe de linéairité et dont le diagramme de point est curvilinéaire.
Plus on est jeune et plus on est vieux, plus la sentence sera moins sévère, donc les sentences sont plus sévères pour ceux qui sont en milieu de vie.
Quelle est la différence entre le cas où tous les postulats sont respecté vs un (ou plusieurs) postulat(s) pas respecté(s)?
Cela va faire en sorte que l’on choisi un test paraétrique (respect) ou non paramétrique (non-respect).
Qu’est-ce qu’un test non-paramétrique?
Un des postulats n’est pas respecté
- Un test de corrélation non paramétrique
- rho de Spearman
- Utilisation du rang des observations plutôt que des valeurs(moyenne)
- Permet de détecter l’existence et le sens d’une relation, peu importe sa « forme »
- Perte d’information
On associe des rangs/la position de qqn, donc c’est moins robuste car oui on peut trouver relation statistiquement significative mais on ne respecte pas certains postulats de normalité, donc on n’est moins certains dans les résultats qu’on avance.
Qu’est-ce qu’un test paramétrique?
- r de Pearson
- Calcul basé sur la somme des écarts à la moyenne pour les valeurs des variables X et Y
- L’écart à la moyenne de chacunes des réponses de l’individu à ces 2 variables (x,y)

Quels sont les étapes d’un test de corrélation ?
-
Vérifier le respect des postulats d’utilisation
- Vérifier les histogrammes des deux variables (rapport d’applatissement)
- Réaliser un diagramme de dispersion
- Réaliser le test de corrélation
- Vérifier s’il existe une relation significative (à plus petit que .05)
-
Si relation significative
- Vérifier le sens de la relation
- Vérifier la force de la relation
- Présenter et interpréter les résultats
Interprétation

Les analyses de la corrélation ont été fait avec 403 répondants.
- Le nombre de personne qui ont fait parti de l’analyse en fonction de mes variables.*
- Pour la variable du revenu légitime, on avait 410 indvidus.*
- Pour la variable de l’âge à la première culpabilité, on avait 403 individus.*
Interprétation

- Seuil de signification bilatéral, relation entre l’âgeà la première culpabilité et le revenu mensuel légitime.
- La relation est significative entre les 2 variables à l’étude et on peut rejetter l’hypothèse nulle à p <0.01
Interprétation
sens et force

- La relation est positive, donc plu j’augmente en âge à ma première culpabilité, plus jaurai un salair légitime important
- La force est faible-modérée
Comment calculer le degré de liberté pour la corrélation?
ddl= n-2
(r/rho (401)= 0.18, p’0.001) –>401 = Degré de liberté
ex: 403 sujets inclus pour l’analyse -2 =401
Est-ce que les corrélations permettent d’établir la causalité?
Non. On ne parle pas de cause avec la corrélation, on parle plutôt d’association.
Qu’est-ce que la régression simple?
- Les postulats de la corrélation s’appliquent
- Permet de représenter graphiquement la relation entre les variables par une droite
- Permet de faire des prédictions (droite/équation linéaire). Ici on rentre dans les notions de prédiction et non pas juste à quel point VI influence VD ou est associée à. Donc on change un peu la terminologie.
- Permet de connaitre la force explicative de la VI sur VD :
- coefficient de détermination (fait penser à l’êta carré : indique à quel point la variable est un fort/faible prédicteur).
On prédit des valeurs et position du nuage de point à l’aide de la droite qu’on aura calculé. Sans connaitre on peut prédire (avec analyse de régression simple)
Quelle est la formule de la régression simple?
Y= a+b(X)+e
Où
Y = La prédiction de notre variable dépendante
a = constante ou ordonnée à l’origine (valeur moyenne de Y(ou VD) lorsque X (ou VI) =0
b = la pente de la courbe
X= le prédicteur, la valeur de la variable indépendante. Ex âge lors de la première culpabilité officielle.
e= résidus; terme d’erreur
Quel est l’utilité d’une droite de régression?
C’est la droite qui prédit le mieux le scre de la VD d’un cas lorsqu’on connait le score de la VI de ce cas.
Comment sera le r de pearson (grand/petit; force) si les cas (les points) se regroupe de façon étroite le long de la droite de régression?
r de Pearson sera grand, ce qui indique une forte relation.
Comment sera le r de pearson (grand/petit; force) si les cas (les points) sont plur dispersés le long de la droite de régression?
r de Pearson sera petit, indiquant une faible relation
Le r de Pearson varie entre -1 et 1. Qu’est-ce qui caractérise ça?
- Quand r = -1 ou r = 1, la relation est parfaite.
- Quand r = 0, les 2 variables ne sont pas associées
- La valeur du r entre 0 et +/- 1 reflète l’intensité de l’association
- On ne met pas le signe +, à moins qu’il y ait une ambiguïté à propos de la direction