La corrélation et la régression simple Flashcards
Quelle est l’utilité de la corrélation?
- Permet de savoir s’il existe une association entre 2 variables quantitatives (+force et sens).
- Étape nécessaire avant de faire une analyse multivariée.
- Aussi utilisée pour connaitre l’association entre les variables indépendantes à l’étude. (C’est ici qu’on entre dans les directions de relations positive/négative).
- Mesurent-elles la même chose (colinéarité)? On utilise aussi corrélation pour s’assurer que VI quantitative sont indépendantes entre elles et ne mesurent pas la même chose. On veut s’assurer de l’indépendance des uns des autres avec nos VI pour ne pas qu’on mesure la même chose. On s’assure qu’il n’y a pas de colinéarité entre les VI (tautologique, on mesure qqch par sa mesure : on veut éviter ça ; c’est pour ça l’indépendance des VI). Analyse de corrélation permet de mesurer cet aspect de colinéarité
Avec la corrélation, quelle serait l’hypotèse de recherche pour les variables “âge à la 1ière culpabilité officielle” et “revenu légitime mensuel” si la relation est positive?
H(1): Il existe une association entre le revenu criminel mensuel et l’âge à la 1ère culpabilité officielle. Plus précisément, plus l’âge à la 1ère culpabilité est tardif, plus le revenu criminel mensuel déclaré sera élevé.
H(0): Il n’existe aucune association entre l’âge à la 1ère culpabilité et le revenu criminel mensuel déclaré.
Quels sont les postulats d’utilisation de la corrélation?
- Distribution normale des 2 variables quantitatives
- Absence de valeur(s) extrême(s) problématique(s)
- Principe de linéarité de la relation
- Min. de 30 effectifs/cas par variable
Comment vérifier la normalité (postulat #1)?
Inspection des données univariées (asymétrie, aplatissement,…) et des histogrammes
Pourquoi vérifier l’absence de valeurs extrêmes (postulat #2)?
- Elles peuvent exagérer ou minimiser l’association entre les deux variables
- Les éliminer si problématique ou utiliser corrélation non paramétrique (rho de Spearman). On doit justifier pourquoi on choisit ces possibilités
Comment vérifier la linéarité (postulat #3)?
- La linéatité est observée à l’aide du diagramme de dispersion/ nuage de points
- Présente graphiquement l’ensemble des pairs des valeurs des deux variables.
Quel type de relation est présenté?
Relation linéaire négative
Quel type de relation est présenté?
Relation linéaire positive
Quel type de relation est présenté?
a
Quel type de relation est présenté?
Relation non linéaire curvilinéaire
Quel type de relation est présenté?
Relation non linéaire exponentielle
Quel type de relation est présenté?
Relation non linéaire exponentielle
Faire interprétation pour les variables de l’âge et de la sévérité de la sentence dans le cas où il y a non respect du principe de linéairité et dont le diagramme de point est curvilinéaire.
Plus on est jeune et plus on est vieux, plus la sentence sera moins sévère, donc les sentences sont plus sévères pour ceux qui sont en milieu de vie.
Quelle est la différence entre le cas où tous les postulats sont respecté vs un (ou plusieurs) postulat(s) pas respecté(s)?
Cela va faire en sorte que l’on choisi un test paraétrique (respect) ou non paramétrique (non-respect).
Qu’est-ce qu’un test non-paramétrique?
Un des postulats n’est pas respecté
- Un test de corrélation non paramétrique
- rho de Spearman
- Utilisation du rang des observations plutôt que des valeurs(moyenne)
- Permet de détecter l’existence et le sens d’une relation, peu importe sa « forme »
- Perte d’information
On associe des rangs/la position de qqn, donc c’est moins robuste car oui on peut trouver relation statistiquement significative mais on ne respecte pas certains postulats de normalité, donc on n’est moins certains dans les résultats qu’on avance.