Introduction aux analyses bivariées Flashcards
Qu’est-ce qu’une analyse multivariée?
- analyser l’effet de plusieurs variables (X; Y; Z) sur une autre (Y)
- contrôler pour l’effet de «variables tierces»
Qu’est-ce qu’une variable tierce?
- variable qui intervient dans la relation entre X et Y (s’assurer qu’on a pas d’effets qui sont dus à d’autres variables)
Quelles sont les 5 conditions nécessaire à la causalité?
Le terme cause implique beaucoup de critères, les suivants:
1) Séquence temporelle - la cause doit précéder l’effet (X cause Y): Chaque fois qu’on a X et Y, Y doit NÉCESSSAIREMENT arriver après X
2) Association entre X et Y: X et Y sont présents –> Il faut que X soit toujours là pour qu’Y existe
3) La relation persiste même si on inclut d’autres variables (influence de variables tierces?): Dès qu’on ne peut pas faire persister la relation dans le temps (ex. en ajoutant d’autres variables), ça ne fonctionne pas. Ça veut dire qu’autre chose contribue à expliquer la relation.
4) Les deux concepts (cause et effet) doivent être théoriquement distincts: Pour qu’il n’y ait pas de biais d’interprétation. On n’explique pas quelque chose par son explication
5) Il existe une interprétation possible de la relation: On a déjà un certain bagage de recherches sur le sujet.
Quels sont les deux buts des analyses statistiques?
1) Connaître l’association entre deux variables (p. ex.: le contrôle social informel est-il associé au nombre de crimes commis dans un quartier?): À quel point il y a une influence entre les deux. Offre une réponse plus vague que #2
2) Connaître les différences de groupes pour une même variable (p. ex.: existe-t-il une différence au niveau du nombre de crimes commis selon le sexe?): Va donner des hypothèses d’une nature différente
Qu’est-ce qu’une hypothèse non directionnelle?
- ne sous-entend pas une relation entre les dimensions
- aucune mention du sens de la relation entre les deux variables (ex. Il existe une différence au niveau du nombre de crimes commis selon le sexe. MAIS on ne dit pas quelle serait cette différence)
- afin d’accepter l’hypothèse de recherche, il doit exister une relation significative, peu importe le sens de cette relation
- Ici, le simple fait qu’une variable ait un effet significatif fait en sorte qu’on accepte notre hypothèse
Qu’est-ce qu’une hypothèse directionnelle?
- fait mention du sens de la relation/des différences existantes (ex. les hommes commettent, en moyenne, plus de crimes que les femmes)
- il doit non seulement y avoir une relation significative, mais on doit en plus émettre une hypothèse sur ce que sera cet effet (2 démarches)
- afin d’accepter l’hypothèse de recherche, le sens de la relation doit aussi s’avérer juste
Qu’est-ce que H1?
- c’est l’hypothèse de recherche
- elle indique la présence d’une relation entre VI et VD
Qu’est-ce que H0?
- c’est l’hypothèse nulle
- c’est l’inverse de H1: aucune association/relation entre VI et VD
- c’est cette hypothèse qu’on va vérifier avec l’analyse statistique
Pourquoi est-il important que l’échantillon soit représentatif?
- il permet la généralisation des résultats
on peut y arriver grâce aux échantillons aléatoires
Qu’est-ce que l’inférence statistique?
- Consiste à induire les caractéristiques inconnues d’une population à partir d’un échantillon issu de cette population (échantillon –> population)
- Basée sur des analyses statistiques; méthode permettant de tirer des conclusions fiables sur la population, à partir de données obtenues pour l’échantillon –> généralisation
- Permet de minimiser les probabilités de tirer de fausses conclusions quant aux paramètres de la population
Qu’est-ce que l’erreur d’échantillonnage?
- Loi des grands nombres: plus la taille de l’échantillon est grande, plus l’erreur d’échantillonnage est petite
- plus grande est la variance de la population, plus grande est l’erreur d’échantillonnage
- elle est calculée grâce à l’erreur type de la moyenne (c’est l’écart type des moyennes des échantillons aléatoirement extraits de la même population)
Quel est le but de l’inférence statistique?
Déterminer si les différences observées sont le reflet de réelles différences au sein de notre population ou le résultat possible d’une erreur d’échantillonnage/hasard (sont vraiment là dans la réalité ou sont seulement là dans le cadre de l’échantillon?
* p= à partir de quand la relation qu’on a observée est transposable à la réalité
Qu’est-ce que le seuil de signification (p)?
Malgré la possibilité de faire des erreurs d’inférence (type 1 et 2), on se fixe un seuil d’erreur acceptable
- Le seuil de signification généralement accepté en sciences sociales est p≤0,05 : nous volons être certains à 95% que la relation observée est attribuable à la présence d’une relation réelle entre les variables à l’étude