examen mi-session Flashcards
la variable dépendante
intérêt principal
variable indépendante
ce qui va avoir un effet potentiel sur la variable dépendante
variable contrôle
on sait qu’elle a un effet sur variable dépendante, mais elle ne nous intéresse pas tant que ça
T de student
à quel point une relation est forte et significative, coefficient, indicateur de force
un article scientifique nécessite généralement trois types d’analyse statistiques:
- statistiques descriptives
- statistiques bivariées (qui oriente généralement le choix des variables à inclire dans le modèle multivarié)
- le modèle multivarié (le clou de l’article, répond à la question de recherche)
Pour les analyses bivariées et multivariées, le choix de la procédure statistique repose sur 3 choses:
- La question de recherche : présume une relation, qu’est-ce-que je cherche
- La nature des variables : quel type d’analyse, voici les possibilités que j’ai, ce que je peux faire/peux pas faire (toujours moyen de faire quelque chose avec les données)
- Si les variables sont paramétriques ou non (forme de distribution)
qu’est-ce qu’un arbre décisionnel?
outil très utile, outil d’aide à la décision représentant un ensemble de choix sous la forme graphique d’un arbre.
les 4 types d’échelle
nominale, ordinale, intervalle, ratio
échelle nominale
- Ce sont des données de catégorisation. Dans l’échelle nominale, la variable est séparée en catégories et chacune porte son nom
- Aucune opération mathématique possible sauf la fréquence (et le pourcentage) on ne peut mettre les catégories en ordre
échelle ordinale
- C’est une échelle qui implique un rang entre les sujets ou objets
tres stisfait, moyennement satisfait, etc. - La distance entre les rangs n’est pas nécessairement la même
- Le calcul d’une moyenne est plutôt douteux. Il est préférable de référer aux fréquences au mode et à la médiane
échelle intervalle/ratio
- Échelle avec laquelle on peut ordonner les sujets ou objets
celsius - Les différences numériques égales entre les données correspondent à des différences numériques réelles
- Intervalle : pas de zéro absolu (zéro arbitraire, ne signifiant pas l’absence du phénomène)
- Ratio : échelle qui comprend les propriétés de l’échelle intervalle mais avec le zéro absolu
- Zéro signifie l’absence du phénomène
démarche scientifique simplifiée
- Je me pose une question
- Je formule une hypothèse
- Je planifie ma démarche
- Je fais mon expérimentation
- Je réponds à ma question
les étapes de la démarche scientifique
- observation
- conceptualisation
- opérationnalisation
- analyse et interprétation des données
- conclusion et partage des résultats
- recommencer
validité
- Indique jusqu’à quel point l’instrument mesure ce qu’il devrait mesurer
- Un instrument est valide lorsqu’il mesure ce qu’il prétend mesurer
- Compare deux choses
fidélité
fait référence à la précision et la constance des résultats fournis par un instrument de mesure.
4 moyens utilisés pour mesurer la fidélité
- stabilité (temporelle)
- consistance interne
- équivalence
- accord inter-juge
fidélité: stabilité (temporelle)
- Définition : constance des réponses obtenues lors de prises répétées d’une mesure dans les mêmes conditions et auprès des même sujes
- Technique : test re-test (lapse de temps de 2 à 4 semaines entre les deux passations)
- Meilleure façon de mesurer la stabilité
fidélité: consistance interne
- Définition : correspond à l’homogénéité des énoncés d’un instrument de mesure. On parle du lien de chaque énoncé avec l’échelle
- Est-ce que les énoncés sont cohérents eux-mêmes?
fidélité: équivalence
- Degré de corrélation entre deux versions ou deux formes parallèles d’instruments
- But : éviter l’effet d’apprentissage
- On devrait obtenir une forte corrélation entre les deux instruments s’ils sont fidèles, donc équivalents
fidélité: accord inter-juge
- Si deux personnes étudient la même chose, est ce qu’on obtient à peu près les mêmes résultats
- S’utilise lorsque plusieurs observateurs doivent évaluer un phénomène. On veut exprimer le degré de concordance dans leurs réponses
- Si on évalue les mêmes sujets avec un même instrument, il faut arriver aux mêmes réponses
3 grands types de validité
- validité de contenu
- validité de construit (validité conceptuelle/théorique)
- validité reliée à un critère
validité de contenu
- Liée à la représentativité de l’échantillon de comportements (items du test)
- Étudié au moment de la construction du test
- On la juge généralement à l’aide d’expert
- L’évaluation de la validité de contenu découle d’une décision subjective
validité de construit
- Degré de concordance entre le concept abstrait et la définition opérationnelle du concept, soit les indicateurs manifestes et mesurables
- Liée à la cohérence du test avec la théorie du construit
- C’est la mise à l’épreuve de la théorie du concept. Plus la théorie est explicite, plus il est facile de mettre à l’épreuve cette validité.
- On la met à l’épreuve de plusieurs façons : liens avec les caractéristiques des individus, corrélations avec d’autres tests (validité convergente et discrimination), coefficients d’homogénéité, analyse factorielle, méthode multitraits/multimédias
validité reliée à un critère
- Degré de concordance entre la mesure générée par l’instrument (variable) et un critère externe
- Liée à la relation du test avec un ou des critères externes
2 types de validités reliées à un critère
validité concourante et validité prédictive
reliée à un critère: validité concourante
- Elle réfère à la covariation d’un instrument avec une autre mesure prise au même moment
- Un instrument avec une validité concourante avérée et bien documentée est potentiellement un bon choix, puisqu’il nous renseigne sur d’autres mesures.
reliée à un critère: validité prédictive
- L’un des aspects les plus importants en ce qui concerne la validité en criminologie est la validité prédictive
- À quoi bon utiliser un instrument s’il ne prédit rien…
- C’est ce qui confère généralement aux instruments leur utilité
théorie classique des tests (TCT)
cadre pour évaluer la qualité des tests, se concentre sur la fiabilité (cohérence des résultats) et la validité (mesure ce qu’elle prétend mesurer) des tests psychologiques. En gros, elle nous aide à déterminer si un test mesure réellement ce qu’il est censé mesurer de manière cohérente.
opérationnalisation
Définition d’un concept théorique à l’aide d’indicateurs observables et mesurables
concept
représentation abstraite d’un objet réel (table qui représente l’ensemble des tables) ou un construit, ex. attachement maternel, épuisement professionnel, crime
dimensions
composantes des concepts (stratégie de recherche et de traitement de l’information)
indicateur
signe ou les manifestations objectivement repérable et mesurable des dimensions d’un concept (par ex : l’acquisition de l’information, les attitudes, les connaissances, la valeur de la tâche, le temps …)
variable
valeur qui change en fonction de différents facteurs. Certaines variables changent facilement, comme les valeurs boursières, tandis que d’autres sont quasiment constantes, comme le nom de quelqu’un. Les chercheurs cherchent souvent à mesurer les variables
avantages d’une bonne opérationnalisation 2
- cohérence: facilite la reproduction de l’étude
- tend vers l’objectivité (minimise le biais)
inconvénients d’une bonne opérationnalisation
- spécificité et manque d’acceptation: adopter une définition revient à rejeter les autres
- réduction: puisque l’opérationnalisation implique l’interprétation et la réduction d’un concept abstrait large en observations plus nettes et moins subjectives, elle peut faire perdre au concept original une partie de son sens.
qu’est-ce qu’un sondage
méthode utilisée pour colliger de l’information auprès d’un échantillon d’individus (pas recensement)
échantillon
proportion d’une population
un bon sondage possède…. 2
- échantillon représentatif
- information pertinente sur les concepts à l’étude
sources d’erreurs dans échantillonage (2)
- unit nonresponse: fait partie de l’échantillon, mais non sondée
- taux de réponse: proportion de l’échantillon qui participe au sondage
critères de classification d’un sondage 6
qui? quoi? par qui? comment? quand? où?
sources d’erreurs dans un sondage (4)
le questionnaire
le mode de cueillette
l’interviewer
le répondant (plusieurs types: désirabilité sociale. acquiescement, etc.)
omnibus
coller pleins de questions l’une à la suite de l’autre, qui n’ont pas nécessairement de liens ensemble)
2 choses qui peuvent jouer un rôle dans un questionnaire
- l’ordre des questions
- l’ordre de choix de réponse
à éviter dans un questionnaire (5)
- Questions « double barreled » : qui couvrent plusieurs sujets
- Questions à double négatifs :
- Questions suggestives/biaisées
- Questions à charge émotive
- Attention aux questions sensibles (intrusives, taboues)
Quels sont les 2 types d’hypothèse?
- hypothèse de recherche
- hypothèse nulle
Une bonne hypothèse est (4) …
précise, testable, dirigée, courte
j’ai remarqué que la police arrêtait souvent des consommateurs de drogues. Pourquoi? (VD, VI, VC et hypothèse)
VD: les arrestations de la police
VI: le type de drogue consommée/façon de consommer
VC: tous des potentiels
hypothèse: si la fréquence de consommation augmente, le risque d’arrestation augmente.
Qu’est-ce que l’analyse exploratoire des données?
- constitue l’étape préliminaire à toute statistique, même la plus sophistiquée
- elle aide à orienter les analyses subséquentes
- on s’attarde habituellement à trois aspects: les mesures de tendance centrale, les mesures de dispersion et la distribution des résultats
la tendance centrale
une mesure qui indique où se trouve la majeure partie des données ou scores d’une distribution
les mesures de tendance centrales
- visent à représenter le score typique d’une distribution
- elle est un effort de synthèse: représenter un ensemble sur la base d’un seul indicateur.
- existe principalement 3 types
3 types de mesures de tendance centrale
le mode, la médiane, la moyenne
le mode
le mode d’une série d’observations est la valeur la plus fréquente d’un ensemble de données. le mode est rarement employé seul pour mesurer la tendance centrale, parce qu’avec un petit nombre d’observations, comme c’Est le cas dans notre exemple, chaque valeur est unique. Dans ce cas, il n’y a pas de mode.
la médiane
correspond à l’observation du milieu, c’est-à-dire la valeur de part et d’autre de laquelle de situe la moitié des observations. pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant.
la moyenne
représente la mesure la plus courante de tendance centrale des observations. elle se calcule en additionnant les valeurs observées de chaque individu, somme divisée par le nombre de sujet observé
les mesures de dispersion
- indices qui caractérisent l’étalement des valeurs d’une distribution d’une variable autour d’une valeur centrale.
mesures de dispersion: les indices de dispersion permettent de savoir si les scores individuels se ________ ou ____________ beaucoup des mesures de tendance centrale
rapprochent ou s’éloignent
mesures de dispersions ne permettent pas de comparer des distributions qui ne sont pas sur _________________.
la même échelle
3 mesures de dispersions
étendue, variance, écart type
l’étendue
indique entre quelles valeurs les résultats varient
la variance
elle mesure la dispersion de chaque observation autour de la moyenne.
La variance se calcule d’abord en faisant la différence entre chaque observation et la moyenne. Ces différences sont ensuite élevées au carré afin que les chiffres positifs et négatifs ne s’annulent pas. On additionne ensuite ces écarts élevés au carré. La somme des carrés des écarts est alors divisée par le nombre total d’observations moins une.
l’écart type
racine carrée de la variance. c’est la plus utilisée dans le cas de la description de variables continues
la distribution
les valeurs de chaque cas pour une variable donnée. typiquement, les réponses sont ordonnées
les fractiles
séparent la distribution en groupes égaux, le plus fréquent est le quartile
le kurtose (k)
une mesure d’aplatissement de la distribution.
si K +/- 0
mésokurtique (normal)
leptokurtique
distribution qui tend plus vers le pic de l’étendue, en haut de 0
platikurtique
vers étendue plus que vers le pic, en bas de 0.
la symétrie (skewness, S)
c’est une mesure d’asymétrie de la distribution.
si S +/- 0,5 = ?
pas d’asymétrie
paramétrique ou pas?
- lorsque le N est de moins de 30, notre variable est par défaut non paramétrique
- lorsque la distribution de notre variable est non normale: non paramétrique
- une variable nominale ou ordinale est automatiquement paramétrique
analyse bivariée
permet d’étudier la relation entre deux variables (dépendante et indépendante)
limites des statistiques bivariées (3)
- analyse d’une relation simple
- limite les interprétations possibles
- limite notre compréhension du monde (la nature complexe des relations)
les postulats d’utilisation
- sont associés à chaque famille de test
- ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats
- quand ils ne sont pas respectés, cela mène à une fausse sensibilité du test.
3 tests de moyenne
la signification, la force de la relation, le sens de la relation
1 la signification
la mesure de signification teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard. souvent représentée par la lettre p ou *
la signification nous aide à répondre à la question suivante :
est ce que ma relation entre X et Y est statistiquement significative?
2 la force de la relation
le coefficient de force (ou d’association) qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.
la force de la relation nous aide à répondre à la question suivante:
est-ce que l’impact de X suir Y est fort, modéré ou faible?
que devons-nous regarder en lien avec la force de la relation ? (3)
- le coefficient de force est différent pour chaque test statistique
- il importe de connaitre le domaine d’étude pour identifier la force de la relation
- un coefficient de force de plus de 0,80 peut indiquer de la colinéarité (c’est-à-dire les deux variables mesurent le même phénomène)
3 le sens de la relation
c’est à ce niveau que l’on transpose en mots concrets la relation entre nos variables
corrélation
relation positive: X augmente Y augmente
relation négative: X augmente Y diminue
corrélation et causalité (3)
- il y a covariation entre les deux phénomènes
- la cause précède la conséquence
- les explications alternatives sont exclues
variable catégorielle
Une variable catégorielle est une variable statistique qui représente des catégories distinctes ou des groupes plutôt que des quantités numériques continues.
variable continue
Une variable continue est une variable statistique qui peut prendre une infinité de valeurs dans un intervalle donné, sans interruption.
variable ordinale
Une variable ordinale est une variable statistique qui représente des catégories avec un ordre ou une hiérarchie spécifique, mais les différences entre les valeurs ne sont pas nécessairement uniformes.
variable nominale
Une variable nominale est une variable statistique qui représente des catégories distinctes sans ordre ou hiérarchie spécifique.