Examen intra Flashcards
Un article scientifique nécessite 3 types d’analyses:
- Statistiques descriptives
- Statistiques bivariées
- Modèle multivarié
Pour les analyses bivariées et multivariées, le choix de la procédure repose sur quoi?
- La question de recherche
- La nature des variables
- Si les variables sont paramétriques ou non
Quelles sont les échelles de mesure?
- Échelle nominale ou catégorielle
- Échelle ordinale
- Échelle intervalle
- Échelle ratio
Les 3 dernières sont souvent regroupées en variables continues
L’échelle nominale (4)
- Données de catégorisation
- Les variables sont séparées en catégories et chacune porte un nom
- Aucune opération mathématique possible sauf la fréquence et le pourcentage
- Impossible de les mettre en ordre
L’échelle ordinale (4)
- Implique un rang entre les sujets ou objets
- La distance entre les rangs n’est pas forcément la même
- Le calcul d’une moyenne n’est pas recommandé
- Utilisation des fréquences, mode et médiane
Exemple: Échelle Likert
Échelle intervalle ou ratio (4)
- Possible d’ordonner les sujets ou objets
- Les différences numériques égales entre les données correspondent à des différences numériques réelles
- Intervalle: Il n’y a pas de zéro absolu, le zéro ne signifie pas l’absence du phénomène mais bel et bien une mesure
- Ratio: Comprend le zéro absolu, donc l’absence du phénomène
Les étapes de la démarche scientifique (5)
- Observation
- Conceptualisation (revue de la littérature, hypothèses)
- Opérationnalisation (expérimentation)
- Analyse et interprétation des données
- Conclusion et partage des résultats (articles, conférences, rapports, etc.)
Validité
- Représentativité de la mesure
- Est-ce que la variable ou échelle mesure bien ce qu’elle prétend mesurer?
- Comparaison avec d’autres mesures
Fidélité
- Précision, stabilité et constance de la mesure
- Est-ce que ce que nous mesurons est mesuré sans erreur?
- Constance de la mesure à travers le temps
- Par rapport à la mesure elle-même
Mesures de la fidélité (4)
- Stabilité (temporelle)
- Constance des réponses lors de la prise répétée de mesures dans les mêmes conditions - Consistance interne
- Homogénéité des énoncés d’un instrument de mesure (lien de chaque énoncé avec l’échelle)
- Plus les indicateurs sont corrélés fortement avec l’échelle, plus ils représentent bien l’échelle de mesure
- Cohérence des énoncés entre eux-mêmes - Équivalence
- degré de corrélation entre 2 versions ou formes parallèles d’instruments
- le but est d’éviter l’effet d’apprentissage chez les répondants
- Si les 2 instruments sont fidèles, forte corrélation - Accord inter-juge (fidélité et accord)
- Utiliés lorsque plusieurs observateurs doivent évaluer un phénomène
- Degré de concordance entre les réponses des observateurs
- Si un même sujet et évalué avec les mêmes instruments, nous devrions arriver aux mêmes réponses
Qu’est ce qui joue un grand rôle dans la validité de l’Instrument?
L’opérationnalisation
- Réfère à l’exactitude de la mesure afin d’évaluer un concept
Types de validité (3)
- Validité de contenu
- Lié à la représentativité de l’échantillon de comportements (items du test)
- Étudié au moment de la construction du test
- Jugé à l’aide d’experts
- Décision subjective
- Notre confiance en la validité provient de la recension des écrits et de notre niveau de connaissance. - Validité de construit (validité conceptuelle ou théorique)
- Degré de concordance entre le concept abstrait et la définition opérationnelle du concept, soit les indicateurs manifestes et mesurables
- Lié à la cohérence du test avec la théorie du construit (mise à l’épreuve de la théorie du concept, plus la théorie est explicite, plu il est facile de mettre à l’épreuve cette validité)
- Mis à l’épreuve de plusieurs façons: Liens avec les caractéristiques des individus, corrélation avec d’autres tests, coefficients d’homogénéité, analyse factorielle, multiméthodes, etc. - validité reliée à un critère
- dégré de concorance entre la mesure générée par l’instrument (variable) et un critère externe
- liée à la relation du test avec un ou des critères externes
- Il y a généralement 2 types de validité à un critère: Validité concourante (les deux mesures sont administrées au mêmes moment, réfère à la covariation d’un instrument avec une autre emsure prise au même moment, si la validité est avérée l’instrument est un bon choix car il nous renseigne sur d’autres mesures) et validité prédicitve (le test est administré avant la mesure du critère, un des aspects les plus importants en ce qui concerne la validité en criminologie, l’instrument doit pouvoir prédire quelque chose pour être utile)
TCT
Théorie classique des tests
La logique derrière la TCT
- Donnée = Vrai résultat + erreur liée à la mesure
- Il existe une valeur réelle, vraie mais non observable (valeur latente)
- des variables observalbles (manifestes) sont utilisées afin de mesurer un concept non-observable (latente)
- la valeur latente existe pour les groupes et les personnes
L’erreur de la TCT est également appelée
Marge d’erreur (5% et moins est acceptable en sciences sociales)
Définiton: opérationnalisation
Définition d’un concept théorique à l’aide d’indicateurs observables et mesurables
Définiton: Concept
représentation abstraite d’un objet réel (table qui représente l’ensemble des tables) ou un construit, ex. attachement maternel, épuisement professionnel, crime
Définition: dimensions
composantes des concepts (stratégie de recherche et de traitement de l’information)
Définition: Indicateur
signe ou les manifestation objectivement repérable et mesurable des dimensions d’un concept (par ex., l’acquisition de l’information, les attitudes, les connaissances, la valeur de la tâche, le temps, …)
Définition: variable
valeur qui change en fonction de différents facteurs. Certaines variables changent facilement, comme les valeurs boursières, tandis que d’autres sont quasiment constantes, comme le nom de quelqu’un. Les chercheurs cherchent souvent à mesurer les variables
Les avantages d’une bonne opérationnalisation
- Cohérence: facilite la reproduction de l’étude
- tend vers l’objectivité: minimise les biais
Les inconvénients de l’opérationnalisation
- Spécificité et manque d’acceptation : adopter une définition revient à rejeter les autres…
- Réduction : «Puisque l’opérationnalisation implique l’interprétation et la réduction d’un concept abstrait large en observations plus nettes et moins subjectives, elle peut faire perdre au concept original une partie de son sens»
Définition: sondage
Méthode utilisée pour collecter de l’information auprès d’un échantillon d’individus
Définition: échantillon
Proportion d’une population sondée
Que contient un bon sondage?
- Échantillon représentatif
- Information pertinente sur les concepts à l’étude
Sources d’erreur de l’échantillon
- Unit nonresponse: Fait partie de l’échantillon mais non sondé
- taux de réponse: proportion de l’échantillon qui participe au sondage
Les critères de classification des sondages
- Qui? (la population ciblée)
- Quoi? (Le sujet)
- par qui? (le commanditaire et la firme)
- Comment? (le mode de cueillette)
- Quand?
- Où?
Les sources d’erreurs du sondage
- Le questionnaire
- Le mode de cueillette
- L’interviewer
- Le répondant
- Acquiescement (dire oui à toutes les questions)
- désirabilité sociale (répondre ce que nous pensons que la personne veut entendre)
- les extrêmes (les gens ont tendance à aller aux extrêmes des échelles de mesure)
Définition: Omnibus
les questions du sondage portent sur pleins de sujets qui n’ont aucun lien entre eux pour profiter du fait qu’il y a un répondant
L’ordre des questions dans les sondages
- Bien placer les questions sensibles (souvent à la fin) afin de bien préparer le répondant
- ordre des choix de réponse pour éviter les réponses extrêmes qui se répètent toujours
Les questions à éviter dans les sondages (4)
- Les questions Double-barreled ( qui couvrent plusieurs sujets)
- Questions à double négatif
- Questions suggestives ou biaisées
- Question à charge émotive
Les questions sensibles
- Questions intrusives ou taboues (argent, religion, information personnelles, etc.)
- Peur d’être démasqué ou puni pour la réponse
- Comportements socialement inacceptables (délinquance, racisme, drogue, etc.)
Les types de variables
- Dépendante: Ce qu’on cherche à prédire
- Indépendante: Les facteurs qui font varier la VD, précède la VD
- Variable contrôle: effet sur la VD, ne nous intéresse pas vraiment.
Il y a deux types d’hypothèses
- Celle à vérifier (l’hypothèse de recherche)
- L’hypothèse nulle
Les étapes de la formulation de l’hypothèse
- identifier le problème
- recenser la littérature sur le sujet
- identifier les variables
- formuler une question qui peut se tester
Corrélation entre VI et VD
Si VI augmente ou diminue, alors VD augmente ou diminue également
Une bonne hypothèse est:
- précise
- testable
- dirigée
- courte
l’analyse exploratoire des données
- Étape préliminaire à toute analyse statistique
- aide à orienter les analyses subséquentes (paramétriques ou non paramétriques)
- on s’attarde à 3 aspects: les mesures de tendances centrales, les mesures de dispersion et la distribution des résultats
La mesure de tendance centrale
- mesure qui indique où se trouve la majeure partie des données ou scores d’une distribution.
- Visent à représenter le score typique
- représente un ensemble sur la base d’un seul indicateur (effort de synthèse)
les types de mesures de tendance centrale (3)
- Le mode: Le mode d’une série d’observations est la valeur la plus fréquente d’un ensemble de données. Le mode est rarement employé seul pour mesurer la tendance centrale, parce qu’avec un petit nombre d’observations, comme c’est le cas dans notre exemple, chaque valeur est unique. Dans ce cas, il n’y a pas de mode.
- la médiane: La médiane correspond à l’observation du milieu, c’est-à-dire la valeur de part et d’autre de laquelle se situe la moitié des observations. Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant.
- la moyenne: La moyenne représente la mesure la plus courante de tendance centrale des observations. Elle se calcule en additionnant les valeurs observées de chaque individu, somme divisée par le nombre de sujets observés.
Les mesures de dispersion
- indices qui caractérisent l’étalement des valeurs autour d’une valeur centrale
- ne peuvent pas décrire pleinement une distribution de scores
- permettent de savoir si les scores s’éloignent ou se rapprochent beaucoup des mesures de tendance centrale
- ne permettent pas de comparer les distributions qui ne sont pas sur la même échelle (prix des bananes vs voitures)
Les types de mesures de dispersion (3)
- L’étendue: indique entre quelles valeurs les résultats varient (de minimum à maximum)
- la variance: Elle mesure la dispersion de chaque observation autour de la moyenne. La variance se calcule d’abord en faisant la différence entre chaque observation et la moyenne. Ces différences sont ensuite élevées au carré afin que les chiffres positifs et négatifs ne s’annulent pas. On additionne ensuite ces écarts élevés au carré . La somme des carrés des écarts est alors divisée par le nombre total d’observations moins une (n-1).
- L’écart-type: Racine carrée de la variance. C’est la plus utilisée dans le cas de la description de variables continues
le coefficient de variation
- type de mesure de dispersion relative
- écart-type divisé par moyenne
- plus élevé = plus dispersé
- sert pour comparer les distibutions en les remettant à la même échelle
Typiquement, les valeurs d’une distribution sont …
ordonnées
Les fractiles
- séparent la distribution en groupes égaux
- le groupe doit être ordonné
- le plus fréquent est le quartile
Quelle est la distribution idéale?
Normale, mais pratiquement inexistante en criminologie.
Dans un graphique de distribution normale, la ligne centrale représente …
La moyenne, le mode et la médiane
Le kurtose
Mesure d’aplatissement de la courbe de distribution
Le kurtose de la courbe normale est …
mésokurtique
Si K = 0 +- 0.5
Les types de kurtoses
- Leptokurtique (alongée vers le haut)
- Mésokurtique (normale)
- Platykurtique (applatis)
La symétrie (skewness)
Mesure d’asymétrie de la distribution
Les types de symétries
- Asymétrie positive (pic décalé vers la gauche)
- Pas d’asymétrie (pic au milieu)
- asymétrie négative (pic décallé vers la droite)
La symétrie de la courbe normale est …
Pas d’asymétrie
si S = 0 +- 0,5
Courbe paramétrique vs non paramétrique
- Si n est inférieur à 30, non paramétrique
- si la distibution est non normale, non paramétrique
- variable nominale ou ordinale est non paramétrique
Analyse bivariée
permet d’étudier la relation entre 2 variables (dépendante et indépendante)
La famille de tests utilieé dépend de …
Type de variables utilisées
Avantages des statistiques bivariées
- permet de comprendre le sens des relations
- permet de comprendre la force des relations
- permet de faire du ménage dans nos données
Les limites des statistiques bivariées
- analyse d’une relation simple
- limite les interprétations possibles
- limite notre compréhension du monde (la nature complexe des raltions)
Qu’est ce que sont les postulats d’utilisation?
ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats
À quel moment on vérifie les postulats d’utilisation?
Avant de réaliser le test et d’analyser les résultats
Les types de statistiques bivariées
- Si 2 variables catégorielles
- famille des tableaux de contingence - Si 2 variables ordinales ou continues
- famille des corrélations
Si la distribution est normale: R de pearson
Si la distribution n’est pas normale ou que les variables sont ordinales: Rho de Spearman - Si 1 variable catégorielle et 1 variable continue (ou ordinale)
- famille des tests de moyenne
Si n plus grand que 30 et 2 groupes à comparer: T de Student
Si n plus grand que 30 et plus de 2 groupes à comparer: Oneway ANOVA
Si n plus petit que 30 et 2 groupes à comparer: U de Mann Whitney
Si n plus petit que 30 et plus de 2 groupes à comprer: Kruskal Wallis
Les 3 familles d’analyses bivariées
- 2 variables nominales
- famille des tableaux croisés
- exemple: khi carré - 1 variable nominale et 1 continue
- famille des tests de moyenne
- exemple: Student - 2 variables continues
- famille des corrélations
- exemple: Pearson
Les étapes de l’analyse des résultats
- signification
- force
- sens
Qu’est ce que la signification?
La mesure de signification teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population, ou si elle est attribuable à la chance ou au hasard.
Sert à savoir si la relation entre x et y est significative
représentée par la lettre p
Le p (signification)
- probabilité que l’hypothèse nulle soit vraie comparée à l’hypothèse testée
- p plus petit que 0.05: on rejette l’hypothèse nulle et il existe donc un lien entre nos 2 variables
p plus grand que 0.05: On ne peut pas rejeter l’hypothèse nulle
Qu’est ce que la force de la relation?
Le coefficient de force (ou d’association) qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.
Sert à savoir si l’impact de x sur y est fort, modéré ou faible
Les coefficients de forces standardisés
0 à 0.09: association négligeable
0.1 à 0.19: relation faible
0.2 à 0.39: relation modérée
0.4 à 0.59: relativement forte
0.6 à 0.79: relation forte
0.8 à 1: relation très forte
Un coefficient de force de plus de 0,80 peut indiquer de la colinéarité… (c.-à-d. les deux variables mesurent le même phénomène).
la force de la relation ne décrit pas forcément …
La pertinence des relations
Le sens de la relation
relation positive: Plus un individu consomme de l’alcool, plus il risque de faire des délits…
relation négative: Plus un individu consomme de l’alcool, moins celui-ci a d’inhibitions…
Les conditions de la corrélation vs de la causalité
- Il y a covariation entre les 2 phénomènes (corrélation)
- la cause précède la conséquence
- les explications alternatives sont exclues (causalité)