2 - Exploration et visualisation de données Flashcards

1
Q

Détecter et corriger le biais dans les données

Pour que nos analyses soient vraiment ____

A

fiables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Détecter et corriger le biais dans les données

Être conscient des biais pour quelles 2 raisons?

A

pour pouvoir les identifier dans un article et avoir un regard critique par rapport aux résultats (pour éviter de se faire pogner)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Détecter et corriger le biais dans les données

Exemple
- Dans quel 3 cas la relation statistique n’est pas évidente? explique
- Quel est l’impact d’avoir ces affaires la?

A

C’est plus une courbe qu’une droite
Certains points sont solitaires (données aberrantes)
Peu de données à gauche et sont tous dans le même coin et données à droite a plus de données et sont plus éparpillées
.
Impact : biaise nos conclusions et fait qu’on pose pas les bonnes conclusions

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Détecter et corriger le biais dans les données

Exemple
- Les modèles linéaires assument souvent une ____ ____ des données, et une ____ des ____ pour chaque variable

A

Les modèles linéaires assument souvent une distribution linéaire des données, et une homogénéité des variances pour chaque variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
- Si on revient sur ce que nous avons vu au premier cours, donne une équation
- Avec les tests paramétriques, on tente d’ajuster un modèle statistique à quoi? Puis on utilise ce modèle pour faire quoi?

A

Résultati = bXi + erreuri
Avec les tests paramétriques, on tente d’ajuster un modèle statistique à nos données. Puis on utilise ce modèle pour estimer nos paramètres dans la population.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Exemple: Étude visant à mieux comprendre le lien entre le racisme et la quantité de contact avec les autres groupes ethniques.
* VD: Score de racisme
* VI: Score de contact (X)
* L’ajustement du modèle ci-haut aux données vise à trouver la valeur que l’on doit donner à b pour prédire le racisme à partir du contact tout en minimisant les erreurs de prédictions.
- Est ce que ce problème est biaisé? Si oui ou si non, pourquoi?

A

Ce problème est biaisé car pas basé sur toute la population, plutôt sur un échantillon. Même si on essaye de le mettre le plus représentatif que possible, on va toujours avoir une erreur standard à calculer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
L’ajustement du modèle se fait sur un échantillon, mais l’objectif est de pouvoir faire des inférences sur la population
- Explique les 4 étapes

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
- Il faut donc éviter les biais pouvant survenir dans ces trois contextes, nomme les

A
  1. Biais dans l’estimation des paramètres
  2. Biais sur l’erreur standard et l’intervalle de confiance
  3. Biais sur les tests statistiques et les valeurs de p
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Nous allons nous concentrer sur deux types de biais, nomme les

A
  1. Données aberrantes
  2. Violation des postulats de base.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Donnée aberrante
- Quelle est la définition
- donne un exemple de donnée aberrante

A

Définition: Donnée dont la valeur est très différente du reste des valeurs dans la distribution.
Exemple : quelqu’un qui a 100% alors que les autres ont tous 30/40%.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Donnée aberrante
- Est-ce que cette donnée est représentative de l’échantillon?

A

non

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Donnée aberrante
- Les données aberrantes vont venir biaiser le calcul de quels 2 calculs?

A

Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Donnée aberrante
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type
- Comment ça impacte la moyenne (2)
- Comment ça impacte l’ÉT? Et cela impact sur quoi d’autre + explique

A
  • Peut augmenter ou diminuer artificiellement la moyenne, et influencer le rejet/non-rejet de H0
  • Augmente la taille de l’écart-type, ce qui augmente l’erreur standard (erreur qu’on fais au niveau de la prédiction de nos scores)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Donnée aberrante
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type
- Quels sont les deux impacts lorsque les données aberrantes biaisent le calcul de la moyenne et ÉT?

A

Le fit de notre modèle est donc moins bon et on estime des paramètres qui représentent pas nos données

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
- Donne la def des postulats de base
- Qu’arrive t il si les postulats sont pas respectés (2)?

A

Conditions devant être respectées pour utiliser un test statistique paramétrique basé sur le modèle linéaire. Si les conditions ne sont pas respectées, le test peut donner un résultat inexact et mener à des conclusions erronées

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
- Nomme les 4 postulats

A
  1. Additivité et linéarité
  2. Normalité
  3. Homoscédasticité / homogénéité des variances
  4. Indépendance des observations
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat de linéarité
- Explique le postulat

A

*Lorsqu’on applique un modèle linéaire sur nos données, on assume qu’elles varient linéairement (duh).
*Si le postulat de linéarité n’est pas respecté, les tests paramétriques basé sur le modèle linéaire ne peuvent décrire correctement la relation entre deux ou plusieurs variables.
*Si pas linéaire = modèle nécessairement pas bon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat de linéarité
- quelles sont les 2 choses qu’on peut dire sur ce modèle

A

Le modèle indiquerait ici une relation très faible… conclusion erronée.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
- L’ajustement de données à un modèle linéaire implique la distribution normale à plusieurs niveaux, nomme et explique les 3 niveaux

A
  1. Estimation des paramètres.
    * Affecté par une distribution non-normale des résidus (erreur).
  2. Intervalles de confiance.
    *On utilise les valeurs de la distribution normale pour calculer les bornes.
  3. Test de l’hypothèse nulle.
    * Lorsque tests statistiques utilisent distributions reliées à la distribution normale (ex. F, t, c2)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
V ou F
pour pouvoir utiliser les tests paramétriques, nos données doivent se distribuer normalement

A

F
Ce n’est pas tout à fait exact. Notre distribution d’échantillonnage et nos erreurs doivent se distribuer normalement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
Théorème central limite
- Donne la def de ce théorème et explique

A

Peu importe la forme de la distribution de la population, les paramètres de cette population se distribueront normalement si les échantillons sont suffisamment grands.
Donc le postulat de normalité est surtout important avec les petits échantillons.
Même si données pas normales, si échantillon assez grand, on s’en fou de la normalité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
Théorème central limite
- Selon ce théorème, quel est le minimum échantillon pour asssumer que l’échantillon est distribué normalement et respecte le postulat de normalité?

A

Minimum échantillon n = 30 : peut assumer que l’échantillon est distribué normalement et respecte le postulat de normalité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
- Nomme les 2 designs qu’on aborde

A

Designs à plusieurs groupes ou conditions
Designs corrélationnels

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
Designs à plusieurs groupes ou conditions
- Explique ce postulat
- Donne un exemple
- Comment corriger?

A
  • Ce postulat assume que les échantillons dans les différents groupes/conditions proviennent de populations avec des variances comparables.
  • Super variabilité dans les gens ayant pas de cours de stats et peu de variabilité dans les gens ayant eu cours de stats : résultats de l’erreur standard ne seront pas correspondant au groupe avec et sans stats
    Le Levene peut corriger cela, mais on veut tout de même éviter le plus possible cela
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
Designs corrélationnels
- Ce postulat assume quoi?
- Des variances hétérogènes sont-elles problématiques pour l’estimation des paramètres du modèle?
- Toutefois, ça créent des biais dans quoi? Quel est l’impact?
- Peut être soit trop ____ ou trop ____

A
  • Ce postulat assume que la variance de la VD devrait être comparables aux différents niveaux de la (ou des) VI.
    *Des variances hétérogènes ne sont pas problématiques pour l’estimation des paramètres du modèle.
    *Toutefois, créent des biais dans l’estimation de l’erreur standard, ce qui peut avoir un impact sur le résultat du test statistique.
  • Peut être soit trop conservateur ou trop libéral.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
Designs corrélationnels
- Qu’est ce qui arrive si x vrie pas mais y varie bcp?

A

Si x varie pas mais y vare bcp, distribution est pas distribué de la même manière donc un fais pas de bonnes conclusions. A différents points on sur ou sous estime le modèle de prédiction, donc modèle est pas bon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- c’est quoi ce postulat

A

Postulat selon lequel les observations dans notre échantillon sont indépendantes les unes des autres (contamination des scores, scores corrèlent plus car il a eu une non indépendance)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- Quels sont les 2 types de postulat d’indépendance

A

*Ex. non-indépendance à plusieurs personnes : Si la tâche est d’identifier des visages, mais que deux participants sont un à côté de l’autre et se consultent pour répondre: ils ne sont plus indépendants.
*Ex. non-indépendance avec soi-même : Si tu testes deux fois la même personne dans une tâche et que tu la considères comme deux entités de ton échantillon: pas indépendant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- COmment éviter de briser ce postulat? DOnne 3 exemples de ce qu’on pourrait mettre en place dans notre étude pour respecter cela

A

Importance d’avoir un devis de recherche rigoureux (personne seule lorsqu’elle complète étude, ne pas permettre de contact entre les conditions ou effacer les doublons)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Détecter et corriger le biais dans les données

Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- Ce postulat est important dans quel calcul?
- Explique l’impact que ça a sur le calcul
- Explique l’impact que ça a sur les résultats

A

Ce postulat est important dans le calcul de l’erreur standard
Mène à sous-estimer l’erreur standard
Participants vont tous trop se ressembler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Détecter et corriger le biais dans les données

Réduire les biais
Pour réduire les biais, on utilise habituellement une des 4 méthodes suivantes: (nomme les et donne leur description rapide chaque)

A
  1. Couper les données (Trimmingthe data)
    * Retirer les données aberrantes
  2. Winsorizing
    * Ramener les données aberrantes plus près de la moyenne
  3. Méthodes robustes
    * Sous-échantillonnage aléatoire pour estimer les paramètres de la distribution d’échantillonage.
  4. Transformation des données
    * Compenser pour l’aplatissement, l’asymmétrieet le manque de linéarité
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Détecter et corriger le biais dans les données

Réduire les biais
Couper les données
- Explique en quoi ça consiste

A

*Éliminer les scores extrêmes
*Généralement, on s’établie a priori une règle, et on utilise celle-ci pour «couper les données».

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Détecter et corriger le biais dans les données

Réduire les biais
Couper les données
- Quelle est une méthode typique utilisée ? Explique la

A

Une méthode typique consiste à enlever les valeurs qui se trouvent à plus ou moins 2.5 écart-types de la moyenne (nombre d’écart type peut varier)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Détecter et corriger le biais dans les données

Réduire les biais
Couper les données
- QUelle est une autre méthode a utilisée qui est moins biaisée? Pourquoi l’utiliser?
- Faut éviter cette technique quand? Pourquoi?

A

*Cela dit, l’écart-type et la moyenne sont influencés par les scores extrêmes, donc la méthode du pourcentage des extrêmes (dit d’avance que 5% inférieur et supérieur on retire) est moins biaisée
*Cela dit, on perd plus de notre échantillon. C’est à éviter quand nos échantillons sont plus petits, et plutôt procéder à la méthode avec les ÉT (ex : échantillon 1000 aura moins un impact d’enlever des extrêmes qu’un échantillon de 30)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Détecter et corriger le biais dans les données

Réduire les biais
Couper les données
- Quand faut il choisir la méthode de couper des données? Pourquoi?

A

Choisir cela à priori, car ça en soi c’est un biais. Raison pourquoi on fait des pré enregistrements d’étude maintenant

36
Q

Détecter et corriger le biais dans les données

Réduire les biais
Couper les données
Écart type
- Dans quel cas faut procéder au pourcentage des extrèmes plutot que les écarts types? explique
- que faire pour compenser?

A

Peut être bien dans certains contexte, mais il peut s’agir de corrections imparfaites car données aberrantes peuvent être tellement loin que sera pas inclue même dans le 3 ou 4 écart type, dans ce cas là faudra procéder au pourcentage des extrèmes
Peut faire un score levier pour compenser

37
Q

Détecter et corriger le biais dans les données

Réduire les biais
Couper les données
Pourcentage des extrèmes
- Dans certains contextes, que peut il arriver de pas bon?

A

Peut être bon, mais dans certains contexte, peut passer à côté de quelque chose que je cherchais

38
Q

Détecter et corriger le biais dans les données

Réduire les biais
Winsorisation
- nomme les 2 manières de faire cela

A

*Remplacer la donnée aberrante par la prochaine valeur la plus extrême mais non aberrante
*D’autres auteurs recommandent de remplacer la valeur par la moyenne +-3 écart-types (prendre un score extrême et le transformer en la moyenne - 3 ÉT)

39
Q

Détecter et corriger le biais dans les données

Réduire les biais
Winsorisation
- Ca a quel impact sur les propriétés, le poids et la manière d’influencer?

A

On conserve les propriétés mais donne un poids moins élevé, va influencer de manière qu’il était dû influencer.

40
Q

Détecter et corriger le biais dans les données

Réduire les biais
Winsorisation
- Pas toujours miracle, mais bien dans quelle situation? Explique pk

A

Pas toujours miracle, mais bien si échantillon plus petit car pourrait pas se permettre de retirer un participants si a 20 participants (enlever n’a pas le même poids pour un n=20 vs n=2000). Donc si gros échantillons, peut enlever donnée, mais si petit échantillon, c’est mieux de faire la winsorisation

41
Q

Détecter et corriger le biais dans les données

Réduire les biais
Méthodes robustes
V ou F
Les méthodes robustes ne sont pas affectées par les violations des postulats

A

v

42
Q

Détecter et corriger le biais dans les données

Réduire les biais
Méthodes robustes
- Nomme quelle méthode on utilise

A

Bootstrap

43
Q

Détecter et corriger le biais dans les données

Réduire les biais
Méthodes robustes
Bootstrap
- Explique c’est quoi
- Explique comment ça fais pour faire ça
- Quel est l’impact de faire cela
- Permet de calculer des ____ de ____ de façon plus robuste

A
  • Bootstrap: Vient estimer les paramètres de la distribution d’échantillonnage sans passer par le calcul de l’erreur standard (qui est biaisé).
  • En gros, on traite notre échantillon comme une population, et on prend des sous-échantillons pour estimer les paramètres de la population (calculer une distribution d’échantillonnage)
  • Impact : si biais dans distribution échantillonnage, seront calculé et considérés pour faire une distribution d’échantillonnage normal
  • On peut donc calculer des intervalles de confiance de façon robuste.
44
Q

Détecter et corriger le biais dans les données

Réduire les biais
Méthodes robustes
Bootstrap
- On veut environ combien de sous échantillons

A

À partir de 1000 sous-échantillons on est en business

45
Q

Détecter et corriger le biais dans les données

Réduire les biais
Transformation de données
- On vient appliquer une transformation à toutes les données pour quelle raison?
- Comment ça marche?

A

*On vient appliquer une transformation à toutes les données pour changer la forme de la distribution.
*En gros, on applique une correction mathématique sur les données pour régler des problèmes

46
Q

Détecter et corriger le biais dans les données

Réduire les biais
Transformation de données
- Nomme les 4 transformations typiques

A

*Transformation Log (Log(x))
*Transformation racine carrée (sqrt(x))
*Transformation réciproque (1/x)
*Transformation de l’inversement des scores (max –x +1) (Va venir flip la fonction de la donnée, puis le logarithme va normaliser)

47
Q

Détecter et corriger le biais dans les données

Réduire les biais
Transformation de données
- Dans quel cas la transformation inverse se combine avec les autres transformations?

A

quand l’asymétrie est négative

48
Q

Détecter et corriger le biais dans les données

Réduire les biais
Transformation de données
- Donne un exemple de comment c’est utilisé

A

On veut corriger cela : si un x plus bas a plus de y et les x plus hauts ont moins de y, on va utiliser les transformations de données pour venir normaliser cette répartition des données et exacerber a un certain point de la distribution et minimiser a un autre point de la distribution.

49
Q

Détecter et corriger le biais dans les données

Réduire les biais
Transformation de données
C’est plutôt controversé
- Nomme les 4 raisons que c’est plutot controversé

A
  • La normalité est assurée dans les grands échantillons selon le théorème central limite
    *En transformant les données, on change l’hypothèse qui est testée, et on complexifie énormément l’interprétation (plus on transforme, plus le modèle devient compliqué à utiliser et communiquer, et les retombées sont moins claires)
    *Évaluer la normalité dans les petits échantillons est déjà complexe
    *Transformer un modèle avec la mauvaise méthode peut le rendre pire.
50
Q

Détecter et corriger le biais dans les données

SPSS –Détecter les données aberrantes
- Pour détecter, quelle est une méthode facile

A

*Avec un diagramme à boîte et moustaches, vous pouvez voir l’ID du participant de la donnée aberrante

51
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la normalité
*On peut utiliser quoi (test)?
*L’axe des X représente quoi, l’axe des Y représente quoi
*Dans quel cas on a un problème de normalité, d’asymétrie, et d’aplatissement

A

*On peut utiliser les «P-P plots», accessibles dans l’onglet «Descriptives».
*L’axe des X représente le score Z obtenu, l’axe des Y représente le score Z attendu.
*Si les déviations par rapport à la ligne sont importantes, il y a probablement un problème de normalité.
* Si les valeurs sont constamment en haut ou en bas de la ligne, vous avez un problème d’asymétrie.
* Si les valeurs ont une forme en «S», vous avez un problème d’aplatissement.

52
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la normalité
Tests de normalité
- Quel test peut être utilisé?
- QU’est ce que ça regarde?

A

On peut utiliser le test de Kolmogorov-Smirnovpour évaluer la normalité.
On regarde si la distribution est significativement différente de la courbe normale.

53
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la normalité
Tests de normalité
test de Kolmogorov-Smirnovpour
- ca veut dire quoi si p plus petit ou plus grand que .05
- c’est quoi le h1 et le h0 du test
- ca veut dire quoi si le test est significatif

A

Si p plus petit que .05 = variance pas homogène
Si p plus grand que .05 = variance homogène
h1 : pas d’homogénité
h0 : il a homogénéité
Si significatif = il a des problèmes a régler

54
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la normalité
Tests de normalité
test de Kolmogorov-Smirnovpour
- explique pk y faut faire attention à ‘inteprrétation des tests de normalité

A
  • Ils sont très sensibles à la taille de l’échantillon.
    *Dans les grands échantillons : peuvent indiquer une déviation de la normalité alors que la déviation est très faible.
  • D’autant plus problématique qu’avec les grands échantillons, une telle déviation est moins un problème étant donné le théorème central limite.
    *Dans les petits échantillons: peuvent indiquer une absence de déviation de la normalité, alors que des déviations importantes sont observées.
  • D’autant plus problématique qu’avec les petits échantillons il faut être davantage prudent puisqu’on ne peut pas assumer la normalité de la distribution d’échantillonnage.
55
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la normalité
Tests de normalité
test de Kolmogorov-Smirnovpour
- malgré les - de ce test, pk on recommende de le faire quAND meme

A

On peut le faire quand meme car donne quand même une info. Permettra d’être nuancé dans nos interprétations si jamais le test reviens significatif en disant qu’on considère la taille de mon échantillon comme impactée par le test

56
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la linéarité/homogénéité des variance
Identifie le problème de chaque graphique

A

carré : n’a pas de relation, pas de problème de postulat
triangle : problème d’homogénéité
u inversé : problème de linéarité
weird : mélance de linéarité et homogénéité

57
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la linéarité/homogénéité des variance
Test de Levene
- On l’utilise pour vérifier quoi
- Ca test quoi
- c’est bon dans quel cas? Dans quel autre cas on a un problème? Et dans quel cas c’est un moins gros problème?
- Pk c’est controversé?

A

On peut utiliser le test de Levene pour vérifier l’homogénéité des variances.
* Test l’hypothèse nulle que les variances sont égales.
*C’est bon si le test est non significatif;si le test est significatif, vous avez un problème. Mais échantillon plus gros = moins gros problème
*Controversé pour les mêmes raisons que le Kolmogorov-Smirnov Significatif: Indique des variances hétérogènes (donc violation du postulat).

58
Q

Détecter et corriger le biais dans les données

SPSS –Évaluer la linéarité/homogénéité des variance
Test de Levene
- Comment Rapporter le test de Levene ?

A

Pour les scores d’hygiène la première journée du festival, les variances étaient inégales pour les hommes et les femmes, F(1, 808) = 4.74, p=0.03.

59
Q

Détecter et corriger le biais dans les données

Le biais –En gros
- On doit vérifier que nos données répondent aux postulats de base et ne contiennent pas de données aberrantes, mais lequel doit on vérifier en premier?
- Pourquoi?

A

Mais regarder en premier aberrantes, puis ensuite postulat de base
Lorsqu’on a un gros échantillon, on assume (grâce au théorème central limite) que la distribution est normale. Les données aberrantes sont alors plus importantes.

60
Q

Détecter et corriger le biais dans les données

Le biais –En gros
- quel est le point - des tests statistiques pour évaluer les postulats de base

A

sous-performent dans les contextes où ils sont le plus utiles.

61
Q

Détecter et corriger le biais dans les données

Le biais –En gros
Les tests statistiques pour évaluer les postulats de base existent, mais sous-performent dans les contextes où ils sont le plus utiles.
- Donc, il faut être ____ des résultats des tests, mais ____ dans leur application
- * Ex. Un test de normalité significatif avec un gros échantillon ne veut pas dire que…
*Un test de normalité non-significatif avec un petit échantillon ne veut pas dire que …

A

*Donc, il faut être conscients des résultats des tests, mais critiques dans leur application.
* Ex. Un test de normalité significatif avec un gros échantillon ne veut pas dire qu’on ne peut pas analyser nos données.
*Un test de normalité non-significatif avec un petit échantillon ne veut pas dire que les postulats sont tous respectés. (Manque de puissance)

62
Q

Représentations graphiques et visualisation de données

  • A quoi ressemblent les graphiques en marketing, data science ou politique?
  • Vs a quoi ressemblent les graphiques en science? Et donne 3 caract
A

*Si vous présentez des données pour du marketing, du data science ou la politique, ça peut être utile d’avoir pleins de couleurs, motifs, etc
*Cela dit, en sciences, on présente des graphiques plates. On priorise la clartéau look.
*Peu de couleurs; si oui, des couleurs «basic»
*Pas de «flafla» inutile
*Le graphique doit être utile en supplément de votre texte pour simplifier la compréhension du lecteur.

63
Q

Représentations graphiques et visualisation de données

Tufte(2001) donne les recommandations suivantes (7)

A

*Présente les données.
*Amène le lecteur à réfléchir aux données présentées.
*Éviter d’altérer ou de fausser l’apparence des données.
*Présente un maximum d’information avec un minimum d’encre.
*Rend cohérent un large ensemble de données.
*Encourage le lecteur à comparer différentes parties des données.
*Révèle le «message» transmis par les données

64
Q

Représentations graphiques et visualisation de données

A

1 :
- barre d’erreur partiellement caché dans cylindre
le 3d rend ca incompréhensible
- variables pas très précises (ex : number, c quoi?)
- pk ya des patterns et des textures dans les cylindres?
2 :
- dit simplement, facilement et clairement ce qu’on veut expliquer
- variables plus claires
- pas de 3d : le 3d est presque jamais pertinent pour la psycho

65
Q

Représentations graphiques et visualisation de données

A

Aucun des deux n’est optimale, lui de gauche est juste moins pire
Lui de droite : intervalle va si haut = minimise la relation, Alors que c’est juste la valeur en y qui a été mise trop haute
Deux graphiques pas géniaux, car à bande :
- Espace entre barres, c’est pk?
- Pas de barre d’erreur

66
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Histogramme
- Histogramme représente quoi? Donne des exemples

A

*Histogramme représente la fréquence avec laquelle une variable prend différents intervalles de valeurs.
* Ex. Dans les scores à un examen, la fréquence des personnes ayant un score entre 10 et 19%, 20 et 29%, 30 et 39%, etc.

67
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Histogramme
- Quel est son avantage ?

A

Permet d’obtenir, en un coup d’œil, une idée de la forme de notre distribution
* Symétrie? Aplatissement? À quelle point l’étalement autour de la moyenne est grand?

68
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Histogramme double
- c quoi
- on utilise quoi dans ce cas
- quel est son niveau d’utilisation dans les articles? compare a un autre graphique

A

On pourrait aussi comparer la distribution de fréquence des deux conditions (travail vs vœu)
*On peut utiliser une pyramide de population dans ce cas.
*Pas vu super souvent dans des articles.
*On voit beaucoup plus de diagrammes à moustaches quand on compare deux distributions.

69
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Boîtes et moustaches (Box-plots)
*Cette forme de représentation est utile parce qu’elle permet d’avoir une idée rapide de quoi (4)

A

*De la forme de la distribution (symétrique ou non, voussure)
*Des bornes entre lesquelles se trouve 50 % de nos données
*Notre valeur médiane
*Présence de valeurs aberrantes ou non (très important pour tantôt!)

70
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
v ou f
La boite a moustache donne le plus d’infos avec le moins d’encre

A

v

71
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Boites à moustache
- nomme une forme de boite a moustache
- Explique la différence avec la boite a moustache classique
- Quel est ses 2 désavantages

A
  • Les «violinplots» sont des graphiques de plus en plus courant dans la littérature scientifique.
  • Ils sont une évolution des diagrammes à boîtes et moustaches, et ajoutent la forme de la distribution sur les côtés.
  • Difficiles à faire en SPSS (nécessitent la syntaxe), mais faciles à faire en R + personne qui sait pas que les cotés c’est la distribution ca peut être douteux et pas dire plus qqchose
72
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Graphiques à bandes
- Typiquement utilisé pour représenter quoi? Ce qui facilite quoi?

A

Typiquement utilisé pour représenter des moyennes (peut facilement représenter si les différences sont significatives)

73
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Graphiques à bandes
*On ajoute les barres d’erreurs pour représenter quoi (3)

A
  • Intervalle de confiance à 95%
  • Erreur standard
  • Ecart-type
74
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Graphiques à bandes
- comment on peut comparer différents groupes?
- Utiles dans quels devis?

A

Vous pouvez aussi utiliser des diagrammes à clusters pour comparer différents groupes.
*Utiles dans les devis indépendants.

75
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Graphiques à bandes
v ou f
On s’y prend de la même manière pour un devis mixte vs devis à mesures répétées

A

f
on s’y prends différemment

76
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Nuages de points
- utilisé pour quelle raison?

A

*Utiles pour visualiser le lienentre deux variables.
* Comment une des variables varie par rapport à l’autre.

77
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Nuages de points
- DOnne 2 options supplémentaires au nuage de point et explique

A

Peuvent aussi être visualisés par clusters.
* Ex. Séparément pour les hommes et les femmes.
Peuvent aussi être visualisés par clusters.
* Ex. Séparément pour les hommes et les femmes.
Vous pouvez aussi utiliser une matrice de nuages de points pour visualiser plusieurs relations en même temps.

78
Q

Représentations graphiques et visualisation de données

Générateur de graphiques SPSS
Nuages de points
matrice de nuages de points
- c’est pas l’idéal pour des articles. Qu’est ce qui est plus recommandé ?

A

Je n’ai jamais vu ça dans un article, ce n’est pas très clair. C’est plus courant de voir des nuages de points individuels pour chaque paire de variables.

79
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
- L’APA recommande quoi pour les figure et tableau? Pk? (2)

A

L’APA recommande de bien peser le pour et le contre de mettre une figure ou un tableau dans un texte.
- Trop de figures ou de tableaux peuvent rendre le texte difficile à lire
- Parfois, certains résultats se présentent très bien en texte

80
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
- Dans le cas d’un ANOVA, il est préférable de faire un tableau pour illustrer la tendance.

A

f
Parfois, certains résultats se présentent très bien en texte.
* Ex. Une analyse d’ANOVA, F(1, 136) = 4.86, p = 0.029, 𝜂 =0.03, démontre des différences statistiquement significatives entre les deux groupes.

81
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
- Avec les corrélations, recommandé de rapporter avce quoi?

A

nuage de point

82
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
- nomme les 12 recommendations pour les figures

A

*Doit complémenter plutôt que dupliquer le texte
*Doit représenter l’essentiel seulement
*Ne doit pas contenir de détails visuels superflus
*Doit être facile à lire (étiquette, symboles, lignes, etc. suffisamment gros et clairs).
*Doit être facile à comprendre
*Si plusieurs figures sont incluses, une uniformité doit être conservée à travers celles-ci.
* Les lignes doivent être claires et bien définies
*Police facile à lire
*Unités de mesure rapportées
* Les axes doivent être clairement étiquetés
* Les éléments faisant partie de la figure doivent être étiquetés ou expliqués
*Si barres d’erreurs, indiquer ce qu’elles représentent (intervalle confiance, erreur standard, ÉT)

83
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
Légendes
- Explique quoi
- Fait partie de quoi? donc ces quoi la police et taille de caractere ?

A
  • Explique les symboles utilisés dans la figure
  • Fait partie intégrante de la figure; donc même police et taille de caractère
84
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
Numéro de figure/table
- Ou
- Comment le numéroter?
- Éviter de mettre quoi?

A
  • Au-dessus de la figure/table
  • Numéroter dans l’ordre où elles sont discutées dans le texte
  • Éviter de mettre des lettres suffixes (Ex. Figure 1a, Figure 1b: devrait plutôt se lire Figure 1, Figure 2)
85
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
Titre de figure/table
- ou
- a quoi ca ressemble

A
  • Sous le numéro de figure
  • Italique avec première lettre de chaque mot majuscule
86
Q

Représentations graphiques et visualisation de données

Normes APA pour les graphiques
Notes sous figure
- Caract (longueur et contenu)

A

Doit être brève mais doit contenir toute l’info nécessaire pour comprendre la figure sans avoir à retourner lire le texte.