2 - Exploration et visualisation de données Flashcards
Détecter et corriger le biais dans les données
Pour que nos analyses soient vraiment ____
fiables
Détecter et corriger le biais dans les données
Être conscient des biais pour quelles 2 raisons?
pour pouvoir les identifier dans un article et avoir un regard critique par rapport aux résultats (pour éviter de se faire pogner)
Détecter et corriger le biais dans les données
Exemple
- Dans quel 3 cas la relation statistique n’est pas évidente? explique
- Quel est l’impact d’avoir ces affaires la?
C’est plus une courbe qu’une droite
Certains points sont solitaires (données aberrantes)
Peu de données à gauche et sont tous dans le même coin et données à droite a plus de données et sont plus éparpillées
.
Impact : biaise nos conclusions et fait qu’on pose pas les bonnes conclusions
Détecter et corriger le biais dans les données
Exemple
- Les modèles linéaires assument souvent une ____ ____ des données, et une ____ des ____ pour chaque variable
Les modèles linéaires assument souvent une distribution linéaire des données, et une homogénéité des variances pour chaque variables
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
- Si on revient sur ce que nous avons vu au premier cours, donne une équation
- Avec les tests paramétriques, on tente d’ajuster un modèle statistique à quoi? Puis on utilise ce modèle pour faire quoi?
Résultati = bXi + erreuri
Avec les tests paramétriques, on tente d’ajuster un modèle statistique à nos données. Puis on utilise ce modèle pour estimer nos paramètres dans la population.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Exemple: Étude visant à mieux comprendre le lien entre le racisme et la quantité de contact avec les autres groupes ethniques.
* VD: Score de racisme
* VI: Score de contact (X)
* L’ajustement du modèle ci-haut aux données vise à trouver la valeur que l’on doit donner à b pour prédire le racisme à partir du contact tout en minimisant les erreurs de prédictions.
- Est ce que ce problème est biaisé? Si oui ou si non, pourquoi?
Ce problème est biaisé car pas basé sur toute la population, plutôt sur un échantillon. Même si on essaye de le mettre le plus représentatif que possible, on va toujours avoir une erreur standard à calculer.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
L’ajustement du modèle se fait sur un échantillon, mais l’objectif est de pouvoir faire des inférences sur la population
- Explique les 4 étapes
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
- Il faut donc éviter les biais pouvant survenir dans ces trois contextes, nomme les
- Biais dans l’estimation des paramètres
- Biais sur l’erreur standard et l’intervalle de confiance
- Biais sur les tests statistiques et les valeurs de p
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Nous allons nous concentrer sur deux types de biais, nomme les
- Données aberrantes
- Violation des postulats de base.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
- Quelle est la définition
- donne un exemple de donnée aberrante
Définition: Donnée dont la valeur est très différente du reste des valeurs dans la distribution.
Exemple : quelqu’un qui a 100% alors que les autres ont tous 30/40%.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
- Est-ce que cette donnée est représentative de l’échantillon?
non
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
- Les données aberrantes vont venir biaiser le calcul de quels 2 calculs?
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type
- Comment ça impacte la moyenne (2)
- Comment ça impacte l’ÉT? Et cela impact sur quoi d’autre + explique
- Peut augmenter ou diminuer artificiellement la moyenne, et influencer le rejet/non-rejet de H0
- Augmente la taille de l’écart-type, ce qui augmente l’erreur standard (erreur qu’on fais au niveau de la prédiction de nos scores)
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type
- Quels sont les deux impacts lorsque les données aberrantes biaisent le calcul de la moyenne et ÉT?
Le fit de notre modèle est donc moins bon et on estime des paramètres qui représentent pas nos données
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
- Donne la def des postulats de base
- Qu’arrive t il si les postulats sont pas respectés (2)?
Conditions devant être respectées pour utiliser un test statistique paramétrique basé sur le modèle linéaire. Si les conditions ne sont pas respectées, le test peut donner un résultat inexact et mener à des conclusions erronées
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
- Nomme les 4 postulats
- Additivité et linéarité
- Normalité
- Homoscédasticité / homogénéité des variances
- Indépendance des observations
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de linéarité
- Explique le postulat
*Lorsqu’on applique un modèle linéaire sur nos données, on assume qu’elles varient linéairement (duh).
*Si le postulat de linéarité n’est pas respecté, les tests paramétriques basé sur le modèle linéaire ne peuvent décrire correctement la relation entre deux ou plusieurs variables.
*Si pas linéaire = modèle nécessairement pas bon
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de linéarité
- quelles sont les 2 choses qu’on peut dire sur ce modèle
Le modèle indiquerait ici une relation très faible… conclusion erronée.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
- L’ajustement de données à un modèle linéaire implique la distribution normale à plusieurs niveaux, nomme et explique les 3 niveaux
- Estimation des paramètres.
* Affecté par une distribution non-normale des résidus (erreur). - Intervalles de confiance.
*On utilise les valeurs de la distribution normale pour calculer les bornes. - Test de l’hypothèse nulle.
* Lorsque tests statistiques utilisent distributions reliées à la distribution normale (ex. F, t, c2)
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
V ou F
pour pouvoir utiliser les tests paramétriques, nos données doivent se distribuer normalement
F
Ce n’est pas tout à fait exact. Notre distribution d’échantillonnage et nos erreurs doivent se distribuer normalement.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
Théorème central limite
- Donne la def de ce théorème et explique
Peu importe la forme de la distribution de la population, les paramètres de cette population se distribueront normalement si les échantillons sont suffisamment grands.
Donc le postulat de normalité est surtout important avec les petits échantillons.
Même si données pas normales, si échantillon assez grand, on s’en fou de la normalité
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
Théorème central limite
- Selon ce théorème, quel est le minimum échantillon pour asssumer que l’échantillon est distribué normalement et respecte le postulat de normalité?
Minimum échantillon n = 30 : peut assumer que l’échantillon est distribué normalement et respecte le postulat de normalité
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
- Nomme les 2 designs qu’on aborde
Designs à plusieurs groupes ou conditions
Designs corrélationnels
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
Designs à plusieurs groupes ou conditions
- Explique ce postulat
- Donne un exemple
- Comment corriger?
- Ce postulat assume que les échantillons dans les différents groupes/conditions proviennent de populations avec des variances comparables.
- Super variabilité dans les gens ayant pas de cours de stats et peu de variabilité dans les gens ayant eu cours de stats : résultats de l’erreur standard ne seront pas correspondant au groupe avec et sans stats
Le Levene peut corriger cela, mais on veut tout de même éviter le plus possible cela
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
Designs corrélationnels
- Ce postulat assume quoi?
- Des variances hétérogènes sont-elles problématiques pour l’estimation des paramètres du modèle?
- Toutefois, ça créent des biais dans quoi? Quel est l’impact?
- Peut être soit trop ____ ou trop ____
- Ce postulat assume que la variance de la VD devrait être comparables aux différents niveaux de la (ou des) VI.
*Des variances hétérogènes ne sont pas problématiques pour l’estimation des paramètres du modèle.
*Toutefois, créent des biais dans l’estimation de l’erreur standard, ce qui peut avoir un impact sur le résultat du test statistique. - Peut être soit trop conservateur ou trop libéral.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
Designs corrélationnels
- Qu’est ce qui arrive si x vrie pas mais y varie bcp?
Si x varie pas mais y vare bcp, distribution est pas distribué de la même manière donc un fais pas de bonnes conclusions. A différents points on sur ou sous estime le modèle de prédiction, donc modèle est pas bon
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- c’est quoi ce postulat
Postulat selon lequel les observations dans notre échantillon sont indépendantes les unes des autres (contamination des scores, scores corrèlent plus car il a eu une non indépendance)
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- Quels sont les 2 types de postulat d’indépendance
*Ex. non-indépendance à plusieurs personnes : Si la tâche est d’identifier des visages, mais que deux participants sont un à côté de l’autre et se consultent pour répondre: ils ne sont plus indépendants.
*Ex. non-indépendance avec soi-même : Si tu testes deux fois la même personne dans une tâche et que tu la considères comme deux entités de ton échantillon: pas indépendant.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- COmment éviter de briser ce postulat? DOnne 3 exemples de ce qu’on pourrait mettre en place dans notre étude pour respecter cela
Importance d’avoir un devis de recherche rigoureux (personne seule lorsqu’elle complète étude, ne pas permettre de contact entre les conditions ou effacer les doublons)
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’indépendance
- Ce postulat est important dans quel calcul?
- Explique l’impact que ça a sur le calcul
- Explique l’impact que ça a sur les résultats
Ce postulat est important dans le calcul de l’erreur standard
Mène à sous-estimer l’erreur standard
Participants vont tous trop se ressembler
Détecter et corriger le biais dans les données
Réduire les biais
Pour réduire les biais, on utilise habituellement une des 4 méthodes suivantes: (nomme les et donne leur description rapide chaque)
- Couper les données (Trimmingthe data)
* Retirer les données aberrantes - Winsorizing
* Ramener les données aberrantes plus près de la moyenne - Méthodes robustes
* Sous-échantillonnage aléatoire pour estimer les paramètres de la distribution d’échantillonage. - Transformation des données
* Compenser pour l’aplatissement, l’asymmétrieet le manque de linéarité
Détecter et corriger le biais dans les données
Réduire les biais
Couper les données
- Explique en quoi ça consiste
*Éliminer les scores extrêmes
*Généralement, on s’établie a priori une règle, et on utilise celle-ci pour «couper les données».
Détecter et corriger le biais dans les données
Réduire les biais
Couper les données
- Quelle est une méthode typique utilisée ? Explique la
Une méthode typique consiste à enlever les valeurs qui se trouvent à plus ou moins 2.5 écart-types de la moyenne (nombre d’écart type peut varier)
Détecter et corriger le biais dans les données
Réduire les biais
Couper les données
- QUelle est une autre méthode a utilisée qui est moins biaisée? Pourquoi l’utiliser?
- Faut éviter cette technique quand? Pourquoi?
*Cela dit, l’écart-type et la moyenne sont influencés par les scores extrêmes, donc la méthode du pourcentage des extrêmes (dit d’avance que 5% inférieur et supérieur on retire) est moins biaisée
*Cela dit, on perd plus de notre échantillon. C’est à éviter quand nos échantillons sont plus petits, et plutôt procéder à la méthode avec les ÉT (ex : échantillon 1000 aura moins un impact d’enlever des extrêmes qu’un échantillon de 30)