Prēparation des données Flashcards
Parmi les variables X1 à X5 (chacune évaluée sur une échelle de 0 à 10), laquelle semble présenter un problème (moyenne et/ou variabilité) et devrait être retirée de l’analyse?
La variable X3, évaluée sur une échelle de 0 à 10, présente une moyenne pratiquement nulle et une très faible variance, ce qui suggère un effet de plancher et une manque de sensibilité aux différences individuelles.
Parmi les variables X1 à X5, laquelle présente le plus de données manquantes?
La variable X5 présente 19% de données manquantes, la proportion la plus élevée comparativement aux autres (allant de 4 à 11%).
Pour la variable ayant le plus de données manquantes selon l’énoncé précédent, est-ce que le patron de données manquantes apparait comme MCAR ou MAR selon l’âge?
Un test t de Student selon un échantillon indépendants (statut manquant = VI, âge = VD) ne permet pas de conclure à la présence d’une différence significative de la probabilité de données manquantes selon l’âge, t(98) = -1.25, p = .21. Le patron de DM pour X5 semble être MCAR selon l’âge.
Pour la variable ayant le plus de données manquantes selon l’énoncé précédent, est-ce que le patron de données manquantes apparait comme MCAR ou MAR selon le sexe?
Un test du khi-carré (statut manquant = VI, sexe = VD) permet de conclure à la présence d’une différence significative de la probabilité de données manquantes selon le sexe, x2(1,N=100) = 4.87 p = .03. Le patron de DM pour X5 semble être MAR selon le sexe
Dans cette population, il est attendu que 60% des répondants soient des femmes. Quel poids devrait être utilisé pour les hommes afin de redresser l’échantillon?
La proportion des hommes dans la population est de 40% mais de 25% dans l’échantillon. Donc, un poids de .40/.25 = 1.60 devrait être utilisé pour redresser la proportion des hommes dans l’échantillon et le rendre représentatif de la population.
Combien de données extrêmes significatives retrouve-t-on pour la variable X1?
Une donnée est considérée comme significative extrême si elle est située à 3.29 écart-type de la moyenne (selon un p = .001). La variable X1 présente une moyenne de 3.906 et un écart-type de 1.754. Donc, une donnée est extrême si elle est inférieure à 3.906 - 3.29 x 1.754 = -1.86 (impossible) ou supérieure à 9.677. Une seule observation (10) est dans cette situation
La variable X3 semble avoir un problème de normalité. Quelle transformation permet d’améliorer le plus l’asymétrie (skewness) et donc la normalité?
L’asymétrie de la variable X3 originale est de 1.487. Après avoir ajouté une constante (=1) à la variable X3 (car le logarithme et l’inverse sont invalides pour les valeurs 0), la transformation inverse est celle qui améliore le plus l’asymétrie (-0.50, vs 0.81 pour le logarithme et 1.09 pour la racine carrée.
Nommez 3 inconvenients des données manquantes
- Affecte les paramètres estimés (biais)
- Affecte la puissance statistique des tests
- Affecte la généralisation des résultats
Vrai ou faux : Le patron des données manquantes est plus important que la manquantes quantité de données
Vrai
Quelles sont les 4 approches de gestion des données manquantes?
- ne rien faire et utiliser des modèles robust
- retrait des observations incomplète
- imputation des données manquantes
- pondération des observation
Une population contient 40% d’hommes et 60% de femmes. Votre cible étant de 400 participants, vous prévoyiez recruter 160 H et 240 F pour votre étude, mais seuls 130 H et 150 F ont répondu à l’instrument. Devez-vous pondérer? Si oui, quel poids devra être utilisé pour les H et F de votre échantillon
H: 0.87
F: 1.11
Pourquoi s’occuper d’une donnée extrême ?
Une donnée extrême modifie la moyenne et la variance d’une variable (biais et efficacité de l’estimateur)
Une donnée extrême augmente (ou diminue) la probabilité de faire une erreur de type I (alpha) ou II (beta)
Pourquoi la linéarité des relations est-elle importante?
La covariance/corrélation capture uniquement l’aspect linéaire de la relation entre deux variables
Pourquoi la multicolinearité/singularité sont elles importantes?
La multicollinéarité peut empêcher l’inversion (i.e., division) de la matrice de variance-covariance.