Prēparation des données Flashcards

Question 1

Q

Parmi les variables X1 à X5 (chacune évaluée sur une échelle de 0 à 10), laquelle semble présenter un problème (moyenne et/ou variabilité) et devrait être retirée de l’analyse?

Answer

A

La variable X3, évaluée sur une échelle de 0 à 10, présente une moyenne pratiquement nulle et une très faible variance, ce qui suggère un effet de plancher et une manque de sensibilité aux différences individuelles.

Question 2

Q

Parmi les variables X1 à X5, laquelle présente le plus de données manquantes?

Answer

A

La variable X5 présente 19% de données manquantes, la proportion la plus élevée comparativement aux autres (allant de 4 à 11%).

Question 3

Q

Pour la variable ayant le plus de données manquantes selon l’énoncé précédent, est-ce que le patron de données manquantes apparait comme MCAR ou MAR selon l’âge?

Answer

A

Un test t de Student selon un échantillon indépendants (statut manquant = VI, âge = VD) ne permet pas de conclure à la présence d’une différence significative de la probabilité de données manquantes selon l’âge, t(98) = -1.25, p = .21. Le patron de DM pour X5 semble être MCAR selon l’âge.

Question 4

Q

Pour la variable ayant le plus de données manquantes selon l’énoncé précédent, est-ce que le patron de données manquantes apparait comme MCAR ou MAR selon le sexe?

Answer

A

Un test du khi-carré (statut manquant = VI, sexe = VD) permet de conclure à la présence d’une différence significative de la probabilité de données manquantes selon le sexe, x2(1,N=100) = 4.87 p = .03. Le patron de DM pour X5 semble être MAR selon le sexe

Question 5

Q

Dans cette population, il est attendu que 60% des répondants soient des femmes. Quel poids devrait être utilisé pour les hommes afin de redresser l’échantillon?

Answer

A

La proportion des hommes dans la population est de 40% mais de 25% dans l’échantillon. Donc, un poids de .40/.25 = 1.60 devrait être utilisé pour redresser la proportion des hommes dans l’échantillon et le rendre représentatif de la population.

Question 6

Q

Combien de données extrêmes significatives retrouve-t-on pour la variable X1?

Answer

A

Une donnée est considérée comme significative extrême si elle est située à 3.29 écart-type de la moyenne (selon un p = .001). La variable X1 présente une moyenne de 3.906 et un écart-type de 1.754. Donc, une donnée est extrême si elle est inférieure à 3.906 - 3.29 x 1.754 = -1.86 (impossible) ou supérieure à 9.677. Une seule observation (10) est dans cette situation

Question 7

Q

Question 8

Q

La variable X3 semble avoir un problème de normalité. Quelle transformation permet d’améliorer le plus l’asymétrie (skewness) et donc la normalité?

Answer

A

L’asymétrie de la variable X3 originale est de 1.487. Après avoir ajouté une constante (=1) à la variable X3 (car le logarithme et l’inverse sont invalides pour les valeurs 0), la transformation inverse est celle qui améliore le plus l’asymétrie (-0.50, vs 0.81 pour le logarithme et 1.09 pour la racine carrée.

Question 9

Q

Nommez 3 inconvenients des données manquantes

Answer

A

Affecte les paramètres estimés (biais)
Affecte la puissance statistique des tests
Affecte la généralisation des résultats

Question 10

Q

Vrai ou faux : Le patron des données manquantes est plus important que la manquantes quantité de données

Question 11

Q

Quelles sont les 4 approches de gestion des données manquantes?

Answer

A

ne rien faire et utiliser des modèles robust
retrait des observations incomplète
imputation des données manquantes
pondération des observation

Question 12

Q

Une population contient 40% d’hommes et 60% de femmes. Votre cible étant de 400 participants, vous prévoyiez recruter 160 H et 240 F pour votre étude, mais seuls 130 H et 150 F ont répondu à l’instrument. Devez-vous pondérer? Si oui, quel poids devra être utilisé pour les H et F de votre échantillon

Answer

A

H: 0.87
F: 1.11

Question 13

Q

Pourquoi s’occuper d’une donnée extrême ?

Answer

A

Une donnée extrême modifie la moyenne et la variance d’une variable (biais et efficacité de l’estimateur)

Une donnée extrême augmente (ou diminue) la probabilité de faire une erreur de type I (alpha) ou II (beta)

Question 14

Q

Pourquoi la linéarité des relations est-elle importante?

Answer

A

La covariance/corrélation capture uniquement l’aspect linéaire de la relation entre deux variables

Question 15

Q

Pourquoi la multicolinearité/singularité sont elles importantes?

Answer

A

La multicollinéarité peut empêcher l’inversion (i.e., division) de la matrice de variance-covariance.

Question 16

Q

Answer

Study These Flashcards

A

Prēparation des données Flashcards

(16 cards)