Prēparation des données Flashcards

1
Q

Parmi les variables X1 à X5 (chacune évaluée sur une échelle de 0 à 10), laquelle semble présenter un problème (moyenne et/ou variabilité) et devrait être retirée de l’analyse?

A

La variable X3, évaluée sur une échelle de 0 à 10, présente une moyenne pratiquement nulle et une très faible variance, ce qui suggère un effet de plancher et une manque de sensibilité aux différences individuelles.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Parmi les variables X1 à X5, laquelle présente le plus de données manquantes?

A

La variable X5 présente 19% de données manquantes, la proportion la plus élevée comparativement aux autres (allant de 4 à 11%).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Pour la variable ayant le plus de données manquantes selon l’énoncé précédent, est-ce que le patron de données manquantes apparait comme MCAR ou MAR selon l’âge?

A

Un test t de Student selon un échantillon indépendants (statut manquant = VI, âge = VD) ne permet pas de conclure à la présence d’une différence significative de la probabilité de données manquantes selon l’âge, t(98) = -1.25, p = .21. Le patron de DM pour X5 semble être MCAR selon l’âge.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Pour la variable ayant le plus de données manquantes selon l’énoncé précédent, est-ce que le patron de données manquantes apparait comme MCAR ou MAR selon le sexe?

A

Un test du khi-carré (statut manquant = VI, sexe = VD) permet de conclure à la présence d’une différence significative de la probabilité de données manquantes selon le sexe, x2(1,N=100) = 4.87 p = .03. Le patron de DM pour X5 semble être MAR selon le sexe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Dans cette population, il est attendu que 60% des répondants soient des femmes. Quel poids devrait être utilisé pour les hommes afin de redresser l’échantillon?

A

La proportion des hommes dans la population est de 40% mais de 25% dans l’échantillon. Donc, un poids de .40/.25 = 1.60 devrait être utilisé pour redresser la proportion des hommes dans l’échantillon et le rendre représentatif de la population.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Combien de données extrêmes significatives retrouve-t-on pour la variable X1?

A

Une donnée est considérée comme significative extrême si elle est située à 3.29 écart-type de la moyenne (selon un p = .001). La variable X1 présente une moyenne de 3.906 et un écart-type de 1.754. Donc, une donnée est extrême si elle est inférieure à 3.906 - 3.29 x 1.754 = -1.86 (impossible) ou supérieure à 9.677. Une seule observation (10) est dans cette situation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

La variable X3 semble avoir un problème de normalité. Quelle transformation permet d’améliorer le plus l’asymétrie (skewness) et donc la normalité?

A

L’asymétrie de la variable X3 originale est de 1.487. Après avoir ajouté une constante (=1) à la variable X3 (car le logarithme et l’inverse sont invalides pour les valeurs 0), la transformation inverse est celle qui améliore le plus l’asymétrie (-0.50, vs 0.81 pour le logarithme et 1.09 pour la racine carrée.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Nommez 3 inconvenients des données manquantes

A
  • Affecte les paramètres estimés (biais)
  • Affecte la puissance statistique des tests
  • Affecte la généralisation des résultats
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vrai ou faux : Le patron des données manquantes est plus important que la manquantes quantité de données

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelles sont les 4 approches de gestion des données manquantes?

A
  1. ne rien faire et utiliser des modèles robust
  2. retrait des observations incomplète
  3. imputation des données manquantes
  4. pondération des observation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Une population contient 40% d’hommes et 60% de femmes. Votre cible étant de 400 participants, vous prévoyiez recruter 160 H et 240 F pour votre étude, mais seuls 130 H et 150 F ont répondu à l’instrument. Devez-vous pondérer? Si oui, quel poids devra être utilisé pour les H et F de votre échantillon

A

H: 0.87
F: 1.11

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Pourquoi s’occuper d’une donnée extrême ?

A

Une donnée extrême modifie la moyenne et la variance d’une variable (biais et efficacité de l’estimateur)

Une donnée extrême augmente (ou diminue) la probabilité de faire une erreur de type I (alpha) ou II (beta)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Pourquoi la linéarité des relations est-elle importante?

A

La covariance/corrélation capture uniquement l’aspect linéaire de la relation entre deux variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Pourquoi la multicolinearité/singularité sont elles importantes?

A

La multicollinéarité peut empêcher l’inversion (i.e., division) de la matrice de variance-covariance.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
A