Cours 2 Flashcards

1
Q

La qualité de l’inférence statistique dépend
directement de la qualité des […]

A

La qualité de l’inférence statistique dépend
directement de la qualité des données

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelles sont les 6 étapes de l’inférence statistique?

A
  1. Choix de l’échantillon et des instruments
  2. Collecte et saisie de données
  3. Transformation des données
  4. Exploration des données
  5. Analyse descriptive des données
  6. Analyse inférentielle des données
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les différentes étapes de saisie directe des données pour éviter les erreur? (3)

A
  1. Saisie simple: Quand on fait passer des questionnaires papier, puis on entre les données à l’ordinateur
  2. Saisie vérifiée (validation des champs): Dès qu’il va y avoir une réponse qui est invalide selon la programmation de la saisie qui sera capturé (ex: Rentre dans un programme spécifique pour une échelle de 1 à 4 et on entre 5 par erreur)
  3. Double saisie: Deux personnes indépendantes vont entrer les réponses (saisir les mêmes questionnaires). Donc s’il y a des différences, il y a des erreurs qui seront à vérifier. Avec ça, on a une très bonne base de donnée

**Les méthodes de saisie informatisée, où l’acquisition de données est réalisée en temps réel et/ou par le participant, sont idéales pour réduire les problèmes de saisie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Comment fait-on pour vérifier la qualité de l’ensemble de nos variables, en fonction du type de variable (continue, nominale)?

A
  1. Variable continue
    1. Moyenne et écart-type
    2. Étendue des scores
  2. Variable dichotomique ou nominale
    1. Fréquence de chaque valeur
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quels sont les inconvénients qu’entraînent les données manquantes? (3)

A
  1. Affecte les paramètres estimés (biais)
  2. Affecte la puissance statistique des tests
  3. Affecte la généralisation des résultats (validité externe)

** Le patron des données manquantes est plus important que la quantité de données manquantes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quels sont les trois patrons de données manquantes?

A
  1. MCAR (missing completely at random)
    1. La probabilité d’avoir une donnée manquante est parfaitement imprévisible. Elle n’est pas reliée aux données observées ou manquantes.
    2. Conséquence: L’analyse sur les sujets disponibles est valide, même si moins puissante
    3. Ex: Une partie des questionnaires complétés a été perdue par la poste
  2. MAR (missing at random)
    1. La probabilité d’avoir une donnée manquante est reliée aux variables déjà observées dans la base de données. Elle n’est pas reliée à la valeur de la donnée manquante.
    2. Conséquence: Si on tient compte des variables (prédicteurs; ex: sexe) reliées à la probabilité des données manquantes dans le modèle statistique, l’analyse sur les sujets disponibles est valide (on diminue le biais des DM dans nos résultats).
    3. Ex: Les sujets de sexe masculin répondent moins fréquemment à une question sur l’humeur dépressive
  3. MNAR (Missing not at random)
    1. La probabilité d’avoir une donnée manquante est reliée aux variables NON observées dans la base de données. Elle est reliée à la valeur de la donnée manquante.
    2. Conséquence: On doit tenter d’identifier des variables qui permettront indirectement de mesurer la probabilité d’avoir une donnée manquante puis faire les analyses selon le patron MAR. Sinon, analyses de sensibilité (+++ complexe).
    3. Ex: Les sujets avec un revenu élevé ont tendance à ne pas répondre à la question sur le revenu
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelles sont les quatre méthodes de gestion des données manquantes?

A
  1. Ne rien faire et utiliser des modèles robustes
    1. Certains modèles statistiques (p.ex., modèles mixtes) tiennent compte des DM en assumant qu’elles sont MCAR/MAR
    2. Par contre, il va y avoir un baisse de puissance (d’où l’utilisation de modèles robustes)
  2. Retrait des observations incomplètes
    1. Retirer les observations incomplètes pour obtenir une base de données de sujets complets
  3. Imputation des données manquante
    1. Calculer une valeur estimée qui va remplacer la valeur manquante, pour obtenir une base de données de sujets complets
  4. Pondération des observations
    1. Donner davantage de poids aux observations complètes pour compenser l’absence des participants similaires
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Dans la méthode de retrait des observations avec des données manquantes, quels sont les deux types de retrait possibles?

A
  1. Retrait total des observations incomplètes (listwise deletion)
    1. Se fait par défaut dans SPSS, SAS, etc.
  2. Retrait des observations par analyse (pairwise deletion)
    1. Disponible dans tous les logiciels. Méthode qui amène des biais et donc rarement utilisée.

** À utiliser dans un contexte où les données manquantes sont complètement aléatoire (MCAR)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Dans la méthode d’imputation des données manquantes, quels sont les cinq types d’imputation possibles?

A
  1. Imputation par moyenne de la variable
    1. Réduit la variance/covariance des données
  2. Imputation par régression
    1. Augmente la covariance des données
  3. Imputation selon le plus proche voisin (hot-deck)
  4. Projection de la dernière donnée disponible (last observation carried forward) (longitudinal)
    1. Problème: Assume qu’il n’y a aucun changement dans le temps
  5. Expectation-maximization (EM) ou imputation multiple
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Dans la méthode d’imputation des données manquantes, expliquer l’imputation par moyenne de la variable ainsi que son effet sur les résultats.

A

Il y a deux moyennes (variable choisi de tous les participants; moyenne du participant (en fonction de son pattern de réponse)) que l’on peut mettre à la place de la donnée manquante:

  1. Mettre la moyenne du groupe (tous les participants) pour la variable choisie: Pas très personnalisé, réduit donc la variabilité
  2. Mettre la moyenne du participant: Réduit la variance des données puis le fait de toujours mettre l’imputation de la moyenne, ça va réduire l’écart-type et donc la corrélation ainsi que la covariance.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Dans la méthode d’imputation des données manquantes, expliquer l’imputation selon le plus proche voisin ainsi que son effet sur les résultats.

A

On voit que dans la base de donnée, souvent les participants vont avoir à peu près les mêmes caractéristiques que la personne avec les données manquantes. Donc on peut utiliser ces réponses pour compléter les données manquantes de l’autre.

-> Le problème est que si on veut un profil similaire, en pratique ça demande beaucoup d’analyse pour trouver le profil le plus similaire!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Dans la méthode d’imputation des données manquantes, expliquer les étapes de l’imputation multiple.

A
  1. Calculer la matrice de VC(variance-covariance) sur les données disponibles
  2. Prédire les données manquantes à l’aide d’une régression multiple et imputer ces valeurs dans la base de données
  3. Recalculer la matrice de VC et la comparer avec celle de départ. Si différences, refaire l’étape 2 jusqu’à ce que les deux matrices soient similaires

** Ici, on s’assure que il n’y a pas trop de différence entre ma matrice de départ et celle corrigée pour les données manquantes. On fait ces calculs à répétition.

*** Cette méthode est rendu un standard dans l’imputation. Par contre, en science sociale il y a encore une résistance face au imputation (on manipule les données puisque ce ne sont pas “des vrais données”).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Dans la méthode de pondération des observations pour la gestion des données manquantes, comment calcule-t-on le poids attribué aux données disponibles

A

Ex: On a trois groupes. G1 tout le monde répond 1, G2 tout le monde répond 2, G3 tout le monde répond 3. X sont les données manquantes.

  1. On va voir quelle est la probabilité d’avoir répondu: G1 1/3, G2 3/3, G3 2/3.
  2. Le poids c’est l’inverse de la probabilité (donc chaque personne va représenter tant de personnes): G1 1 personne représente 3, G2 1 personne représente 1 personne, G3 1 personne représente 1 1/2 personne.
  3. On doit ensuite redistribuer les résultats avec le poid qui les représente si on divise le poid total avec le nombre de réponse attendu.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce qu’une donnée extrême?

A

Une donnée rare selon la distribution statistique, qui est éloignée de la valeur des autres données du même échantillon.

* Une donnée extrême peut être observée sur une variable nominale ou continue

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

D’où provient les données extrêmes?

A
  1. Erreur dans la saisie des données (données abhérrantes)
  2. Erreur dans les codes de données manquantes
  3. Appartient à une autre population
  4. Donnée valide mais peu probable

* Une donnée extrême continue (multivariée) provenant d’une variable continue provient de la combinaison improbable de plusieurs variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment identifie-t-on les données extrêmes univariée en fonction du type de variable (nominal, continue)?

A
  1. Variable nominale
    1. Valeur dont la fréquence est faible (<10%)
  2. Variable continue
    1. Valeur située à >3.29 écarts-type de la moyenne (p < .001, bilatéral)
    2. Notre point de référence est la moyenne sur la distribution noramle. Donc plus on est loin de la moyenne plus on de chance d’être une donnée extrême.
17
Q

Quelles sont les deux caractéristiques d’une donnée extrême multivariée?

A
  1. L’effet de levier (leverage) : est-ce que la donnée est distante du reste des données?
    1. Mesurée par la distance de Mahalanobis
  2. La déviation (discrepancy) : est-ce que la donnée affecte peu ou beaucoup la relation entre les variables pour le reste des données?

** L’influence d’une donnée extrême est fonction du levier et de sa déviation

  • Mesurée par la distance de Cook
18
Q

Décrivez la variable extrême de chaque tableau (a,b,c) en fonction du levier, de sa déviation ainsi que de son influence.

A

A) Le point x est en lien avec la relation, mais il est très loin. Il n’y aura pas trop d’impact sur la droite de régresssion. Donc elle a un fort levier (loin) mais peu déviante (suit la tendance) et donc peu d’influence sur la régression.

B) Le point x est très loin du jeu de donnée et complètement contre la tendance du jeu de donnée. Donc elle a un fort levier, une forte déviance et donc une forte influence sur la régression. La régression ne sera pas intéressante ni pour le jeu de donnée ni pour la variable extrême si elle prend en compte la variable extrême.

C) Le point x est proche du jeu de donnée mais contre sa tendance. Donc elle a un faible levier, une forte déviance et donc une influence modérée.

19
Q

Pourquoi doit on s’occuper des données extrêmes?

A
  1. Une donnée extrême modifie la moyenne et la variance d’une variable (biais et efficacité de l’estimateur)
  2. Une donnée extrême augmente (ou diminue) la probabilité de faire une erreur de type I (alpha) ou II (beta)
20
Q

Quelles sont les méthodes de gestion des données extrêmes? (4)

A
  1. Retirer les données extrêmes (qui deviennent manquantes)
    1. Avant c’était très utiliser, mais plus maintenant
  2. Transformer la variable affectée pour réduire l’influence des données extrêmes
  3. Estimer une valeur plus probable
    1. On va la remplacer par une autre valeur qui n’aura pas trop d’influence dans nos résultats (imputation plus raisonnable). Elle va être à la limite de notre critère de détection de valeur extrême
  4. Utiliser un test statistique peu ou non-sensible aux données extrêmes (i.e., statistique robuste ou non-paramétrique)
21
Q

Quels sont les postulats de base de la plupart des méthodes d’analyses multivariées? (5)

A
  1. Indépendance des observations
  2. Normalité des distributions
  3. Multi-normalité des relations entre les variables
  4. Linéarité des relations entre les variables
  5. Homoscédasticité (homogénéité des variances)
22
Q

Comment vérifie-t-on le postulat de normalité “univariée”?

A

Indices graphiques et statistiques

  1. Examiner histogramme ou normogramme (QQ-plot) (idée générale seulement)
  2. Calculer skewness (asymétrie) et kurtosis (aplatissement ou voussure)
  3. Test de normalité (p.ex., Shapiro-Wilk)
    1. Ho : la distribution respecte une courbe normale
    2. Critique: Trop sensible. Ce test va surdétecter la non normalité pour les gros échantillons
23
Q

Que représente ces graphiques?

A

A) Asymétrie positive

B) Asymétrie négative

C) Voussure positive

D) Voussure nédative

24
Q

À quoi faire-t-il faire attention lorsque l’on transforme une distribution problématique pour qu’elle représente davantage les caractéristiques d’une distribution normale?

A
  1. Les résultats (et donc les conclusions) sont tirées sur des données transformées
  2. Si la variable est mieux représentée par une autre loi (p.ex., loi de Poisson), la transformation est superflue et va même créer un problème!
25
Q

Normalité : Transformations

Si on a une distribution avec une asymétrie positive, on suggère de faire la […] de nos variables (pas possible si données négatives; dans ce cas là faut faire un offset. Ex; -2 donc on fait +2 à toutes nos variables avant la […] pour être sure qu’elle est normale) pour les normaliser
Si on a une distribution avec une asymétrie positive et une forte voussure, on suggère de faire un […] de nos variables
Si on a une distribution avec une voussure négative, on fait […]

A

Normalité : Transformations

Si on a une distribution avec une asymétrie positive, on suggère de faire la racine carré de nos variables (pas possible si données négatives; dans ce cas là faut faire un offset. Ex; -2 donc on fait +2 à toutes nos variables avant la racine carrée pour être sure qu’elle est normale) pour les normaliser
Si on a une distribution avec une asymétrie positive et une forte voussure, on suggère de faire un log de nos variables
Si on a une distribution avec une voussure négative, on fait l’inverse de la racine carrée (1/y)

26
Q

Pourquoi la linéarité des relations est un postulat important des analyses multivariées?

A

La covariance/corrélation capture uniquement l’aspect linéaire de la relation entre deux variables

27
Q

Comment peut-on vérifier le postulat de linéarité des relations dans les analyses multivariées? (2)

A
  1. Corrélogrammes
  2. Graphiques des résidus (e.g., régression multiple)
28
Q

Qu’est-ce que le postulat d’homoscédasticité?

A

Il est attendu que la variabilité d’une variable X est similaire pour toutes les valeurs de la variable Y.

Dans un test T, on veut que la variance d’un groupe soit égale à celle d’un autre groupe. La distribution d’un groupe devrait être relativement similaire à la distribution d’un autre groupe. La variabilité d’une variable est la même pour une autre variable (groupe).

29
Q

Comment vérifie-t-on l’homoscédasticité? (2)

A
  1. Graphiques
  2. Tests statistiques (complexes)
30
Q

Qu’est-ce que le postulat de multicolinéarité et de singularité?

A

Très forte corrélation entre deux variables ou entre des combinaisons de variables.
Exemple : information redondante pour plusieurs variables (e.g., items d’un questionnaire)

** La singularité est un cas extrême de multicolinéarité

31
Q

Pourquoi la multicolinéarité représente un problème pour les analyses multivariées?

A

La multicollinéarité peut empêcher l’inversion (i.e., division) de la matrice de variance-covariance.

-> La colinéarité est normale mais on ne veut pas aller dans l’extrême qu’est la singularité et qui nous empêche de faire nos analyses.

Solution: Si on a des problèmes de linéarité trop forte, on doit retirer la variable problématique mais on doit choisir laquelle se débarasser entre les deux variables avec une trop forte linéarité (flusher celle qui corrèle moins avec la variable dépendante car elle est moins influente en plus d’être redondante).

32
Q

En quoi consiste une corrélation sous-estimée?

A
  1. Variable avec variance réduite
    1. Variable avec une trop forte moyenne qui amène une très faible variabilité (souvent un effet de plancher).
  2. Variable nominale ou ordinale
    1. Les modèles sont fait pour des variables continues, pas nominales/ordinales.
  3. Effet de plafond ou de plancher
  4. Relation non-linéaire
    1. Si on a des relations non-linéaires et on fait des matrices de corrélation, on va sous-estimer notre corrélation.

Solution: Spécifique au problème. Doit se questionner si nos analyses vont réellement bien représenter nos données et les relations entre elles.

  • P.ex., utiliser une corrélation ajustée (e.g., corrélation de Spearman ou corrélation basée sur un polynôme) ou d’un indice d’association plus approprié (e.g., coefficient phi pour des variables binaires)

** Pas vraiment un problème car il n’y a pas de tests statistiques pour vérifier cela. C’est plutôt une réflexion à avoir.