Cours 3 Flashcards

1
Q

Qu’est-ce qu’une donnée extrême ? EXAMEN

A

Une donnée qui se démarque des autres à l’une ou l’autre des extrémités de la distribution des fréquences dans l’échantillon (critères,, continuum, pas blanc/noir, se démarque des autres)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Pourquoi cette donnée pourrait-elle être problématique dans le cadre de nos analyses ?

A

Elle pourrait ne pas être représentative de la population ciblée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment déterminer si une donnée est “extrême” ?

A

Par inspection d’un graphique, par inspection de son score z à l’intérieur de notre échantillon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Pourquoi ne pas utiliser les scores brutes ?

A

Le critère est différent selon les unités

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nommez des graphiques utilisés pour déterminer une donnée extrême ? (2)

A
  1. Histogramme

2. Boite à moustache

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comment obtenir le score z d’une donnée ? (2)

A
  1. Remplacer les valeurs observées par l’écart à la moyenne de chacune
  2. Diviser chaque écart à la moyenne par l’écart-type de la distribution
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelle est la moyenne d’une distribution de scores Z ?

A

> > > >

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quel est l’écart type d’une distribution de scores Z ?

A

> > > >

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Compléter les énoncés suivants :
0.1% des données dont z > ___A___
1% des données dont z > ___B___
5% des données dont z > ___C___

A

A. 3.29
B. 2.58
C. 1.96

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Que se passe-t-il si je retire la donnée ?

Que se passe-t-il si je remplace une donnée par une valeur de score z de 3.29 (“je la rapproche”) ?

A

Si le N diminue, l’écart-type (s) augmente, le score z augmente et la puissance du test diminue

Si le N reste le même, l’écart-type (s) diminue, le score z diminue, la puissance du test augmente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

V ou F. On utilise le critère de 3.29 pour un petit échantillon

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que faire avec les données extrêmes ?

A
  1. On peut retirer le participant de l’échantillon
  2. On peut retirer la donnée de l’échantillon
  3. On peut remplacer la valeur extrême par une valeur qui correspondrait à un score z de 3.29
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Dans quel cas la règle du pouce ne s’applique pas ?

A

Si on a un grand nombre de sujets (Grand échantillon), c’est non représentatif de l’échantillon/population

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

V ou F. On peut répéter l’opération plusieurs, jusqu’à ce qu’il n’y ait plus de donnée extrême.

A

Si au bout du processus on a retiré/modifié un trop grand nombre de données, on devrait commencer à remettre l’échantillon en question et réfléchir aux causes possibles.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

V ou F. Vous devez documenter toutes modifications que vous apportez à votre jeu de données et rapporter ces modifications lorsque vous publiez vos résultats.

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quels sont les niveaux sur lesquels les données extrêmes/aberrantes peuvent biaiser l’analyse des données ? (2)

A
  1. Biais dans l’estimation des paramètres

2. Biais dans l’estimation de l’erreur type (biais du test statistique)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Pourquoi l’estimation des paramètres est-elle affectée par les données extrêmes ?

A

> > >

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Comment trouve-t-on les valeurs des estimateurs de paramètres ?

A

Ce sont les valeurs qui permettent de minimiser l’erreur de prédiction du modèle dans l’échantillon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

V ou F. Les estimateurs des paramètres du modèle sont les valeurs qui rendent le modèle plus représentatif possible de l’échantillon

A

VRAI

20
Q

Comment calcule-t-on la somme des carrés de l’erreur ?

A

SC = Somme (Yi - Y^i)^2

21
Q

Pourquoi est-ce que les données extrêmes ont l’impact le plus élevé sur le calcul des estimateurs des paramètres ?

A

Parce que les données extrêmes sont susceptibles de provenir d’une population autre que la population ciblée

Ceci rend nos estimateurs de paramètres moins représentatifs de la population ciblée

Ceci va donc biaiser nos estimateurs

22
Q

Pourquoi l’erreur type est-elle affectée par les données extrêmes ?

A
  1. On évalue la représentativité de l’estimateur vis-à-vis la population à l’aide de l’erreur type; l’erreur type représente l’écart type de la distribution d’échantillonnage
  2. L’erreur type est estimée à partir de l’écart type de l’échantillon
  3. Les données extrêmes ont l’impact le plus élevé sur le calcul de l’écart type de l’échantillon
  4. Les données extrêmes dans notre échantillon entraîneront une sur estimation
23
Q

Pourquoi les données extrêmes ont l’impact le plus élevé sur le calcul de l’écart type de l’échantillon ?

A

Parce que les données extrêmes sont susceptibles de provenir d’une population autre que la population ciblée; ceci rend nos estimateurs de paramètres moins représentatifs de la population ciblée

24
Q

Pourquoi dit-on que les données extrêmes dans notre échantillon entraîneront une surestimation de l’erreur type ?

A
  1. L’erreur type correspond à du bruit
  2. Surestimer l’erreur type va diminuer la puissance de nos tests statistiques
  3. La puissance statistique correspond à la probabilité de rejeter H0 si H0 est fausse
25
Q

Quoi faire avec les données manquantes ? (3)

A
  1. Éliminer de l’échantillon les sujets ayant des données manquantes
  2. Éliminer d’une analyse les sujets ayant des données manquantes
  3. Remplacer les données manquantes par la moyenne de l’échantillon
26
Q

Pourquoi remplacerait-on les données manquantes par la moyenne de l’échantillon ?

A

Si le N augmente et que le bruit diminue, la somme reste inchangée
L’écart type (s) diminue, erreur type diminue et la puissance du test augmente, ce qui diminue le bruit

27
Q

V ou F. Il est important de documenter ce qu’on fait!

A

VRAI

28
Q

Quels sont les 4 postulats du modèle linéaire ?

A
  1. Additivité et linéarité
  2. Normalité
  3. Homoscédasticité
  4. Indépendance
29
Q

V ou F. Si votre modèle est linéaire mais que la vraie relation est non linéaire alors les meilleurs estimateurs de paramètres b que vous pourrez trouver ne vous permettront jamais d’avoir un modèle représentatif de la vraie relation entre 2 variables

A

VRAI

30
Q

V ou F. Si votre modèle est additif mais que la vraie relation est non additive alors les meilleurs estimateurs de paramètres b que vous pourrez trouver ne vous permettront jamais d’avoir un modèle représentatif de la vraie relation entre 2 variables prédictives et la variable prédite!

A

VRAI

31
Q

Quelle est la seule manière de modéliser une relation qui est réellement non linéaire dans la population? Pourquoi ?

A

D’utiliser un modèle non linéaire

Si la vraie relation est non linéaire alors que votre modèle est linéaire, aucune méthode statistique ne viendra à votre secours

32
Q

Nommez le facteur important pour l’estimation des paramètres.

A

Si la distribution des fréquences dans l’échantillon est normale, alors la somme des carrés de l’erreur permettra d’estimer les valeurs des paramètres de manière optimale SINON d’autres méthodes peuvent s’avérer plus efficaces (Ex. Méthodes robustes)

33
Q

Nommez un exemple de la méthode robuste. Décrivez son fonctionnement.

A

La méthode bootstrap

  1. On échantillonne un sous-ensemble de l’échantillon un grand nombre de fois (généralement plus de 1000)
  2. On utilise la distribution sous-échantillonnage obtenue pour estimer les paramètres et l’erreur type
34
Q

Quelles sont les 4 méthodes pour vérifier la normalité de la distribution des fréquences dans l’échantillon ?

A
  1. Graphique des fréquences
  2. Graphique P-P (et Q-Q)
  3. Mesures d’asymétrie et d’aplatissement
  4. Tests de normalité
35
Q

Quel est le but du graphique des fréquences ?

A

Évaluer par inspection visuelle la superposition entre la courbe gaullienne et la distribution des fréquences de l’échantillon

36
Q

Compléter les énoncés suivants :

Asymétrie = 0 : ___A____
Asymétrie > 0 : ___B____
Asymétrie < 0 : ___C____

A

A. Parfaitement symétrique
B. Asymétrie négative
C. Asymétrie positive

37
Q

Compléter les énoncés suivants :

Aplatissement = 0 : ___A____
Aplatissement > 0 : ___B____
Aplatissement < 0 : ___C____

Aplatissement = kurtosis

A

A. Aplatissement normal (mésokurtique)
B. Aplatissement négatif (platykurtique) = variance élevée
C. Aplatissement positive (leptokurtique) = variance faible

38
Q

Quelle est l’hypothèse nulle de normalité des tests de signification ?

A

H0 = Asymétrie = 0, Kurtosis = 0

39
Q

Quel est le problème lorsqu’on tente de déterminer l’hypothèse nulle de normalité des tests de signification ?

*SCHÉMA ARBRE

A

Si la taille de l’échantillon est faible, ALORS le test est rarement assez puissant pour détecter la non-normalité

Si la taille de l’échantillon est très grande, ALORS le test est trop sensible et rejette l’hypothèse nulle trop facilement

OR, le théorème central limite suggère de toute façon qu’avec un grand échantillon, la distribution d’échantillonnage, elle, est normale

SI l’échantillon comporte suffisamment de participants (règle du pouce N>30), ALORS le théorème central limite stipule que la distribution d’échantillonnage est normale même si la distribution des fréquences dans l’échantillon n’est pas normale

SINON d’autres méthodes peuvent s’avérer plus efficaces, par exemple les méthodes dites “robustes” (Ex. Bootstrap)

40
Q

Pourquoi on n’utilise pas ces tests (Ex. Test de Kolmogorov-Smirnov) ? (2)

A
  1. On évalue la normalité ds fréquences de l’échantillon à l’aide des graphiques et des mesures
  2. On évalue la normalité de la distribution d’échantillonnage selon les mêmes critères, mais on ne s’en fait généralement pas trop si N est grand
41
Q

Qu’est-ce que l’homoscédasticité ?

A

Homogénéité de la variance;

La variabilité de l’erreur est la même à tous les niveaux de la variable prédictive

42
Q

Qu’est-ce que l’hétérocédasticité ?

A

Hétérogénéité de la variance;

La variabilité de l’erreur N’EST PAS la même à tous les niveaux de la variable prédictive

43
Q

Quel est le problème général de l’hétérocédasticité ? (2)

A
  1. L’hétéroscédasticité biaise l’estimation de l’erreur type

2. Ceci implique que l’hétéroscédatiscité risque de biaiser tout test statistique qui utilise l’erreur type

44
Q

Nommez un test qui est utilisé pour tenter de rejeter l’hypothèse nulle selon laquelle il y a homoscédasticité ? En quoi est-il problématique ?

A

Test de Levene

SI la taille de l’échantillon est faible, alors le test est rarement assez puissant pour détecter l’hétéroscédatiscité.

SI la taille de l’échantillon est très grande, alors le test est trop sensible et rejette l’hypothèse trop facilement

OR les tests statistiques peuvent être ajustés en fonction du niveau d’hétéroscédasticité présent, plutôt que de chercher à assumer que SI la taille de l’échantillon est faible, alors le test est rarement assez puissant pour détecter que l’hétéroscédatiscité est présente ou absente.

45
Q

Que se passe-t-il s’il n’y a pas d’indépendance des données ?

A

L’erreur type risque d’être biaisée

SI les mesures se ressemblent trop ALORS l’écart type sera sous estimé et donc l’erreur type sera sous estimé

On pourrait aussi observer l’effet contraire, qui entraînerait une surestimation de l’écart type et donc une sur-estimation de l’erreur type

46
Q

V ou F. Les tests statistiques prennent généralement pour acquis que les données sont indépendantes.

A

VRAI, la mesure d’une donnée n’a pas été influencée par la mesure d’une autre donnée

47
Q

Comment gérer le problème de l’indépendance ?

A

Au niveau de la méthodologie de recherche (avant la récolte de donnée)

Il existe des analyses que l’on peut utiliser si l’on s’attend à trouver une inter-dépendance au sein de certains groupes de données