Cours 2 Flashcards

1
Q

Pour appliquer un régression linéaire simple, la question statistique implique combien de variables? Dire si elles sont qualitatives ou quantitatives.

A
  • UNE variable réponse et UNE variable explicative

- Les 2 variables sont quantitatives

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Nommer les suppositions de la régression linéaire.

A

-Les observations sont échantillonnées au hasard et sont indépendantes
-Les mesures de x sont obtenues sans erreur (ou l’erreur est négligeable
comparée à celle de y)
-Le relation entre X et Y est linéaire
-Homogénéité des variances
-Les résidus sont distribués normalement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Expliquer comment procéder pour examiner les résidus.

A

Tracer un diagramme des résidus (en ordonnée) par rapport aux valeurs ajustées (y-chapeau) (en abscisse).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Expliquer les ce que l’analyse des résidus détermine.

A
  • La fonction de régression est linéaire
  • Les résidus ont une variance constante (homoscédasticité)
  • Les résidus sont indépendants
  • Les résidus sont distribués normalement
  • Il existe des valeurs aberrantes (outliers)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nommer ce qui est recherché lors d’une analyse du nuage de points des résidus par rapport aux valeurs ajustées.

A
  1. Un motif incurvé => pas linéarité.
  2. Augmentation / diminution de la dispersion autour de zéro, en fonction de X (motif de cône)
  3. Les points individuels avec de grands résidus c-à-d un grand Y (Discrepancy/Divergence)
  4. Les points individuels qui sont extrêmes dans la direction x (Leverage/Levier)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les conséquences associées aux valeurs aberrantes (outliers).

A

Elles peuvent affecter:

  • la normalité des données
  • l’homoscédacticité
  • la pente
  • l’ordonnée
  • la probabilité de commettre un erreur de Type II (faux négatif)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Nommer 4 méthodes graphiques qui permettent de détecter la présence d’une valeur aberrante.

A
  • L’inspection visuelle des données
  • L’inspection visuelle des résidus
  • L’inspection visuelle des histogrammes des résidus
  • L’inspection visuelle de «boxplots» (boîte à moustaches)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Nommer des méthodes quantitatives qui permettent de détecter la présence d’une valeur aberrante.

A
  • +/-3.0écarts-types de la moyenne ;|z-score|>3
  • Médiane+/-(1.5xIQR)
  • Au-dessus ou en dessous des déciles supérieur et inférieur
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vrai ou Faux.

La connaissance de la gamme des valeurs attendues est un moyen valide pour détecter la présence de valeurs aberrantes.

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Expliquer l’effet d’une divergence sans levier.

A

La valeur Y est inhabituelle compte tenu de sa valeur X, mais elle a peu d’influence sur la droite de régression parce que la valeur Y est au milieu de la plage de X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Expliquer l’effet d’un levier sans divergence.

A

Valeur élevée de X. Pourtant valeur d’Y est en ligne avec la

régression de sorte qu’il n’a aucune influence

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Expliquer l’effet d’un levier et une divergence simultané.

A
  • Les valeurs de X et Y sont toutes deux inhabituelles, ce résidu a une grande influence
  • Si cette observation est supprimée, à la fois la pente et l’ordonnée changent
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Que représente la ligne au centre d’une boîte à moustaches?

A

La médiane.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Définir les erreurs.

A
  • Valeurs qui ne représentent pas fidèlement les mesures ou observations originales.
  • Elles peuvent être créées de nombreuses manières: erreurs de transcription, d’enregistrement, ou de fonctionnement des appareils de mesure.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quelles sont les 2 options possibles dans le cas où la distribution des résidus n’est pas conforme à une loi normale?

A

1) Normaliser les données
(avec transfo)
2) Utiliser une autre méthode:
- méthodes statistiques basées sur les rangs
-modèles linéaires généralisés (e.g., logistique, Poisson, neg. bin)
-modèles non-linéaire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Nommer 4 façons différentes pour tester la normalité des résidus.

A
• Outils :
1. Histogrammes
2. Les plots QQ
• Tests statistiques :
1. Test de Kolmogorov-Smirnov (test KS)
2. Test de Shapiro-Wilk (test SW)
17
Q

Compléter la phrase.

Dans un histogramme des résidus on cherche une distribution qui est ________ et __________.

A

unimodale et symétrique.

À noter les histogrammes des résidus sont sensibles à n.

18
Q

Expliquer qu’est-ce qu’un plot QQ.

A

• QQ = “quantile - quantile”
• Les quantiles
divisent les données en portions
• Les quantiles indiquent la valeur à laquelle une proportion connue de vos données sont plus petits ou égaux (à leurs valeurs).
• Semblable à la fonction de répartition, mais discrète
• La médiane représente la valeur (observation) à laquelle 50% des observations sont inférieures ou égales.

19
Q

Qu’est-ce que le test Kolmogorov-Smirnov compare?

A

On compare la fonction de distribution cumulative (CDF) empirique et la distribution cumulative théorique.

20
Q

Nommer les suppositions, les limitations et les extensions du test Kolmogorov-Smirnov.

A

Suppositions
• Les échantillons sont aléatoires
• La distribution théorique (FT(x)) est continue

Limitations
• Pas applicable quand il faut estimer les paramètres de la données; donc, pas toujours
utile…

Extensions
• Extension pour la comparaison de conformité entre deux distributions empiriques
• comportement semblable au test Chi-carré
avec corrections pour les degrés de liberté et les paramètres estimés
• Test Anderson-Darling

21
Q

Nommer une alternative plus fiable pour tester la normalité.

A

Le test Shapiro-Wilk

22
Q

Compléter la phrase.
La statistique W du test peut être perçue comme __ ___ de la droite liant l’abscisse et l’ordonnée de cette représentation.

A

le R^2

23
Q

Vrai ou Faux.

Plus W est grand, plus la distribution est proche de la normale et plus la probabilité p du test s’approche de 1.

A

Vrai

24
Q

Vrai ou Faux.

La statistique W est définit par l’estimation de l’écart-type des données divisé par l’écart-type de la théorie.

A

Faux

W= écart-type th / écart-type données

25
Q

Mentionner les mises en garde associées à l’utilisation du test Shapiro-wilk.

A
  • S’il y a plusieurs valeurs égales, cela pose problème • Ne rejette pas H0 assez souvent quand n est petit
  • Rejette H0 trop souvent quand n est large
  • N.B. Le test Shapiro-Wilk est trop sensible pour la vérification de la normalité des données pour les tests t ou l’ANOVA….
  • Utilisez les histogrammes et les diagrammes QQ
26
Q

Vrai ou Faux
• Les transformations normalisatrices réduisent l’hétéroscédasticité des données en
stabilisant leur variance
• Ils rendent la variance indépendante de la moyenne et plus constante sur l’ensemble de l’échantillon.

A

Vrai