Cours 2 Flashcards
Pour appliquer un régression linéaire simple, la question statistique implique combien de variables? Dire si elles sont qualitatives ou quantitatives.
- UNE variable réponse et UNE variable explicative
- Les 2 variables sont quantitatives
Nommer les suppositions de la régression linéaire.
-Les observations sont échantillonnées au hasard et sont indépendantes
-Les mesures de x sont obtenues sans erreur (ou l’erreur est négligeable
comparée à celle de y)
-Le relation entre X et Y est linéaire
-Homogénéité des variances
-Les résidus sont distribués normalement
Expliquer comment procéder pour examiner les résidus.
Tracer un diagramme des résidus (en ordonnée) par rapport aux valeurs ajustées (y-chapeau) (en abscisse).
Expliquer les ce que l’analyse des résidus détermine.
- La fonction de régression est linéaire
- Les résidus ont une variance constante (homoscédasticité)
- Les résidus sont indépendants
- Les résidus sont distribués normalement
- Il existe des valeurs aberrantes (outliers)
Nommer ce qui est recherché lors d’une analyse du nuage de points des résidus par rapport aux valeurs ajustées.
- Un motif incurvé => pas linéarité.
- Augmentation / diminution de la dispersion autour de zéro, en fonction de X (motif de cône)
- Les points individuels avec de grands résidus c-à-d un grand Y (Discrepancy/Divergence)
- Les points individuels qui sont extrêmes dans la direction x (Leverage/Levier)
Quelles sont les conséquences associées aux valeurs aberrantes (outliers).
Elles peuvent affecter:
- la normalité des données
- l’homoscédacticité
- la pente
- l’ordonnée
- la probabilité de commettre un erreur de Type II (faux négatif)
Nommer 4 méthodes graphiques qui permettent de détecter la présence d’une valeur aberrante.
- L’inspection visuelle des données
- L’inspection visuelle des résidus
- L’inspection visuelle des histogrammes des résidus
- L’inspection visuelle de «boxplots» (boîte à moustaches)
Nommer des méthodes quantitatives qui permettent de détecter la présence d’une valeur aberrante.
- +/-3.0écarts-types de la moyenne ;|z-score|>3
- Médiane+/-(1.5xIQR)
- Au-dessus ou en dessous des déciles supérieur et inférieur
Vrai ou Faux.
La connaissance de la gamme des valeurs attendues est un moyen valide pour détecter la présence de valeurs aberrantes.
Vrai
Expliquer l’effet d’une divergence sans levier.
La valeur Y est inhabituelle compte tenu de sa valeur X, mais elle a peu d’influence sur la droite de régression parce que la valeur Y est au milieu de la plage de X
Expliquer l’effet d’un levier sans divergence.
Valeur élevée de X. Pourtant valeur d’Y est en ligne avec la
régression de sorte qu’il n’a aucune influence
Expliquer l’effet d’un levier et une divergence simultané.
- Les valeurs de X et Y sont toutes deux inhabituelles, ce résidu a une grande influence
- Si cette observation est supprimée, à la fois la pente et l’ordonnée changent
Que représente la ligne au centre d’une boîte à moustaches?
La médiane.
Définir les erreurs.
- Valeurs qui ne représentent pas fidèlement les mesures ou observations originales.
- Elles peuvent être créées de nombreuses manières: erreurs de transcription, d’enregistrement, ou de fonctionnement des appareils de mesure.
Quelles sont les 2 options possibles dans le cas où la distribution des résidus n’est pas conforme à une loi normale?
1) Normaliser les données
(avec transfo)
2) Utiliser une autre méthode:
- méthodes statistiques basées sur les rangs
-modèles linéaires généralisés (e.g., logistique, Poisson, neg. bin)
-modèles non-linéaire
Nommer 4 façons différentes pour tester la normalité des résidus.
• Outils : 1. Histogrammes 2. Les plots QQ • Tests statistiques : 1. Test de Kolmogorov-Smirnov (test KS) 2. Test de Shapiro-Wilk (test SW)
Compléter la phrase.
Dans un histogramme des résidus on cherche une distribution qui est ________ et __________.
unimodale et symétrique.
À noter les histogrammes des résidus sont sensibles à n.
Expliquer qu’est-ce qu’un plot QQ.
• QQ = “quantile - quantile”
• Les quantiles
divisent les données en portions
• Les quantiles indiquent la valeur à laquelle une proportion connue de vos données sont plus petits ou égaux (à leurs valeurs).
• Semblable à la fonction de répartition, mais discrète
• La médiane représente la valeur (observation) à laquelle 50% des observations sont inférieures ou égales.
Qu’est-ce que le test Kolmogorov-Smirnov compare?
On compare la fonction de distribution cumulative (CDF) empirique et la distribution cumulative théorique.
Nommer les suppositions, les limitations et les extensions du test Kolmogorov-Smirnov.
Suppositions
• Les échantillons sont aléatoires
• La distribution théorique (FT(x)) est continue
Limitations
• Pas applicable quand il faut estimer les paramètres de la données; donc, pas toujours
utile…
Extensions
• Extension pour la comparaison de conformité entre deux distributions empiriques
• comportement semblable au test Chi-carré
avec corrections pour les degrés de liberté et les paramètres estimés
• Test Anderson-Darling
Nommer une alternative plus fiable pour tester la normalité.
Le test Shapiro-Wilk
Compléter la phrase.
La statistique W du test peut être perçue comme __ ___ de la droite liant l’abscisse et l’ordonnée de cette représentation.
le R^2
Vrai ou Faux.
Plus W est grand, plus la distribution est proche de la normale et plus la probabilité p du test s’approche de 1.
Vrai
Vrai ou Faux.
La statistique W est définit par l’estimation de l’écart-type des données divisé par l’écart-type de la théorie.
Faux
W= écart-type th / écart-type données
Mentionner les mises en garde associées à l’utilisation du test Shapiro-wilk.
- S’il y a plusieurs valeurs égales, cela pose problème • Ne rejette pas H0 assez souvent quand n est petit
- Rejette H0 trop souvent quand n est large
- N.B. Le test Shapiro-Wilk est trop sensible pour la vérification de la normalité des données pour les tests t ou l’ANOVA….
- Utilisez les histogrammes et les diagrammes QQ
Vrai ou Faux
• Les transformations normalisatrices réduisent l’hétéroscédasticité des données en
stabilisant leur variance
• Ils rendent la variance indépendante de la moyenne et plus constante sur l’ensemble de l’échantillon.
Vrai