Cours 2 Flashcards
Pour appliquer un régression linéaire simple, la question statistique implique combien de variables? Dire si elles sont qualitatives ou quantitatives.
- UNE variable réponse et UNE variable explicative
- Les 2 variables sont quantitatives
Nommer les suppositions de la régression linéaire.
-Les observations sont échantillonnées au hasard et sont indépendantes
-Les mesures de x sont obtenues sans erreur (ou l’erreur est négligeable
comparée à celle de y)
-Le relation entre X et Y est linéaire
-Homogénéité des variances
-Les résidus sont distribués normalement
Expliquer comment procéder pour examiner les résidus.
Tracer un diagramme des résidus (en ordonnée) par rapport aux valeurs ajustées (y-chapeau) (en abscisse).
Expliquer les ce que l’analyse des résidus détermine.
- La fonction de régression est linéaire
- Les résidus ont une variance constante (homoscédasticité)
- Les résidus sont indépendants
- Les résidus sont distribués normalement
- Il existe des valeurs aberrantes (outliers)
Nommer ce qui est recherché lors d’une analyse du nuage de points des résidus par rapport aux valeurs ajustées.
- Un motif incurvé => pas linéarité.
- Augmentation / diminution de la dispersion autour de zéro, en fonction de X (motif de cône)
- Les points individuels avec de grands résidus c-à-d un grand Y (Discrepancy/Divergence)
- Les points individuels qui sont extrêmes dans la direction x (Leverage/Levier)
Quelles sont les conséquences associées aux valeurs aberrantes (outliers).
Elles peuvent affecter:
- la normalité des données
- l’homoscédacticité
- la pente
- l’ordonnée
- la probabilité de commettre un erreur de Type II (faux négatif)
Nommer 4 méthodes graphiques qui permettent de détecter la présence d’une valeur aberrante.
- L’inspection visuelle des données
- L’inspection visuelle des résidus
- L’inspection visuelle des histogrammes des résidus
- L’inspection visuelle de «boxplots» (boîte à moustaches)
Nommer des méthodes quantitatives qui permettent de détecter la présence d’une valeur aberrante.
- +/-3.0écarts-types de la moyenne ;|z-score|>3
- Médiane+/-(1.5xIQR)
- Au-dessus ou en dessous des déciles supérieur et inférieur
Vrai ou Faux.
La connaissance de la gamme des valeurs attendues est un moyen valide pour détecter la présence de valeurs aberrantes.
Vrai
Expliquer l’effet d’une divergence sans levier.
La valeur Y est inhabituelle compte tenu de sa valeur X, mais elle a peu d’influence sur la droite de régression parce que la valeur Y est au milieu de la plage de X
Expliquer l’effet d’un levier sans divergence.
Valeur élevée de X. Pourtant valeur d’Y est en ligne avec la
régression de sorte qu’il n’a aucune influence
Expliquer l’effet d’un levier et une divergence simultané.
- Les valeurs de X et Y sont toutes deux inhabituelles, ce résidu a une grande influence
- Si cette observation est supprimée, à la fois la pente et l’ordonnée changent
Que représente la ligne au centre d’une boîte à moustaches?
La médiane.
Définir les erreurs.
- Valeurs qui ne représentent pas fidèlement les mesures ou observations originales.
- Elles peuvent être créées de nombreuses manières: erreurs de transcription, d’enregistrement, ou de fonctionnement des appareils de mesure.
Quelles sont les 2 options possibles dans le cas où la distribution des résidus n’est pas conforme à une loi normale?
1) Normaliser les données
(avec transfo)
2) Utiliser une autre méthode:
- méthodes statistiques basées sur les rangs
-modèles linéaires généralisés (e.g., logistique, Poisson, neg. bin)
-modèles non-linéaire