9. Relations entre variables numériques: régression Flashcards
Principe régression
Implique causalité entre variables X et Y -> Y causer par X
Utilisé prédire moyenne variable Y pour valeur X précise
Présupose corrélation entre variable
Régression linéaire permet
- Mesurer force association entre variables
- Prédire valeur moyenne variable réponse Y pour valeur spécifique variable explicative X
Modélisation
Régression permet modéliser comportement Y selon X -> peut avoir plusieurs X (x1,x2,…,xp)
- Y : variable réponse/dépendante
- X : variable explicatuve/indépendante
Régression linéaire simple
Implique juste une variable explicative X
Donc, mesure juste une malgré plusieurs possibles dans population
Équation régression linéaire permet estimer moyenne distribution valeurs yi pour xi donné
Formule : y^ = β0 + β1*x
Où, y^ : moyenne variable Y estimé avec droite régression
x : valeur de variable X
Modèle linéaire
Permet représenter chaque valeur yi mesurée sur chaque unité échantillonnage i
Formule : yi = β0 + β1*xi + ϵ (droite de régression) Où, yi : valeur Y β0 : paramètre ordonné à origine β1 : paramètre pente xi : ième observation de X ϵ : résidu/terme d'erreur
Donc, 1 valeur xi = 1 distribution valeur yi
β0/β1 calculé pour minimiser résidus -> droite explique plus variabilité Y par rapport X
Pente β1
Déf : taux changement moyen Y selon X -> soit moyenne Y lorsque X augemente 1 unité
Peut interpréter comme acroissemenet (β1 > 0) ou diminution (β1 < 0)
Formule : β1 = ∑(xi−X¯)*(yi−Y¯) / ∑(xi−X¯)^2
Donc, pente peut être +/-
Ordonnée à l’origine β0
Déf : valeur moyenne Y¯ lorsque X=0
Formule : β0 = Y¯−β1*X¯
Interprétations des paramètres (β0/β1)
Ordonné β0
- Possède valeur à 0 -> valeur moyenne Y pour valeur moyenne X=0
- Pas sens dans réalité, mais essentiel validité équation
Pente β1
- Donne variation moyenne Y pour une unité de X
Estimation pour espèce i
Utilisé equation régression linéaire pour estimer yi^ espèce i selon xi propre
Permet prédire yi^ pour espèce pas fait mesure Y mais possède mesure X
Prédiction possible que pour valeurs X de i compris dans limites échantillons
- Fait interpolation
- Si fait extrapolation doit être prudent -> aucune garantie relation linéaire reste crédible
Estimations avec R
Utilise fonction : lm ( ) -> visualise avec summary ( )
Définit modèle avec Y ~ X
Obtient : résidus, β0 (intercept), β1 (nom variable), p-value tout, R^2, SEm, …
Intervalle confiance : β0/β1
Doit vérifier résidus normalement distribué autour valeurs prédites avant
Calcul : βj ± tn−2, α/2 × SEβj ]
Où, βj : β0 ou β1
tn−2, α/2 : valeur de t critique (bilatéral) -> enlève 2 dl
SEβj : erreur standard de βj -> propre chaque paramètre
Utilise t car estime intervalle confiance autour moyenne conforme théorème central limite
- β0 : moyenne ordonnée à origine
- β1 : moyenne pente
t et SE donné par lm ( ) -> sous « t value» et « Std. Error »
Peut utiliser R -> confint( lm () , level = 1 - α )
Intervalle de confiance : Ŷ
2 types d’intervalle possible;
- Bande de confiance
- Bande d’intervalle des prédictions
Utilise fonction predict( ) pour obtenir
- Méthode : predict (lm( ), interval = “confidence ou prediction”, level = 0.95)
- Visualise 6 première avec head ()
Si veut prédication valeur moyenne et intervalle pour xi précis -> utilise newdata =
Bande de confiance
Établit intervalle autour valeur moyenne prédite ŷi par régrssion pour chaque xi
- Donc intervalle confiance autour courbe régression
Bande d’intervalle des prédictions
Établit intervalle autour valeurs individuelles de Y peuvent être observé pour chaque xi xi répète échantillonnage
- Donc intervalle confiance autour population variable Y pour chaque X
Pour prédictions individuelles -> veut prédire Y pour un individu
Valeur échantillonnée dépasse intervalle 95% -> extrême
Faire attention sens -> valeur négative parfois sans sens
Test statistique
Peut estimer intervalle autour vraie valeur
Donc peut tester β0/β1 significativement différent 0 (ou autre seuil)
2 tests possible
- Test de Student
- Test global sur régression
Test Student : β0/β1
Meilleur test pour réfuter H0 car βj = paramètres moyens
H0 : βj pas différent 0 (βj = 0)
H1 : βj différent 0 (βj ≠ 0)
Statistique de test : t cal et t crit (dl = n−2, α/2)
Formule : t = (βj - 0) / SEj
Rejet H0 si
- | t cal | > t crit
- p-value < α
- Intervalle confiance autour βj exclue 0
Pour régression linéaire β1 ≠ 0 -> régression significative
Test global régression
Permet tester significativité régression dans ensemble
Compare variances -> variance régression vs variance résiduelle
H0 : régression explique pas variance Y (yi = β0 + ϵi)
- Indique que régression pas significative -> Y dépend pas X
- yi calculé/expliqué par somme moyenne (Y¯ = β0) et erreur (ϵi)
H1 : régression explique partie vairance Y (yi = β0 + β1*xi + ϵi)
- Indique Y dépend X
- yi calculé/expliqué par somme β0 + β1*xi + ϵi
Variance régression vs variance résiduelle
Variance régression : écart entre valeur prédite (ŷi) et moyenne (Y¯)
Variance résiduelle : écart entre valeur échantillonnée (yi) et valeur prédite (ŷi)
Tableau test global régression
Semblable tableau ANOVA
Régression : SCEreg = ∑ (yi^ − Y¯)^2 , j-1, CMreg = SCEreg / j−1
- j : nombre de paramètre
Résiduelle : SCEerr = ∑ (yi − yi^)^2 , n−j , CMerr = SCEerr / n−j
- n : effectif
Totale : SCEtot = ∑ (yi−Y¯)^2 , n-1 , F = CMreg/CMerr
Utilise Fcal et Fcrit (j, n) pour conclure rejet/pas rejet H0
- Donnée Fcal par lm ( )
Coefficient régression R^2
Permet savoir part variance Y expliqué par régression
Donc, quantifie contribution variance régression à variance totale
Formul : R^2 = SCEreg / SCEtot
Pour régression linéaire simple -> R^2 = carré coefficient corrélation Pearson
Donnée par lm ( ) -> utilise Adjusted R-squared
- Peut prendre en compte multiple vairable explicative
- Assure pas trop grand R^2
Conditions application
- Échantillonnnage Y indépendant/aléatoire chaque X
- Valeurs Y normalement distribuée et Y¯i=ŷi (moyenne = prédiction régression) chaque X
- Indique relation linéaire - Variance Y indépendant X soit vairance égale (homoscédasticité)
- Variance Y augemente pas quand X augmente - Erreur mesure X négligeable comparé erreur mesure Y
- Affect significativité/force (R^2) régression linéaire
Comment vérifier conditions
Donc commence par analyse graphique résidus (res i) en fonction variable prédite (ŷi)
1-2-3 -> vérifiable sur résidus
- Respecter si forme nuage point réparti aléatoirement autour y = 0
Peut vérifier avec R;
- Graphiques -> fonction : plot ( regression )
- Ex : plot( reg.sleep , which = c(1,2,5) ,ask = FALSE ) -> permet voir graphiques 1, 2, 5 - Fonction gvlma ( regression )
- Fait test et donne résultat -> utilie si doute
Peut appliquer transformation si violation ou éliminer valeur problématique
Graphique 1, 2, 5
1 : Résidus en fonction des valeurs yi prédites
- Permet vérifier linéarité/variance/extrêmes
- Résidus répartis autour 0
2 : Montre normalité distribution résidus
- Résidus alignés sur droite
- Montre influence chaque point (yi) sur régression
- Avec distance de Cook -> si >0.5/1 = influence disproportionnée
Test de gvlma ( )
Global Stat -> test global validité régression
- Déviation mineure condition doit pas empêcher régression être valide
Skewness/kurtosis -> vérifie normalité
- Skewness : symétrie
- Kurtosis : aplatissement courbe
Link Function -> test linéarité relation entre variables
Heteroscedasticity -> test homogénéité variance résidus
Tranformations log
Souvent log10
Réduit poids valeurs fortes, augmente poids valeurs faibles
Peut appliquer juste X ou Y
Revérifie plot ( )/gvlma ( )/lm ( ) suite transfomation
- Doit vérifier significativité/pouvoir explicatif (R^2) nouvelle régression
- Peut permettre diminuer variabilité Y -> donne R^2 plus élevé