9. Relations entre variables numériques: régression Flashcards
Principe régression
Implique causalité entre variables X et Y -> Y causer par X
Utilisé prédire moyenne variable Y pour valeur X précise
Présupose corrélation entre variable
Régression linéaire permet
- Mesurer force association entre variables
- Prédire valeur moyenne variable réponse Y pour valeur spécifique variable explicative X
Modélisation
Régression permet modéliser comportement Y selon X -> peut avoir plusieurs X (x1,x2,…,xp)
- Y : variable réponse/dépendante
- X : variable explicatuve/indépendante
Régression linéaire simple
Implique juste une variable explicative X
Donc, mesure juste une malgré plusieurs possibles dans population
Équation régression linéaire permet estimer moyenne distribution valeurs yi pour xi donné
Formule : y^ = β0 + β1*x
Où, y^ : moyenne variable Y estimé avec droite régression
x : valeur de variable X
Modèle linéaire
Permet représenter chaque valeur yi mesurée sur chaque unité échantillonnage i
Formule : yi = β0 + β1*xi + ϵ (droite de régression) Où, yi : valeur Y β0 : paramètre ordonné à origine β1 : paramètre pente xi : ième observation de X ϵ : résidu/terme d'erreur
Donc, 1 valeur xi = 1 distribution valeur yi
β0/β1 calculé pour minimiser résidus -> droite explique plus variabilité Y par rapport X
Pente β1
Déf : taux changement moyen Y selon X -> soit moyenne Y lorsque X augemente 1 unité
Peut interpréter comme acroissemenet (β1 > 0) ou diminution (β1 < 0)
Formule : β1 = ∑(xi−X¯)*(yi−Y¯) / ∑(xi−X¯)^2
Donc, pente peut être +/-
Ordonnée à l’origine β0
Déf : valeur moyenne Y¯ lorsque X=0
Formule : β0 = Y¯−β1*X¯
Interprétations des paramètres (β0/β1)
Ordonné β0
- Possède valeur à 0 -> valeur moyenne Y pour valeur moyenne X=0
- Pas sens dans réalité, mais essentiel validité équation
Pente β1
- Donne variation moyenne Y pour une unité de X
Estimation pour espèce i
Utilisé equation régression linéaire pour estimer yi^ espèce i selon xi propre
Permet prédire yi^ pour espèce pas fait mesure Y mais possède mesure X
Prédiction possible que pour valeurs X de i compris dans limites échantillons
- Fait interpolation
- Si fait extrapolation doit être prudent -> aucune garantie relation linéaire reste crédible
Estimations avec R
Utilise fonction : lm ( ) -> visualise avec summary ( )
Définit modèle avec Y ~ X
Obtient : résidus, β0 (intercept), β1 (nom variable), p-value tout, R^2, SEm, …
Intervalle confiance : β0/β1
Doit vérifier résidus normalement distribué autour valeurs prédites avant
Calcul : βj ± tn−2, α/2 × SEβj ]
Où, βj : β0 ou β1
tn−2, α/2 : valeur de t critique (bilatéral) -> enlève 2 dl
SEβj : erreur standard de βj -> propre chaque paramètre
Utilise t car estime intervalle confiance autour moyenne conforme théorème central limite
- β0 : moyenne ordonnée à origine
- β1 : moyenne pente
t et SE donné par lm ( ) -> sous « t value» et « Std. Error »
Peut utiliser R -> confint( lm () , level = 1 - α )
Intervalle de confiance : Ŷ
2 types d’intervalle possible;
- Bande de confiance
- Bande d’intervalle des prédictions
Utilise fonction predict( ) pour obtenir
- Méthode : predict (lm( ), interval = “confidence ou prediction”, level = 0.95)
- Visualise 6 première avec head ()
Si veut prédication valeur moyenne et intervalle pour xi précis -> utilise newdata =
Bande de confiance
Établit intervalle autour valeur moyenne prédite ŷi par régrssion pour chaque xi
- Donc intervalle confiance autour courbe régression
Bande d’intervalle des prédictions
Établit intervalle autour valeurs individuelles de Y peuvent être observé pour chaque xi xi répète échantillonnage
- Donc intervalle confiance autour population variable Y pour chaque X
Pour prédictions individuelles -> veut prédire Y pour un individu
Valeur échantillonnée dépasse intervalle 95% -> extrême
Faire attention sens -> valeur négative parfois sans sens
Test statistique
Peut estimer intervalle autour vraie valeur
Donc peut tester β0/β1 significativement différent 0 (ou autre seuil)
2 tests possible
- Test de Student
- Test global sur régression
Test Student : β0/β1
Meilleur test pour réfuter H0 car βj = paramètres moyens
H0 : βj pas différent 0 (βj = 0)
H1 : βj différent 0 (βj ≠ 0)
Statistique de test : t cal et t crit (dl = n−2, α/2)
Formule : t = (βj - 0) / SEj
Rejet H0 si
- | t cal | > t crit
- p-value < α
- Intervalle confiance autour βj exclue 0
Pour régression linéaire β1 ≠ 0 -> régression significative