9. Relations entre variables numériques: régression Flashcards

1
Q

Principe régression

A

Implique causalité entre variables X et Y -> Y causer par X
Utilisé prédire moyenne variable Y pour valeur X précise
Présupose corrélation entre variable

Régression linéaire permet

  • Mesurer force association entre variables
  • Prédire valeur moyenne variable réponse Y pour valeur spécifique variable explicative X
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Modélisation

A

Régression permet modéliser comportement Y selon X -> peut avoir plusieurs X (x1,x2,…,xp)

  • Y : variable réponse/dépendante
  • X : variable explicatuve/indépendante
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Régression linéaire simple

A

Implique juste une variable explicative X
Donc, mesure juste une malgré plusieurs possibles dans population

Équation régression linéaire permet estimer moyenne distribution valeurs yi pour xi donné
Formule : y^ = β0 + β1*x
Où, y^ : moyenne variable Y estimé avec droite régression
x : valeur de variable X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Modèle linéaire

A

Permet représenter chaque valeur yi mesurée sur chaque unité échantillonnage i

Formule : yi = β0 + β1*xi + ϵ  (droite de régression)
Où, yi : valeur Y
       β0 : paramètre ordonné à origine 
       β1 : paramètre pente
       xi : ième observation de X
       ϵ : résidu/terme d'erreur

Donc, 1 valeur xi = 1 distribution valeur yi

β0/β1 calculé pour minimiser résidus -> droite explique plus variabilité Y par rapport X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Pente β1

A

Déf : taux changement moyen Y selon X -> soit moyenne Y lorsque X augemente 1 unité
Peut interpréter comme acroissemenet (β1 > 0) ou diminution (β1 < 0)

Formule : β1 = ∑(xi−X¯)*(yi−Y¯) / ∑(xi−X¯)^2

Donc, pente peut être +/-

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ordonnée à l’origine β0

A

Déf : valeur moyenne Y¯ lorsque X=0

Formule : β0 = Y¯−β1*X¯

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Interprétations des paramètres (β0/β1)

A

Ordonné β0

  • Possède valeur à 0 -> valeur moyenne Y pour valeur moyenne X=0
  • Pas sens dans réalité, mais essentiel validité équation

Pente β1
- Donne variation moyenne Y pour une unité de X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Estimation pour espèce i

A

Utilisé equation régression linéaire pour estimer yi^ espèce i selon xi propre
Permet prédire yi^ pour espèce pas fait mesure Y mais possède mesure X

Prédiction possible que pour valeurs X de i compris dans limites échantillons

  • Fait interpolation
  • Si fait extrapolation doit être prudent -> aucune garantie relation linéaire reste crédible
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Estimations avec R

A

Utilise fonction : lm ( ) -> visualise avec summary ( )
Définit modèle avec Y ~ X
Obtient : résidus, β0 (intercept), β1 (nom variable), p-value tout, R^2, SEm, …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Intervalle confiance : β0/β1

A

Doit vérifier résidus normalement distribué autour valeurs prédites avant
Calcul : βj ± tn−2, α/2 × SEβj ]
Où, βj : β0 ou β1
tn−2, α/2 : valeur de t critique (bilatéral) -> enlève 2 dl
SEβj : erreur standard de βj -> propre chaque paramètre

Utilise t car estime intervalle confiance autour moyenne conforme théorème central limite

  • β0 : moyenne ordonnée à origine
  • β1 : moyenne pente

t et SE donné par lm ( ) -> sous « t value» et « Std. Error »

Peut utiliser R -> confint( lm () , level = 1 - α )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Intervalle de confiance : Ŷ

A

2 types d’intervalle possible;

  1. Bande de confiance
  2. Bande d’intervalle des prédictions

Utilise fonction predict( ) pour obtenir

  • Méthode : predict (lm( ), interval = “confidence ou prediction”, level = 0.95)
  • Visualise 6 première avec head ()

Si veut prédication valeur moyenne et intervalle pour xi précis -> utilise newdata =

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Bande de confiance

A

Établit intervalle autour valeur moyenne prédite ŷi par régrssion pour chaque xi
- Donc intervalle confiance autour courbe régression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Bande d’intervalle des prédictions

A

Établit intervalle autour valeurs individuelles de Y peuvent être observé pour chaque xi xi répète échantillonnage
- Donc intervalle confiance autour population variable Y pour chaque X

Pour prédictions individuelles -> veut prédire Y pour un individu
Valeur échantillonnée dépasse intervalle 95% -> extrême

Faire attention sens -> valeur négative parfois sans sens

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Test statistique

A

Peut estimer intervalle autour vraie valeur
Donc peut tester β0/β1 significativement différent 0 (ou autre seuil)

2 tests possible

  1. Test de Student
  2. Test global sur régression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Test Student : β0/β1

A

Meilleur test pour réfuter H0 car βj = paramètres moyens

H0 : βj pas différent 0 (βj = 0)
H1 : βj différent 0 (βj ≠ 0)

Statistique de test : t cal et t crit (dl = n−2, α/2)
Formule : t = (βj - 0) / SEj

Rejet H0 si

  • | t cal | > t crit
  • p-value < α
  • Intervalle confiance autour βj exclue 0

Pour régression linéaire β1 ≠ 0 -> régression significative

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Test global régression

A

Permet tester significativité régression dans ensemble
Compare variances -> variance régression vs variance résiduelle

H0 : régression explique pas variance Y (yi = β0 + ϵi)

  • Indique que régression pas significative -> Y dépend pas X
  • yi calculé/expliqué par somme moyenne (Y¯ = β0) et erreur (ϵi)

H1 : régression explique partie vairance Y (yi = β0 + β1*xi + ϵi)

  • Indique Y dépend X
  • yi calculé/expliqué par somme β0 + β1*xi + ϵi
17
Q

Variance régression vs variance résiduelle

A

Variance régression : écart entre valeur prédite (ŷi) et moyenne (Y¯)

Variance résiduelle : écart entre valeur échantillonnée (yi) et valeur prédite (ŷi)

18
Q

Tableau test global régression

A

Semblable tableau ANOVA

Régression : SCEreg = ∑ (yi^ − Y¯)^2 , j-1, CMreg = SCEreg / j−1
- j : nombre de paramètre
Résiduelle : SCEerr = ∑ (yi − yi^)^2 , n−j , CMerr = SCEerr / n−j
- n : effectif
Totale : SCEtot = ∑ (yi−Y¯)^2 , n-1 , F = CMreg/CMerr

Utilise Fcal et Fcrit (j, n) pour conclure rejet/pas rejet H0
- Donnée Fcal par lm ( )

19
Q

Coefficient régression R^2

A

Permet savoir part variance Y expliqué par régression
Donc, quantifie contribution variance régression à variance totale

Formul : R^2 = SCEreg / SCEtot

Pour régression linéaire simple -> R^2 = carré coefficient corrélation Pearson

Donnée par lm ( ) -> utilise Adjusted R-squared

  • Peut prendre en compte multiple vairable explicative
  • Assure pas trop grand R^2
20
Q

Conditions application

A
  1. Échantillonnnage Y indépendant/aléatoire chaque X
  2. Valeurs Y normalement distribuée et Y¯i=ŷi (moyenne = prédiction régression) chaque X
    - Indique relation linéaire
  3. Variance Y indépendant X soit vairance égale (homoscédasticité)
    - Variance Y augemente pas quand X augmente
  4. Erreur mesure X négligeable comparé erreur mesure Y
    - Affect significativité/force (R^2) régression linéaire
21
Q

Comment vérifier conditions

A

Donc commence par analyse graphique résidus (res i) en fonction variable prédite (ŷi)
1-2-3 -> vérifiable sur résidus
- Respecter si forme nuage point réparti aléatoirement autour y = 0

Peut vérifier avec R;

  1. Graphiques -> fonction : plot ( regression )
    - Ex : plot( reg.sleep , which = c(1,2,5) ,ask = FALSE ) -> permet voir graphiques 1, 2, 5
  2. Fonction gvlma ( regression )
    - Fait test et donne résultat -> utilie si doute

Peut appliquer transformation si violation ou éliminer valeur problématique

22
Q

Graphique 1, 2, 5

A

1 : Résidus en fonction des valeurs yi prédites

  • Permet vérifier linéarité/variance/extrêmes
  • Résidus répartis autour 0

2 : Montre normalité distribution résidus
- Résidus alignés sur droite

  1. Montre influence chaque point (yi) sur régression
    - Avec distance de Cook -> si >0.5/1 = influence disproportionnée
23
Q

Test de gvlma ( )

A

Global Stat -> test global validité régression
- Déviation mineure condition doit pas empêcher régression être valide

Skewness/kurtosis -> vérifie normalité

  • Skewness : symétrie
  • Kurtosis : aplatissement courbe

Link Function -> test linéarité relation entre variables

Heteroscedasticity -> test homogénéité variance résidus

24
Q

Tranformations log

A

Souvent log10
Réduit poids valeurs fortes, augmente poids valeurs faibles
Peut appliquer juste X ou Y

Revérifie plot ( )/gvlma ( )/lm ( ) suite transfomation

  • Doit vérifier significativité/pouvoir explicatif (R^2) nouvelle régression
  • Peut permettre diminuer variabilité Y -> donne R^2 plus élevé