9. Relations entre variables numériques: régression Flashcards

Question 1

Q

Principe régression

Answer

A

Implique causalité entre variables X et Y -> Y causer par X
Utilisé prédire moyenne variable Y pour valeur X précise
Présupose corrélation entre variable

Régression linéaire permet

Mesurer force association entre variables
Prédire valeur moyenne variable réponse Y pour valeur spécifique variable explicative X

Question 2

Q

Modélisation

Answer

A

Régression permet modéliser comportement Y selon X -> peut avoir plusieurs X (x1,x2,…,xp)

Y : variable réponse/dépendante
X : variable explicatuve/indépendante

Question 3

Q

Régression linéaire simple

Answer

A

Implique juste une variable explicative X
Donc, mesure juste une malgré plusieurs possibles dans population

Équation régression linéaire permet estimer moyenne distribution valeurs yi pour xi donné
Formule : y^ = β0 + β1*x
Où, y^ : moyenne variable Y estimé avec droite régression
x : valeur de variable X

Question 4

Q

Modèle linéaire

Answer

A

Permet représenter chaque valeur yi mesurée sur chaque unité échantillonnage i

Formule : yi = β0 + β1*xi + ϵ  (droite de régression)
Où, yi : valeur Y
       β0 : paramètre ordonné à origine 
       β1 : paramètre pente
       xi : ième observation de X
       ϵ : résidu/terme d'erreur

Donc, 1 valeur xi = 1 distribution valeur yi

β0/β1 calculé pour minimiser résidus -> droite explique plus variabilité Y par rapport X

Question 5

Q

Pente β1

Answer

A

Déf : taux changement moyen Y selon X -> soit moyenne Y lorsque X augemente 1 unité
Peut interpréter comme acroissemenet (β1 > 0) ou diminution (β1 < 0)

Formule : β1 = ∑(xi−X¯)*(yi−Y¯) / ∑(xi−X¯)^2

Donc, pente peut être +/-

Question 6

Q

Ordonnée à l’origine β0

Answer

A

Déf : valeur moyenne Y¯ lorsque X=0

Formule : β0 = Y¯−β1*X¯

Question 7

Q

Interprétations des paramètres (β0/β1)

Answer

A

Ordonné β0

Possède valeur à 0 -> valeur moyenne Y pour valeur moyenne X=0
Pas sens dans réalité, mais essentiel validité équation

Pente β1
- Donne variation moyenne Y pour une unité de X

Question 8

Q

Estimation pour espèce i

Answer

A

Utilisé equation régression linéaire pour estimer yi^ espèce i selon xi propre
Permet prédire yi^ pour espèce pas fait mesure Y mais possède mesure X

Prédiction possible que pour valeurs X de i compris dans limites échantillons

Fait interpolation
Si fait extrapolation doit être prudent -> aucune garantie relation linéaire reste crédible

Question 9

Q

Estimations avec R

Answer

A

Utilise fonction : lm ( ) -> visualise avec summary ( )
Définit modèle avec Y ~ X
Obtient : résidus, β0 (intercept), β1 (nom variable), p-value tout, R^2, SEm, …

Question 10

Q

Intervalle confiance : β0/β1

Answer

A

Doit vérifier résidus normalement distribué autour valeurs prédites avant
Calcul : βj ± tn−2, α/2 × SEβj ]
Où, βj : β0 ou β1
tn−2, α/2 : valeur de t critique (bilatéral) -> enlève 2 dl
SEβj : erreur standard de βj -> propre chaque paramètre

Utilise t car estime intervalle confiance autour moyenne conforme théorème central limite

β0 : moyenne ordonnée à origine
β1 : moyenne pente

t et SE donné par lm ( ) -> sous « t value» et « Std. Error »

Peut utiliser R -> confint( lm () , level = 1 - α )

Question 11

Q

Intervalle de confiance : Ŷ

Answer

A

2 types d’intervalle possible;

Bande de confiance
Bande d’intervalle des prédictions

Utilise fonction predict( ) pour obtenir

Méthode : predict (lm( ), interval = “confidence ou prediction”, level = 0.95)
Visualise 6 première avec head ()

Si veut prédication valeur moyenne et intervalle pour xi précis -> utilise newdata =

Question 12

Q

Bande de confiance

Answer

A

Établit intervalle autour valeur moyenne prédite ŷi par régrssion pour chaque xi
- Donc intervalle confiance autour courbe régression

Question 13

Q

Bande d’intervalle des prédictions

Answer

A

Établit intervalle autour valeurs individuelles de Y peuvent être observé pour chaque xi xi répète échantillonnage
- Donc intervalle confiance autour population variable Y pour chaque X

Pour prédictions individuelles -> veut prédire Y pour un individu
Valeur échantillonnée dépasse intervalle 95% -> extrême

Faire attention sens -> valeur négative parfois sans sens

Question 14

Q

Test statistique

Answer

A

Peut estimer intervalle autour vraie valeur
Donc peut tester β0/β1 significativement différent 0 (ou autre seuil)

2 tests possible

Test de Student
Test global sur régression

Question 15

Q

Test Student : β0/β1

Answer

A

Meilleur test pour réfuter H0 car βj = paramètres moyens

H0 : βj pas différent 0 (βj = 0)
H1 : βj différent 0 (βj ≠ 0)

Statistique de test : t cal et t crit (dl = n−2, α/2)
Formule : t = (βj - 0) / SEj

Rejet H0 si

| t cal | > t crit
p-value < α
Intervalle confiance autour βj exclue 0

Pour régression linéaire β1 ≠ 0 -> régression significative

Question 16

Q

Test global régression

Answer

A

Permet tester significativité régression dans ensemble
Compare variances -> variance régression vs variance résiduelle

H0 : régression explique pas variance Y (yi = β0 + ϵi)

Indique que régression pas significative -> Y dépend pas X
yi calculé/expliqué par somme moyenne (Y¯ = β0) et erreur (ϵi)

H1 : régression explique partie vairance Y (yi = β0 + β1*xi + ϵi)

Indique Y dépend X
yi calculé/expliqué par somme β0 + β1*xi + ϵi

Question 17

Q

Variance régression vs variance résiduelle

Answer

A

Variance régression : écart entre valeur prédite (ŷi) et moyenne (Y¯)

Variance résiduelle : écart entre valeur échantillonnée (yi) et valeur prédite (ŷi)

Question 18

Q

Tableau test global régression

Answer

A

Semblable tableau ANOVA

Régression : SCEreg = ∑ (yi^ − Y¯)^2 , j-1, CMreg = SCEreg / j−1
- j : nombre de paramètre
Résiduelle : SCEerr = ∑ (yi − yi^)^2 , n−j , CMerr = SCEerr / n−j
- n : effectif
Totale : SCEtot = ∑ (yi−Y¯)^2 , n-1 , F = CMreg/CMerr

Utilise Fcal et Fcrit (j, n) pour conclure rejet/pas rejet H0
- Donnée Fcal par lm ( )

Question 19

Q

Coefficient régression R^2

Answer

A

Permet savoir part variance Y expliqué par régression
Donc, quantifie contribution variance régression à variance totale

Formul : R^2 = SCEreg / SCEtot

Pour régression linéaire simple -> R^2 = carré coefficient corrélation Pearson

Donnée par lm ( ) -> utilise Adjusted R-squared

Peut prendre en compte multiple vairable explicative
Assure pas trop grand R^2

Question 20

Q

Conditions application

Answer

A

Échantillonnnage Y indépendant/aléatoire chaque X
Valeurs Y normalement distribuée et Y¯i=ŷi (moyenne = prédiction régression) chaque X
- Indique relation linéaire
Variance Y indépendant X soit vairance égale (homoscédasticité)
- Variance Y augemente pas quand X augmente
Erreur mesure X négligeable comparé erreur mesure Y
- Affect significativité/force (R^2) régression linéaire

Question 21

Q

Comment vérifier conditions

Answer

A

Donc commence par analyse graphique résidus (res i) en fonction variable prédite (ŷi)
1-2-3 -> vérifiable sur résidus
- Respecter si forme nuage point réparti aléatoirement autour y = 0

Peut vérifier avec R;

Graphiques -> fonction : plot ( regression )
- Ex : plot( reg.sleep , which = c(1,2,5) ,ask = FALSE ) -> permet voir graphiques 1, 2, 5
Fonction gvlma ( regression )
- Fait test et donne résultat -> utilie si doute

Peut appliquer transformation si violation ou éliminer valeur problématique

Question 22

Q

Graphique 1, 2, 5

Answer

A

1 : Résidus en fonction des valeurs yi prédites

Permet vérifier linéarité/variance/extrêmes
Résidus répartis autour 0

2 : Montre normalité distribution résidus
- Résidus alignés sur droite

Montre influence chaque point (yi) sur régression
- Avec distance de Cook -> si >0.5/1 = influence disproportionnée

Question 23

Q

Test de gvlma ( )

Answer

A

Global Stat -> test global validité régression
- Déviation mineure condition doit pas empêcher régression être valide

Skewness/kurtosis -> vérifie normalité

Skewness : symétrie
Kurtosis : aplatissement courbe

Link Function -> test linéarité relation entre variables

Heteroscedasticity -> test homogénéité variance résidus

Question 24

Q

Tranformations log

Answer

A

Souvent log10
Réduit poids valeurs fortes, augmente poids valeurs faibles
Peut appliquer juste X ou Y

Revérifie plot ( )/gvlma ( )/lm ( ) suite transfomation

Doit vérifier significativité/pouvoir explicatif (R^2) nouvelle régression
Peut permettre diminuer variabilité Y -> donne R^2 plus élevé