Modelli di Regressione Flashcards
Yi = B0 + B1x1 + B2x2+…+Bpxp + ei
Yi la variabile risposta dipendente.
xp è la variabile esplicativa indipendente.
B0 intercetta del modello.
Bp coefficiente di regressione parziale di Y rispetto alla variabile xp tenendo costanti le altre x.
ei è l’errore in corrispondenza dell’osservazione i, comprende tutto ciò che non è spiegato nella relazione lineare.
Ipotesi sugli errori ei (E, Var, 2 indipend, distribuzione)
E(e)= 0 valore atteso nullo.
Var(e) = o^2 varianza costante (OMO-SCHEDA-STICITa’)
ei indipendenti da:
- ej per ogni i != j.
- variabili esplicative xi.
Distribuito come una V.A Normale.
Ipotesi sulle variabili esplicative e perchè?
Devono essere indipendenti tra di loro.
Se sono correlate allora si dice che sono collineari.
Questo causa problemi nelle analisi statistiche in quanto è difficile riconoscere il contributo di ciascuna variabile nella spiegazione della variabile risposta.
VIF cosa fa, come si calcola, Rj^2, Basso e Alto, come risolvere
VIF, quanto xi è correlata con le altre variabili esplicative.
VIF = 1/ (1-Rj^2).
Rj^2= SSR / SST è il coeff di determinazione del modello di regressione lineare che ha come var risposta xi e come var esplicative le altre x.
VIF Basso-> no collinearità tra le var esplicative. Il contributo di xi nella spiegazione della var risposta è relativamente unico e non può essere spiegato dalle altre variabili.
VIF Alto -> problemi di multicollinearità. Le info fornite da xi si sovrappongo alle informazioni fornite dalle altre variabili esplicative, causa problemi nella stima di Y.
Possibile soluzioni?
-Rimuovere le variabili con un alto VIF.
-Combinare le variabili altamente correlate con opportune metodologie.
R^2, cosa è R^2, formula e intervallo di oscillazione
Indice della bontà di adattamento del modello ai dati.
R^2= SSR/SSE. Porzione della varianza di Y spiegata dal modello (varia tra zero e 1)
Problemi di R^2, R^2 adj e formula
Aggiungere variabili esplicative solitamente aumenta il valore di R^2 anche se le var aggiunte non spiegano la variazione di Y.
Problemi di sovrastima di R^2.
R^2 adj è R^2 corretto al numero di variabili inserite nel modello.
Quindi penalizza i modelli con più variabili esplicative.
Sempre minore di R^2.
R^2adj= 1- (SSE/ n-1-k)/(SST/ n-1)
Predictor, Coef, SE Coef, T, P
Predictor indica la variabile esplicativa.
Coef (B0, B1, B2…) indica il coefficiente di regressione parziale di Y rispetto a ciascuna variabile predictor.
Di quanto aumenta Y all’aumentare di 1 della variabile se mantengo costanti tutte le altre variabili.
Se Coef sono gli errori std stimati per ogni coefficiente di regressione.
Viene effettuato per ogni variabile un t-test con H0: B=0 e H1: B != 0.
- T è il valore della statistica test osservato.
- P è il pvalue associato a T, se minore di alfa allora rifiuto H0 e il coefficiente di regressione parz significativo.
Come scegliere il modello? Problemi delle p. automatiche.
Stepwise backward/forward con differenza.
Procedure automatiche, su minitab non si tiene conto dei problemi di multicollinearità.
Stepwise Backward:
-Inserisco nel modello tutte le variabili esplicative.
- Elimino quella con meno significatività.
- Stimo il nuovo modello.
- Ripeto fin quando sono tutte significative.
Stepwise Forward:
- Parto dal modello vuoto.
- Aggiungo la variabile con B più significativo.
Ripeto fin quando non rimangono più var significative.
Differenza tra le due: nella forward una volta inserita una variabile non viene più rimossa.
Best Subsets su cosa è basata, Cp di Mallows cosa fa, se vicino a 1.
Cosa fa la best subsets e quale è il miglior modello.
Si basa sull’analisi del Cp di Mallows che confronta la bontà di adattamento ai dati del modello con p variabili rispetto al modello con tutte le variabili esplicative.
Più è vicino a 1 e più indica una bontà di adattamento vicina a quella del modello con tutte le var esplicative.
Best Subsets esamina i modelli con tutte le possibili combinazioni di var esplicative e per ognuno calcola il Cp di Mallows. (problema di esecuzione se tante var).
Il modello con Cp più vicino a 1 è considerato il migliore.
In generale se un modello ha un Cp che è vicino al numero di variabili p allora è considerato un buon modello.
Intervalli di confidenza e di previsione
Intervallo di confidenza fornisce un intervallo di valori plausibili per il valore atteso della var risposta.
Intervallo di previsione (sempre più ampio) fornisce un intervallo di valori plausibili per il valore reale della var risposta.
Unusual Observation cosa sono e cosa fare?
Indica quali sono i valori outlier e quindi le osservazioni anomale del dataset.
Le osservazioni insolite possono influenzare significativamente il modello di regressione.
Cosa fare?
- Indagare se possono essere spiegate da altri fattori e quindi valutare la possibilità di inserire altre variabili.
- Rimuovere dal dataset.
Modello con var esplicative sia quant. che categoriali.
Per includere le categoriali nel modello posso trasformarle in iù variabili dummy.
Esempio:
la variabile origine può essere scomposta in variabili dummy ITA, FRA, GER, SPA…
Una delle variabili dummy nel modello viene assunta come sempre vera.
Variabili Interazione come si ottengono e perchè sono utili.
Si ottengono moltiplicando due o più variabili.
Utili se si sospetta che l’effetto di di una variabile esplicativa sia diverso in contesti diversi.
Contesti che appunto sono spiegati dall’interazione con un altra variabile esplicativa.