Metodi Statistici Flashcards
Il modello di regressione lineare
E’ un modello/regola statistica costruito e testato al fine di mettere in relazione due oggetti (variabili)
La regressione lineare è il modello più semplice da cui si parte; se questo non riesce a spiegare tutti i
regressori, si passa a un modello più complesso.
A cosa servono i modelli di regressione?
Modelli di dipendenza per la rappresentazione di relazioni non simmetriche tra le variabili
Qual è il 1° obiettivo della regressione lineare?
Uso esplicativo: stimare l’influenza dei regressori sulla variabile target, il contributo e la direzione (+ o -)
Qual è il 2° obiettivo della regressione lineare?
Uso predittivo: stimare il valore non osservato della variabile target in corrispondenza di valori osservati dei regressori.
Qual è il 3° obiettivo della regressione lineare?
Uso comparativo: confrontare la capacità di più regressori, o di più set di regressori, di influenzare il
target (= confronto tra modelli di regressione lineare diversi).
Perchè è inserito un errore di default nel modello?
L’errore presente nel modello si ipotizza essere di natura casuale. Può essere determinato da:
- variabili non considerate
- problemi di misurazione
- modello inadeguato
- effetti puramente casuali
A cosa serve il metodo dei minimi quadrati?
Serve per la stima della retta di regressione e dei coefficienti.
Significa, nell’ambito bivariato, trovare la rappresentazione funzionale migliore per rappresentare adeguatamente la relazione tra i due fenomeni
Cos’è lo stimatore LS?
Il metodo dei minimi quadrati produce uno stimatore LS aventi le seguenti caratteristiche:
- è funzione di Y e X
- ha media
- ha varianza
Quali sono le proprietà dello stimatore LS?
- non è distorto: mediamente la regola restituisce stime precise
- è consistente (se valgono certe hp su X’X): la precisione aumenta all’aumentare dell’ampiezza
campionaria - coincide con lo stimatore che otterrei con il metodo della massima verosimiglianza (sotto hp forti)
A cosa serve il segno del coefficiente?
Il segno del coefficiente indica la direzione dell’impatto del regressore a cui è associato
A cosa serve il valore del coefficiente?
Il valore del coefficiente indica l’incremento marginale di Y e dipende dall’unità di misura; per valutare l’impatto relativo dei singoli regressori è necessario considerare i coefficienti standardizzati
A cosa servono gli indicatori sintetici della bontà del modello?
Per fare una prima valutazione per capire se il modello stimato è adeguato per spiegare il nostro problema.
sono:
- Test F
- R quadro
- R quadro adjusted
Cos’è il test F?
Il Test F è un test d’ipotesi; viene usato per valutare la significatività congiunta dei coefficienti.
Come si interpreta il Test F?
Se p-value è piccolo (rifiuto l’hp di coefficienti tutti nulli) il modello ha buona capacità esplicativa quindi:
- ipotesi nulla= I coefficienti angolari del piano di regressione sono tutti uguali tra loro e uguali a 0;
- ipotesi alternativa= nelle variabili esplicative ce ne è almeno una che ha un coefficiente statisticamente diverso da 0;
- statistica test
Cos’è lo statistica test?
E’ un test di bontà generale perché l’obiettivo è verificare se l’ipotesi H0 la devo accettare o rifiutare;
Come si interpreta lo statistica test?
- Se il p-value è < 0,05, l’ipotesi H0 la rifiutiamo, quindi si accetta H1 (cioè almeno uno dei regressori è
diverso da 0 quindi spiega…). - Se il p-value è > 0,05, l’ipotesi H0 non si può rifiutare, quindi l’insieme di variabili considerate come potenzialmente interessanti per spiegare il mio fenomeno non sono legate da un punto di vista lineare con l’oggetto dell’analisi.
Qual è il livello di soglia empirico per L’R2?
circa 0,2/0,3. Tale soglia ci indica quanto sarà esplicativo il modello
Cos’è il teorema di scomposizione della varianza?
è il teorema sul quale si basa l’indice R2.
ed è dato da: SST = SSE + SSM
[Total sum of squares=error sum of squares+model sum of squares]
Total sum of squares (SST)
Riguarda la variabilità di Y
Error sum of squares (SSE)
Riguarda gli errori
Model sum of squares (SSM)
Riguarda la variabilità spiegata
L’indice R2
Se rifiuto il test F, devo considerare l’R-quadro che è dato dal rapporto tra SSM e SST.
L’R-quadro misura la percentuale di variabilità di Y spiegata dal modello. In altre parole misura la variabilità delle osservazioni intorno alla ‘retta’ di regressione.