Parte 1 Flashcards
cap 1, cap 2, cap 3, cap 4 (fino a 4.4)
Popolazione
insieme degli elementi che vogliamo osservare, spesso troppo grandi, per questo ci serviamo dei campioni per studiarli
Campione
sottoinsieme della popolazione sulla quale si fanno inferenze per studiare la popolazione dalla quale derivano
inferenze
processi mediante la quale traiamo conclusioni, si basano su metodi che ci permettono di generalizzare sulla popolazione osservazioni che vengono fatte sul campione. ci sono due tipi di inferenza:
DESRITTIVA che ci permette di descrivere le caratteristiche del campione (media, varianza)
INDUTTIVA si tratta di fare prevsioni affermazioni o trarre conclusioni sulla popolazione partendo dal campione (test d’ipotesi, previsione dei risultati,…)
variabile casuale Y
misura nomerica di un risultato casuale, può essere
CONTINUA e assumete qualsiasi valore reale
DISCRETA e assumere solo valori interi
distribuzione della popolazione
descrive l’incertezza di Y, ossia come i possibili valori di Y sono distribuiti nella popolazione
DISTRIBUZIONE NORMALE la distribuzione dei valori su un grafico assumera la forma di una campana
DISTRIBUZIONE ASIMMETRICA se i valori sono molto diversi tra loro
valore attuale
media di y, ossia il valore che ci si aspetta che Y assuma in media. un valore attorno alla quale i valori di Ytendono a “centrarsi”, nel caso di una distribuzione normale, esso è il punto di simmetria della curva
media
valore atteso di y, ossia il valore che ci si aspetta che Y assuma in media. un valore attorno alla quale i valori di Ytendono a “centrarsi”, nel caso di una distribuzione normale, esso è il punto di simmetria della curva
varianza
misura della variabilità dei deti rispetto alla media. indica quanto i valori si distribuiscono attorno al valore atteso. una varianza elevata indica unna maggiore dispersione
deviazione standard
esprime la misura della dispersione dei valori attorno alla media, a differenza della varianza è espressa nella stessa unità di misura dei valori
asimmetria
una misura della mancanza di simmetria in una distribuzione alla media =0 indica simmetria <0 asimmetria la coda si estende di più a sinistra >0 asimmetria la coda si estende di più a destra
kurtosi
è una misura della forma della distribuzione dei dati, che descrive la forma e l’ampiezza delle code della distribuzione. più è elevata la kurtori più è alta la probabilità di avere valori estrem grandi, quindi outlier rilevanti e numerosi se =3 distribuzione normale. se >3 sode spesse
distribuzione congiunta
due variabili x e y hanno distribuzione congiunta quando le osserviamo entrambe e vediamo come sono distribuiti i loro valori insieme. osservarle insieme ci permette di individuare un eventuale relazione o dipendenza tra le due.
covarianza
è una misura dell’associazione lineare di due variabili >0 RELAZIONE POSITIVA aumentano insieme o diminuiscono insieme
>0 RELAZIONE NEGATIVA una diminuisce all’aumentare dell’altra =0 non c’è relazione
se due variabili sono distribuiti INDIPENDENTEMENTE, allora non c’è correlazione tra loro.
la ovarianza di una variabile con se stessa è uguale alla varianza
correlazione
esprime il grado di relazione lineare tra due variabili. misura la direzione e ò’intensità della relazione tra due variabili. il valore è compreso tra -1 e 1
=-1 associazione lineare perfetta negativa
=1 associazione lineare perfetta positiva
=0 nessuna associazione lineare
distribuzione condizionale (media e varianza condizionali)
è la distribuzione di una variabile casuale dato il valore della seconda variabile.
media condizionale, varianza condizionale e proprietà della media condizionale
la media condizionale è la media della distribuzione condizionale. la varianza, invece è la varianza della distribuzione condizionale
vengono chiamete MOMENTI CONDIZIONALI, come tutte le funazioni delle distribuzioni condizionali
PROPRIETA => se la media condizionale è una costane, ossia assume lo stesso valore per ogni dato valore della variabile che condiziona, allora la Correlazione tra la due variabili è 0, ma non viceversa (E (Y|X) costante => Corr (X,Y) = 0)
MSPE, e proprietà dell’MSPE
la media condizionale può essere usata anche nelle previsioni, con l’ERRORE QUADRATICO MEDIO DI PREVISIONE, possiamo infatti misurare la qualità di una previsione m di Y MPSE(m)= E [(Y-m)^2|X]
PROPRIETA => di tutte le possibili previsioni m che dipendono da X, la media condizionale E(Y|X) ha il più piccolo MSPE
campionamento casuale semplice
schema di campionamento in cui n elementi sono scelti a caso dalla popolazione e ogni membro della popolazione ha la stessa probabilità di fare parte del campione
IID nel campionamento casuale semplice
Poiché l’estrazione casuale pretenda tuo individui il valore del primo non ci dirà nulla sul valore del secondo quindi gli elementi del campionamento sono distribuiti indipendentemente. I due elementi derivano dalla stessa popolazione quindi saranno identicamente distribuiti. In generale con campionamento casuale semplice tutti quanti gli elementi di un campione sono identicamente e indipendentemente distribuiti
media campionaria
Essendo l’estrazione degli elementi del campione casuale, ha effetto di rendere la media campionaria una variabile casuale. Essendo la media campionaria una variabile causale a essa stessa una distribuzione di probabilità; la distribuzione della media campionaria è detta distribuzione campionaria della media perché è la distribuzione di probabilità associata ai possibili valori di media campionaria che possono essere calcolati per i diversi campioni possibili.
stimatore
E una funzione di un campione di dati estratti casualmente da una popolazione serve per ottenere una stima di un parametro di interesse in una popolazione. è una variabile casuale per effetto della casualità dell’estrazione del campione della popolazione. Ci sono tre caratteristiche affinché uno stimatore sia efficiente
caratteristiche desiderabili di uno stimatore
NON DISTORSIONE o CORRETTEZZA => sei applicato a campioni casuali ripetuti da una popolazione alla media delle stime ottenute si avvicinano al valore del parametro che si sta cercando di stimare. Sei è distorto e incline a produrre stime troppo alte o basse rispetto al valore reale del parametro.
CONSISTENZA => sei all’aumentare della numerosità del campione la stima ottenuta si avvicina al valore del parametro che si sta cercando
EFFICIENZA E VARIANZA => la varianza di uno stimatore misura quanto le stime da lui ottenute e variano al valore atteso dal parametro che si sta stimando. Una bassa varianza è preferibile perché significa che le stime sono più concentrate attorno al valore atteso del parametro. L’efficienza misura la precisione di uno stimatore rispetto ad altri stimatori per lo stesso parametro è più efficiente se produce stime più precise degli altri.
media e varianza della distribuzione campionaria dello stimatore Y-
La media é uguale alla media della popolazione e la varianza l’inverso della numerosità di campione per la varianza della popolazione
proprietà asintotiche dello stimatore
LEGGE DEI GRANDI NUMERI all’aumento di n, la distribuzione della media campionaria si concentra sempre più intorno alla media della popolazione
TEOREMA DEL LIMITE CENTRALE sia un campione con n elementi iid all’aumento di n la distribuzione é ben approssimata da una distribuzione normale, più é grande n migliore é l’approssimazione
perche lo stimatore della media campionaria è lo stimatore migliore della media della popolazione?
Perché é corretto, consistente, per le proprietà asintotiche con una distribuzione approssimativamente normale e essendo lo stimatore di minimi quadrati della media della popolazione é per il teorema gauss Markov anche quello più efficiente tra tutti gli altri stimatori
test d’ipotesi e i due tipi di ipotesi
Procedura statistica utilizzata per prendere decisioni su affermazioni o ipotesi riguardanti i parametri di una popolazione, basandosi sui dati raccolti sui dati campionari. Ci sono l’ipotesi HO e l’ipotesi h1 la prima é detta ipotesi nulla, la seconda ipotesi alternativa bilaterale, che é vera se l’ipotesi nulla é falsa
livello di significatività
È la probabilità massima di commettere un errore nel respingere erroneamente l’ipotesi nulla quando è vero tipicamente è fissato prima dell’esecuzione del test
p value
È una misura che nei test fornisce una valutazione dell’evidenza contro l’ipotesi nulla quantifica la probabilità di ottenere i dati osservati o risultati più estremi assumendo che l’ipotesi sia vera. É il livello di significatività minimo per il quale HO viene rifiutata. Se é Minore del livello di significatività rifiuto HO sennò no.
differenza nel calcolo del p value se la varianza è incognita o meno
Nel caso in cui la varianza di popolazione é incognita bisogna calcolare il p values utilizzando uno stimatore della varianza di popolazione e calcolare su di esso il p value
intervallo di confidenza
Indica una stima dell’intervallo di valori plausibili per un parametro di interesse della popolazione (es.media), con un certo grado du confidenza. E quindi un intervallo all’interno della quale crediamo possa essere la media della popolazione (se e del 95% siamo sicuri al 95% che sia contenuto il valore effettivo in quell’intervallo
errore standard
Rappresenta una stima della precisione con cui la statistica campionaria rappresenta la popolazione di interesse, é una misura della precisione della stima di un parametro statistico basata su un campione, tiene conto della variazione causata dal campionamento casuale e diminuisce al crescere della dimensione del campione.
Fornisce una dispersione delle stime del parametro attorno al suo vero valore nella popolazione.
statistica t
Gioca un ruolo cruciale nella verifica delle ipotesi statistica è un esempio di statistica test
modello di regressione lineare semplice (LRM)
Strumento che permette di studiare la relazione tra due variabili nella popolazione, descrive infatti la relazione delle due variabili X e y y é la variabile dipendente X la variabile indipendente B1 e b0 sono i parametri della popolazione b0 l’intercetta e B1 la pendenza e u é l’errore ossia i fattori diversi da x che influenzano y.
É lineare perché la relazione tra X e y é lineare. Ed é semplice perché c’è un solo regressore (x)
Stimatore OLS e l’assunto di indipendenza in media (MIA)
R^2
Misura della bontà di adattamento del modello. In pratica dice quanti della variazione nei dati della variabile dipendente é piegato dalle variabili indipendenti usati nel modello. Se é basso vuol dire che potrebbero esserci altre variabili che influenzano la variabile dipendente Y
Standard error di regressione (SER)
Sima la dispersione della distribuzione di u, ossia quanto i valori si discostano dal centro della distribuzione
Radice dell’errore quadtrato medio (RMSE)
Misura la stessa cosa dello standard error della regressione. A meno che n non sia piccola la differenza tra SER e RMSE è irrilevante
Assunti dei minimi quadrati per l’inferenza causale
E(u|x)=0
Elementi del campione iid
Outlier rari
Spiega LSA#1 E (u|X)=0
Se vale ciò vuole dire che l’effetto causale B1 é la pendenza della funzione di regressione della popolazione. Quindi B1 é il cambiamento nel valore atteso di Y dato un aumento unitario di X
Spiega LSA#2
Sono automaticamente iid se provengono da un campionamento casuale
LSA#3
Gli outlier possono influenzare fortemente i risultati alterando di molto gli stimatori OLS che sono molto sensibili ad essi
Cosa possiamo dire sulla distribuzione campionaria di B1
Se valgono i tre LSA, allora
La media campionaria dello stimatore b1 é uguale a B1 quindi lo stimatore OLS é corretto
La varianza é uguale all’inverso della numerosità quindi per n grande l’incertezza si riduce, quindi é consistente
Quando n é grande la distribuzione campionaria é ben approssimata normalmente
LSA per la previsione
LSA1 l’osservazione fuori dal campione é estratta dalla stessa distribuzione del campione di stima, che garantisce chela retta di regressione stimata dal campione sia applicabile anche ai dati fuori campione
LSA2 rimane uguale
LSA3 rimane uguale
LSA per la previsione
LSA1 l’osservazione fuori dal campione é estratta dalla stessa distribuzione del campione di stima, che garantisce chela retta di regressione stimata dal campione sia applicabile anche ai dati fuori campione
LSA2 rimane uguale
LSA3 rimane uguale
Quando rifiuto HO?
Rifiuto quando il p-value é minore di 0,5. Rifiuto quando il valore assoluto del t test é minore di 1,96
Regressore binario
O variabile dummy un regressore che può assumere soltanto due valori distintim quindi per calcolarlo dovrei fare la media di Y dato X=1 meno la media di Y dato X=0
Omoschedasticità
Se la varianza condizionale di u dato x é costante per ogni X,quindi la varianza condizionale dei residui é costante lungo tutti i livelli della variabile indipendente
Eteroschedastico
La varianza dei residui varia al variare di X, questo può portare a stime dei parametri del modello distorte
I 5 LSA
LSA1 E (u|X) =0
LSA2 iid
LSA3 outlier rari
LSA4 u é omoschedastico
LSA5 u ha distribuzione (0, varianza)
Conclusioni con i 5 LSA
OLS é migliore di qualsiasi altro stimatore consistente, inoltre gli stimatori di B1 e b0 hanno distribuzione normale per ogni n, e la statistica t ha distribuzione t di student con n-2 gradi di libertà per ogni np
Critiche al teorema Gauss Markov e la sua versione rafforzata
La condizione di omoschedasticità spesso non é verificata in quanto é una condizione rara
L’efficenza vale solo fra gli stimatori lineari che sono un piccolo sottoinsieme tra tutti i possibili
Il risultato di ottimalità più forte richiede errori normali omoschedastici ancora più rari
Problema dello stimatore OLS
Troppo sensibilie agli outlier, esistono stimatori meno sensibili come il LAD
Distorsione da variabili omesse
L’errore I incorpora i fattori che influenzano y ma non sono inclusi nel modello. Se questa omissione implica che E(u|x) sia diverso da 0 allora lo stimatore OLS É DISTORTO E NON CONSISTE
Variabile omessa
Variabile non inclusa nel modello di regressione che rende lo stimatore OLS distorto
Condizioni variabile omessa
Z é una determinante di Y
Z é correlata con X
Soluzioni per separare l’effetto della variabile omessa da quella delle B
Fare un esperimento
Approccio della tabulazione incrociata
Modello di regressione multipla
Cosa sono nel modello di regressione y, X e B1 e b0
Y variabile dipendente
X regressore o variabile indipendente
B0 intercetta
B1 effetto su y di una variazione di x1
A cosa serve R^2 adjusted
Quando abbiamo una regressione multipla R2 normale tende ad aumentare, con R2 adjusted penalizziamo l’aumento che da R2 normale. Se n é grande i due sono molto vicini
LSA Nell regressione multipla
LSA1 e(u|X)=0
LSA2 iid
LSA3 outlier rari
LSA4 non c’è collinearita perfetta
Collinearita perfetta
Si verifica quando due variabili sono completamente correlate, e una é la funzione lineare esatta dell’altra. E il modello non può distinguere l’effetto di una dall’effetto dell’altra
Trappola delle dummy
Quando abbiamo due dummy mutualmente esclusive e congiuntamente esaustive, otteniamo collinearita perfetta
Collinearita imperfetta
Quando due variabili sono fortemente correlate, ma non in modo esatto come nella collinearita perfetta. Mostrano quindi una certa dipendenza lineare. La collinearita imperfetta implica coefficenti di regressione stimati in maniera imprecisa. La collinearita imperfetta comprata errori standard elevati per gli stimatori ols
Variabile di controllo
Variabili non causali introdotto per osservare variabili omesse che sono ad esse correlate e che sono incluse per mantenere costanti fattori, che se trascurati, introdurrebbero distorsione da variabili omesse.
Perché la variabile di controllo non ha interpretazione causale
Perché e correlata con le altre variabili omesse che possono influenzare le variabili di controllo stesso compromettendo la stima del loro effetto causale
Nella regressione multipla perché fare il test di ipotesi congiunte
Perché testando i coefficiente uno alla volta, la dimensione del test é maggiore rispetto a quella normale, quindi é più probabile rifiutare ho se é vera
Che test si una per fare un test di ipotesi congiunte?
Statistica F
Quando rifiuto F
Rifiuto F quando F é grande. F ha distribuzione normale per n molto grande. Qui grandi sono T1 e t2 più grande é F
Metodo della statistica F nel caso di omoschedasticità
Stimiamo due regressioni, una sotto ipotesi nulla ( vincolata) e una sotto ipotesi alternativa (non vincolata), confronto i due R2. Se il modello non vincolato si adatta ai dati significativamente meglio di quello inviato rifiuto H0