Parte 1 Flashcards

cap 1, cap 2, cap 3, cap 4 (fino a 4.4)

1
Q

Popolazione

A

insieme degli elementi che vogliamo osservare, spesso troppo grandi, per questo ci serviamo dei campioni per studiarli

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Campione

A

sottoinsieme della popolazione sulla quale si fanno inferenze per studiare la popolazione dalla quale derivano

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

inferenze

A

processi mediante la quale traiamo conclusioni, si basano su metodi che ci permettono di generalizzare sulla popolazione osservazioni che vengono fatte sul campione. ci sono due tipi di inferenza:
DESRITTIVA che ci permette di descrivere le caratteristiche del campione (media, varianza)
INDUTTIVA si tratta di fare prevsioni affermazioni o trarre conclusioni sulla popolazione partendo dal campione (test d’ipotesi, previsione dei risultati,…)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

variabile casuale Y

A

misura nomerica di un risultato casuale, può essere
CONTINUA e assumete qualsiasi valore reale
DISCRETA e assumere solo valori interi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

distribuzione della popolazione

A

descrive l’incertezza di Y, ossia come i possibili valori di Y sono distribuiti nella popolazione
DISTRIBUZIONE NORMALE la distribuzione dei valori su un grafico assumera la forma di una campana
DISTRIBUZIONE ASIMMETRICA se i valori sono molto diversi tra loro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

valore attuale

A

media di y, ossia il valore che ci si aspetta che Y assuma in media. un valore attorno alla quale i valori di Ytendono a “centrarsi”, nel caso di una distribuzione normale, esso è il punto di simmetria della curva

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

media

A

valore atteso di y, ossia il valore che ci si aspetta che Y assuma in media. un valore attorno alla quale i valori di Ytendono a “centrarsi”, nel caso di una distribuzione normale, esso è il punto di simmetria della curva

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

varianza

A

misura della variabilità dei deti rispetto alla media. indica quanto i valori si distribuiscono attorno al valore atteso. una varianza elevata indica unna maggiore dispersione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

deviazione standard

A

esprime la misura della dispersione dei valori attorno alla media, a differenza della varianza è espressa nella stessa unità di misura dei valori

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

asimmetria

A

una misura della mancanza di simmetria in una distribuzione alla media =0 indica simmetria <0 asimmetria la coda si estende di più a sinistra >0 asimmetria la coda si estende di più a destra

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

kurtosi

A

è una misura della forma della distribuzione dei dati, che descrive la forma e l’ampiezza delle code della distribuzione. più è elevata la kurtori più è alta la probabilità di avere valori estrem grandi, quindi outlier rilevanti e numerosi se =3 distribuzione normale. se >3 sode spesse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

distribuzione congiunta

A

due variabili x e y hanno distribuzione congiunta quando le osserviamo entrambe e vediamo come sono distribuiti i loro valori insieme. osservarle insieme ci permette di individuare un eventuale relazione o dipendenza tra le due.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

covarianza

A

è una misura dell’associazione lineare di due variabili >0 RELAZIONE POSITIVA aumentano insieme o diminuiscono insieme
>0 RELAZIONE NEGATIVA una diminuisce all’aumentare dell’altra =0 non c’è relazione
se due variabili sono distribuiti INDIPENDENTEMENTE, allora non c’è correlazione tra loro.
la ovarianza di una variabile con se stessa è uguale alla varianza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

correlazione

A

esprime il grado di relazione lineare tra due variabili. misura la direzione e ò’intensità della relazione tra due variabili. il valore è compreso tra -1 e 1
=-1 associazione lineare perfetta negativa
=1 associazione lineare perfetta positiva
=0 nessuna associazione lineare

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

distribuzione condizionale (media e varianza condizionali)

A

è la distribuzione di una variabile casuale dato il valore della seconda variabile.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

media condizionale, varianza condizionale e proprietà della media condizionale

A

la media condizionale è la media della distribuzione condizionale. la varianza, invece è la varianza della distribuzione condizionale
vengono chiamete MOMENTI CONDIZIONALI, come tutte le funazioni delle distribuzioni condizionali
PROPRIETA => se la media condizionale è una costane, ossia assume lo stesso valore per ogni dato valore della variabile che condiziona, allora la Correlazione tra la due variabili è 0, ma non viceversa (E (Y|X) costante => Corr (X,Y) = 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

MSPE, e proprietà dell’MSPE

A

la media condizionale può essere usata anche nelle previsioni, con l’ERRORE QUADRATICO MEDIO DI PREVISIONE, possiamo infatti misurare la qualità di una previsione m di Y MPSE(m)= E [(Y-m)^2|X]
PROPRIETA => di tutte le possibili previsioni m che dipendono da X, la media condizionale E(Y|X) ha il più piccolo MSPE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

campionamento casuale semplice

A

schema di campionamento in cui n elementi sono scelti a caso dalla popolazione e ogni membro della popolazione ha la stessa probabilità di fare parte del campione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

IID nel campionamento casuale semplice

A

Poiché l’estrazione casuale pretenda tuo individui il valore del primo non ci dirà nulla sul valore del secondo quindi gli elementi del campionamento sono distribuiti indipendentemente. I due elementi derivano dalla stessa popolazione quindi saranno identicamente distribuiti. In generale con campionamento casuale semplice tutti quanti gli elementi di un campione sono identicamente e indipendentemente distribuiti

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

media campionaria

A

Essendo l’estrazione degli elementi del campione casuale, ha effetto di rendere la media campionaria una variabile casuale. Essendo la media campionaria una variabile causale a essa stessa una distribuzione di probabilità; la distribuzione della media campionaria è detta distribuzione campionaria della media perché è la distribuzione di probabilità associata ai possibili valori di media campionaria che possono essere calcolati per i diversi campioni possibili.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

stimatore

A

E una funzione di un campione di dati estratti casualmente da una popolazione serve per ottenere una stima di un parametro di interesse in una popolazione. è una variabile casuale per effetto della casualità dell’estrazione del campione della popolazione. Ci sono tre caratteristiche affinché uno stimatore sia efficiente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

caratteristiche desiderabili di uno stimatore

A

NON DISTORSIONE o CORRETTEZZA => sei applicato a campioni casuali ripetuti da una popolazione alla media delle stime ottenute si avvicinano al valore del parametro che si sta cercando di stimare. Sei è distorto e incline a produrre stime troppo alte o basse rispetto al valore reale del parametro.
CONSISTENZA => sei all’aumentare della numerosità del campione la stima ottenuta si avvicina al valore del parametro che si sta cercando
EFFICIENZA E VARIANZA => la varianza di uno stimatore misura quanto le stime da lui ottenute e variano al valore atteso dal parametro che si sta stimando. Una bassa varianza è preferibile perché significa che le stime sono più concentrate attorno al valore atteso del parametro. L’efficienza misura la precisione di uno stimatore rispetto ad altri stimatori per lo stesso parametro è più efficiente se produce stime più precise degli altri.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

media e varianza della distribuzione campionaria dello stimatore Y-

A

La media é uguale alla media della popolazione e la varianza l’inverso della numerosità di campione per la varianza della popolazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

proprietà asintotiche dello stimatore

A

LEGGE DEI GRANDI NUMERI all’aumento di n, la distribuzione della media campionaria si concentra sempre più intorno alla media della popolazione
TEOREMA DEL LIMITE CENTRALE sia un campione con n elementi iid all’aumento di n la distribuzione é ben approssimata da una distribuzione normale, più é grande n migliore é l’approssimazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

perche lo stimatore della media campionaria è lo stimatore migliore della media della popolazione?

A

Perché é corretto, consistente, per le proprietà asintotiche con una distribuzione approssimativamente normale e essendo lo stimatore di minimi quadrati della media della popolazione é per il teorema gauss Markov anche quello più efficiente tra tutti gli altri stimatori

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

test d’ipotesi e i due tipi di ipotesi

A

Procedura statistica utilizzata per prendere decisioni su affermazioni o ipotesi riguardanti i parametri di una popolazione, basandosi sui dati raccolti sui dati campionari. Ci sono l’ipotesi HO e l’ipotesi h1 la prima é detta ipotesi nulla, la seconda ipotesi alternativa bilaterale, che é vera se l’ipotesi nulla é falsa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

livello di significatività

A

È la probabilità massima di commettere un errore nel respingere erroneamente l’ipotesi nulla quando è vero tipicamente è fissato prima dell’esecuzione del test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

p value

A

È una misura che nei test fornisce una valutazione dell’evidenza contro l’ipotesi nulla quantifica la probabilità di ottenere i dati osservati o risultati più estremi assumendo che l’ipotesi sia vera. É il livello di significatività minimo per il quale HO viene rifiutata. Se é Minore del livello di significatività rifiuto HO sennò no.

29
Q

differenza nel calcolo del p value se la varianza è incognita o meno

A

Nel caso in cui la varianza di popolazione é incognita bisogna calcolare il p values utilizzando uno stimatore della varianza di popolazione e calcolare su di esso il p value

30
Q

intervallo di confidenza

A

Indica una stima dell’intervallo di valori plausibili per un parametro di interesse della popolazione (es.media), con un certo grado du confidenza. E quindi un intervallo all’interno della quale crediamo possa essere la media della popolazione (se e del 95% siamo sicuri al 95% che sia contenuto il valore effettivo in quell’intervallo

31
Q

errore standard

A

Rappresenta una stima della precisione con cui la statistica campionaria rappresenta la popolazione di interesse, é una misura della precisione della stima di un parametro statistico basata su un campione, tiene conto della variazione causata dal campionamento casuale e diminuisce al crescere della dimensione del campione.
Fornisce una dispersione delle stime del parametro attorno al suo vero valore nella popolazione.

32
Q

statistica t

A

Gioca un ruolo cruciale nella verifica delle ipotesi statistica è un esempio di statistica test

33
Q

modello di regressione lineare semplice (LRM)

A

Strumento che permette di studiare la relazione tra due variabili nella popolazione, descrive infatti la relazione delle due variabili X e y y é la variabile dipendente X la variabile indipendente B1 e b0 sono i parametri della popolazione b0 l’intercetta e B1 la pendenza e u é l’errore ossia i fattori diversi da x che influenzano y.
É lineare perché la relazione tra X e y é lineare. Ed é semplice perché c’è un solo regressore (x)

34
Q

Stimatore OLS e l’assunto di indipendenza in media (MIA)

A
35
Q

R^2

A

Misura della bontà di adattamento del modello. In pratica dice quanti della variazione nei dati della variabile dipendente é piegato dalle variabili indipendenti usati nel modello. Se é basso vuol dire che potrebbero esserci altre variabili che influenzano la variabile dipendente Y

36
Q

Standard error di regressione (SER)

A

Sima la dispersione della distribuzione di u, ossia quanto i valori si discostano dal centro della distribuzione

37
Q

Radice dell’errore quadtrato medio (RMSE)

A

Misura la stessa cosa dello standard error della regressione. A meno che n non sia piccola la differenza tra SER e RMSE è irrilevante

38
Q

Assunti dei minimi quadrati per l’inferenza causale

A

E(u|x)=0
Elementi del campione iid
Outlier rari

39
Q

Spiega LSA#1 E (u|X)=0

A

Se vale ciò vuole dire che l’effetto causale B1 é la pendenza della funzione di regressione della popolazione. Quindi B1 é il cambiamento nel valore atteso di Y dato un aumento unitario di X

40
Q

Spiega LSA#2

A

Sono automaticamente iid se provengono da un campionamento casuale

41
Q

LSA#3

A

Gli outlier possono influenzare fortemente i risultati alterando di molto gli stimatori OLS che sono molto sensibili ad essi

42
Q

Cosa possiamo dire sulla distribuzione campionaria di B1

A

Se valgono i tre LSA, allora
La media campionaria dello stimatore b1 é uguale a B1 quindi lo stimatore OLS é corretto
La varianza é uguale all’inverso della numerosità quindi per n grande l’incertezza si riduce, quindi é consistente
Quando n é grande la distribuzione campionaria é ben approssimata normalmente

43
Q

LSA per la previsione

A

LSA1 l’osservazione fuori dal campione é estratta dalla stessa distribuzione del campione di stima, che garantisce chela retta di regressione stimata dal campione sia applicabile anche ai dati fuori campione
LSA2 rimane uguale
LSA3 rimane uguale

44
Q

LSA per la previsione

A

LSA1 l’osservazione fuori dal campione é estratta dalla stessa distribuzione del campione di stima, che garantisce chela retta di regressione stimata dal campione sia applicabile anche ai dati fuori campione
LSA2 rimane uguale
LSA3 rimane uguale

45
Q

Quando rifiuto HO?

A

Rifiuto quando il p-value é minore di 0,5. Rifiuto quando il valore assoluto del t test é minore di 1,96

46
Q

Regressore binario

A

O variabile dummy un regressore che può assumere soltanto due valori distintim quindi per calcolarlo dovrei fare la media di Y dato X=1 meno la media di Y dato X=0

47
Q

Omoschedasticità

A

Se la varianza condizionale di u dato x é costante per ogni X,quindi la varianza condizionale dei residui é costante lungo tutti i livelli della variabile indipendente

48
Q

Eteroschedastico

A

La varianza dei residui varia al variare di X, questo può portare a stime dei parametri del modello distorte

49
Q

I 5 LSA

A

LSA1 E (u|X) =0
LSA2 iid
LSA3 outlier rari
LSA4 u é omoschedastico
LSA5 u ha distribuzione (0, varianza)

50
Q

Conclusioni con i 5 LSA

A

OLS é migliore di qualsiasi altro stimatore consistente, inoltre gli stimatori di B1 e b0 hanno distribuzione normale per ogni n, e la statistica t ha distribuzione t di student con n-2 gradi di libertà per ogni np

51
Q

Critiche al teorema Gauss Markov e la sua versione rafforzata

A

La condizione di omoschedasticità spesso non é verificata in quanto é una condizione rara
L’efficenza vale solo fra gli stimatori lineari che sono un piccolo sottoinsieme tra tutti i possibili
Il risultato di ottimalità più forte richiede errori normali omoschedastici ancora più rari

52
Q

Problema dello stimatore OLS

A

Troppo sensibilie agli outlier, esistono stimatori meno sensibili come il LAD

53
Q

Distorsione da variabili omesse

A

L’errore I incorpora i fattori che influenzano y ma non sono inclusi nel modello. Se questa omissione implica che E(u|x) sia diverso da 0 allora lo stimatore OLS É DISTORTO E NON CONSISTE

54
Q

Variabile omessa

A

Variabile non inclusa nel modello di regressione che rende lo stimatore OLS distorto

55
Q

Condizioni variabile omessa

A

Z é una determinante di Y
Z é correlata con X

56
Q

Soluzioni per separare l’effetto della variabile omessa da quella delle B

A

Fare un esperimento
Approccio della tabulazione incrociata
Modello di regressione multipla

57
Q

Cosa sono nel modello di regressione y, X e B1 e b0

A

Y variabile dipendente
X regressore o variabile indipendente
B0 intercetta
B1 effetto su y di una variazione di x1

58
Q

A cosa serve R^2 adjusted

A

Quando abbiamo una regressione multipla R2 normale tende ad aumentare, con R2 adjusted penalizziamo l’aumento che da R2 normale. Se n é grande i due sono molto vicini

59
Q

LSA Nell regressione multipla

A

LSA1 e(u|X)=0
LSA2 iid
LSA3 outlier rari
LSA4 non c’è collinearita perfetta

60
Q

Collinearita perfetta

A

Si verifica quando due variabili sono completamente correlate, e una é la funzione lineare esatta dell’altra. E il modello non può distinguere l’effetto di una dall’effetto dell’altra

61
Q

Trappola delle dummy

A

Quando abbiamo due dummy mutualmente esclusive e congiuntamente esaustive, otteniamo collinearita perfetta

62
Q

Collinearita imperfetta

A

Quando due variabili sono fortemente correlate, ma non in modo esatto come nella collinearita perfetta. Mostrano quindi una certa dipendenza lineare. La collinearita imperfetta implica coefficenti di regressione stimati in maniera imprecisa. La collinearita imperfetta comprata errori standard elevati per gli stimatori ols

63
Q

Variabile di controllo

A

Variabili non causali introdotto per osservare variabili omesse che sono ad esse correlate e che sono incluse per mantenere costanti fattori, che se trascurati, introdurrebbero distorsione da variabili omesse.

64
Q

Perché la variabile di controllo non ha interpretazione causale

A

Perché e correlata con le altre variabili omesse che possono influenzare le variabili di controllo stesso compromettendo la stima del loro effetto causale

65
Q

Nella regressione multipla perché fare il test di ipotesi congiunte

A

Perché testando i coefficiente uno alla volta, la dimensione del test é maggiore rispetto a quella normale, quindi é più probabile rifiutare ho se é vera

66
Q

Che test si una per fare un test di ipotesi congiunte?

A

Statistica F

67
Q

Quando rifiuto F

A

Rifiuto F quando F é grande. F ha distribuzione normale per n molto grande. Qui grandi sono T1 e t2 più grande é F

68
Q

Metodo della statistica F nel caso di omoschedasticità

A

Stimiamo due regressioni, una sotto ipotesi nulla ( vincolata) e una sotto ipotesi alternativa (non vincolata), confronto i due R2. Se il modello non vincolato si adatta ai dati significativamente meglio di quello inviato rifiuto H0