Parte 1 Flashcards
cap 1, cap 2, cap 3, cap 4 (fino a 4.4)
Popolazione
insieme degli elementi che vogliamo osservare, spesso troppo grandi, per questo ci serviamo dei campioni per studiarli
Campione
sottoinsieme della popolazione sulla quale si fanno inferenze per studiare la popolazione dalla quale derivano
inferenze
processi mediante la quale traiamo conclusioni, si basano su metodi che ci permettono di generalizzare sulla popolazione osservazioni che vengono fatte sul campione. ci sono due tipi di inferenza:
DESRITTIVA che ci permette di descrivere le caratteristiche del campione (media, varianza)
INDUTTIVA si tratta di fare prevsioni affermazioni o trarre conclusioni sulla popolazione partendo dal campione (test d’ipotesi, previsione dei risultati,…)
variabile casuale Y
misura nomerica di un risultato casuale, può essere
CONTINUA e assumete qualsiasi valore reale
DISCRETA e assumere solo valori interi
distribuzione della popolazione
descrive l’incertezza di Y, ossia come i possibili valori di Y sono distribuiti nella popolazione
DISTRIBUZIONE NORMALE la distribuzione dei valori su un grafico assumera la forma di una campana
DISTRIBUZIONE ASIMMETRICA se i valori sono molto diversi tra loro
valore attuale
media di y, ossia il valore che ci si aspetta che Y assuma in media. un valore attorno alla quale i valori di Ytendono a “centrarsi”, nel caso di una distribuzione normale, esso è il punto di simmetria della curva
media
valore atteso di y, ossia il valore che ci si aspetta che Y assuma in media. un valore attorno alla quale i valori di Ytendono a “centrarsi”, nel caso di una distribuzione normale, esso è il punto di simmetria della curva
varianza
misura della variabilità dei deti rispetto alla media. indica quanto i valori si distribuiscono attorno al valore atteso. una varianza elevata indica unna maggiore dispersione
deviazione standard
esprime la misura della dispersione dei valori attorno alla media, a differenza della varianza è espressa nella stessa unità di misura dei valori
asimmetria
una misura della mancanza di simmetria in una distribuzione alla media =0 indica simmetria <0 asimmetria la coda si estende di più a sinistra >0 asimmetria la coda si estende di più a destra
kurtosi
è una misura della forma della distribuzione dei dati, che descrive la forma e l’ampiezza delle code della distribuzione. più è elevata la kurtori più è alta la probabilità di avere valori estrem grandi, quindi outlier rilevanti e numerosi se =3 distribuzione normale. se >3 sode spesse
distribuzione congiunta
due variabili x e y hanno distribuzione congiunta quando le osserviamo entrambe e vediamo come sono distribuiti i loro valori insieme. osservarle insieme ci permette di individuare un eventuale relazione o dipendenza tra le due.
covarianza
è una misura dell’associazione lineare di due variabili >0 RELAZIONE POSITIVA aumentano insieme o diminuiscono insieme
>0 RELAZIONE NEGATIVA una diminuisce all’aumentare dell’altra =0 non c’è relazione
se due variabili sono distribuiti INDIPENDENTEMENTE, allora non c’è correlazione tra loro.
la ovarianza di una variabile con se stessa è uguale alla varianza
correlazione
esprime il grado di relazione lineare tra due variabili. misura la direzione e ò’intensità della relazione tra due variabili. il valore è compreso tra -1 e 1
=-1 associazione lineare perfetta negativa
=1 associazione lineare perfetta positiva
=0 nessuna associazione lineare
distribuzione condizionale (media e varianza condizionali)
è la distribuzione di una variabile casuale dato il valore della seconda variabile.
media condizionale, varianza condizionale e proprietà della media condizionale
la media condizionale è la media della distribuzione condizionale. la varianza, invece è la varianza della distribuzione condizionale
vengono chiamete MOMENTI CONDIZIONALI, come tutte le funazioni delle distribuzioni condizionali
PROPRIETA => se la media condizionale è una costane, ossia assume lo stesso valore per ogni dato valore della variabile che condiziona, allora la Correlazione tra la due variabili è 0, ma non viceversa (E (Y|X) costante => Corr (X,Y) = 0)
MSPE, e proprietà dell’MSPE
la media condizionale può essere usata anche nelle previsioni, con l’ERRORE QUADRATICO MEDIO DI PREVISIONE, possiamo infatti misurare la qualità di una previsione m di Y MPSE(m)= E [(Y-m)^2|X]
PROPRIETA => di tutte le possibili previsioni m che dipendono da X, la media condizionale E(Y|X) ha il più piccolo MSPE
campionamento casuale semplice
schema di campionamento in cui n elementi sono scelti a caso dalla popolazione e ogni membro della popolazione ha la stessa probabilità di fare parte del campione
IID nel campionamento casuale semplice
Poiché l’estrazione casuale pretenda tuo individui il valore del primo non ci dirà nulla sul valore del secondo quindi gli elementi del campionamento sono distribuiti indipendentemente. I due elementi derivano dalla stessa popolazione quindi saranno identicamente distribuiti. In generale con campionamento casuale semplice tutti quanti gli elementi di un campione sono identicamente e indipendentemente distribuiti
media campionaria
Essendo l’estrazione degli elementi del campione casuale, ha effetto di rendere la media campionaria una variabile casuale. Essendo la media campionaria una variabile causale a essa stessa una distribuzione di probabilità; la distribuzione della media campionaria è detta distribuzione campionaria della media perché è la distribuzione di probabilità associata ai possibili valori di media campionaria che possono essere calcolati per i diversi campioni possibili.
stimatore
E una funzione di un campione di dati estratti casualmente da una popolazione serve per ottenere una stima di un parametro di interesse in una popolazione. è una variabile casuale per effetto della casualità dell’estrazione del campione della popolazione. Ci sono tre caratteristiche affinché uno stimatore sia efficiente
caratteristiche desiderabili di uno stimatore
NON DISTORSIONE o CORRETTEZZA => sei applicato a campioni casuali ripetuti da una popolazione alla media delle stime ottenute si avvicinano al valore del parametro che si sta cercando di stimare. Sei è distorto e incline a produrre stime troppo alte o basse rispetto al valore reale del parametro.
CONSISTENZA => sei all’aumentare della numerosità del campione la stima ottenuta si avvicina al valore del parametro che si sta cercando
EFFICIENZA E VARIANZA => la varianza di uno stimatore misura quanto le stime da lui ottenute e variano al valore atteso dal parametro che si sta stimando. Una bassa varianza è preferibile perché significa che le stime sono più concentrate attorno al valore atteso del parametro. L’efficienza misura la precisione di uno stimatore rispetto ad altri stimatori per lo stesso parametro è più efficiente se produce stime più precise degli altri.
media e varianza della distribuzione campionaria dello stimatore Y-
La media é uguale alla media della popolazione e la varianza l’inverso della numerosità di campione per la varianza della popolazione
proprietà asintotiche dello stimatore
LEGGE DEI GRANDI NUMERI all’aumento di n, la distribuzione della media campionaria si concentra sempre più intorno alla media della popolazione
TEOREMA DEL LIMITE CENTRALE sia un campione con n elementi iid all’aumento di n la distribuzione é ben approssimata da una distribuzione normale, più é grande n migliore é l’approssimazione
perche lo stimatore della media campionaria è lo stimatore migliore della media della popolazione?
Perché é corretto, consistente, per le proprietà asintotiche con una distribuzione approssimativamente normale e essendo lo stimatore di minimi quadrati della media della popolazione é per il teorema gauss Markov anche quello più efficiente tra tutti gli altri stimatori
test d’ipotesi e i due tipi di ipotesi
Procedura statistica utilizzata per prendere decisioni su affermazioni o ipotesi riguardanti i parametri di una popolazione, basandosi sui dati raccolti sui dati campionari. Ci sono l’ipotesi HO e l’ipotesi h1 la prima é detta ipotesi nulla, la seconda ipotesi alternativa bilaterale, che é vera se l’ipotesi nulla é falsa
livello di significatività
È la probabilità massima di commettere un errore nel respingere erroneamente l’ipotesi nulla quando è vero tipicamente è fissato prima dell’esecuzione del test