La statistica inferenziale Flashcards
cosa succede nella statistica inferenziale?
la media e la deviazione standard diventano variabili perchè dipendono da che campione prendiamo.
come facciamo allora a capire se la media del campione si avvicina alla media della popolazione?
si può fare riferimento alla distribuzione empirica campionaria o quella teorica campionaria.
il metodo empirico prevede l’estrarre dei campioni e del vedere quale media e quale deviazione standard sono più frequenti.
con il metodo teorico invece, la distribuzione teorica della probabilità è invece applicazione di probabilità.
cosa sono le distribuzioni di campionamento?
le distribuzioni di campionamento di un valore come la media, è la distribuzione dei valori di tali statistiche calcolate su campioni casuali, che portano sempre a valori di media casuali.
Cosa dice il teorema del limite centrale?
afferma che qualsiasi sia la variabile di partenza, in condizioni di alta numerosità campionaria, somme e medie di misurazioni casuali ricavate da una popolazione, tendono a possedere approssimativamente una distribuzione normale di Gauss.
se da un gruppo estraggo diversi campioni e di ogni campione faccio una media, quella media seguirà una distribuzione di gauss con media mu e deviazione standard pari alla deviazione standard di partenza diviso radice di n.
quindi una variabile potrebbe anche non avere una distribuzione di gauss, ma se si considera la somma delle variabili ottenute dai vari campioni fatti, questi avranno distribuzione di Gauss.
x segnato ovvero la media ha quindi una distribuzione normale N con parametri mu cioè la media e deviazione standard pari a deviazione standard diviso la radice di n
quest’ultimo valore india la variabilità dovuta al campione.
La varianza sarà pari alla varianza della popolazione diviso la numerosità campionaria.
man mano che aumento la grandezza dei campioni, poichè i valori tendono a sovrapporsi, le medie risulteranno sempre più simili fra loro.
quindi la variabilità della media è piccola e la numerosità campionaria è grande
in cosa consiste la stima dei parametri?
è un calcolo che avviene a partire dai dati di un campione, ed è una approssimazione del corrispondente parametro nella popolazione.
quando infatti si estrae un campione e si fa la media di quel campione, si sta facendo una stima di quel parametro.
questa è la stima puntuale, che corrisponde alla stima del risultato di 1 solo campione. e si ottiene calcolando 1 singolo valore numerico per stimare un parametro.
tuttavia la stima puntuale descrive solamente il campione considerato, non indica la variabilità della stima effettuata, non fornisce probabilità e quindi non permette di effettuare inferenza statistica.
cosa è la stima intervallare?
si ottiene calcolando un insieme di valori che con un certo grado di probabilità contiene il parametro da stimare.
da una stima puntuale si passa ad una intervallare tramite la creazione degli intervalli di confidenza.
si calcola un intervallo di possibili valori che il parametro incognito può assumere con una certa probabilità.
questo permette di fare un primo passo verso l’inferenza.
cosa sono gli intervalli di confidenza?
forniscono sia grado di attendibilità di una stima sia informazioni sul valore numerico del parametro incognito.
1-alfa=P(l1<=0<0l2) con alfa compreso tra 0 e 1
dove 1-alfa è la probabilità che il parametro 0 generico (teta) che può essere media,varianza, proporzione) sia compreso fra l1 ed l2 che dipendono dalla dimensione del campione.
1-alfa esprime anche il livello di confidenza che esprime l’attendibilità della stima.
alfa rappresenta il livello di significatività.
solitamente si sceglie alfa pari a 0.05
l’intervallo di confidenza è quindi un intervallo di probabilità, la cui media della popolazione mu è un valore compreso fra valore della media+ errore della stima, con una probabilità di 1-alfa
come si individua L1 ed L2 in un generico intervallo?
il procedimento cambia se si tratta la media, la proporzione o qualsiasi altra cosa.
se considero la distribuzione gaussiana, scegliere 1-alfa = 0.95, si stabilisce un intervallo in modo che al di sotto della curva e all’interno dei due limiti (che non conosciamo) ci sia una probabilità dello 0.95.
mentre all’esterno ci sia una probabilità di 0.05, che essendo simmetrica sarà bipartita in 2 code, quindi paria 0.025.
l1 ed l2 allora si determinano sulle tavole della distribuzione di gauss standard e sono pari a +/- 1,96
1,96 non è altro che 2 e poichè la deviazione standard nella gaussiana è 1 allora corrsiponde alla distanza di 2 deviazioni standard.
POICHE NON SEMPRE LA VARIABILE SEGUE UNA STANDARD, l’intervallo di confidenza va calcolato sulla base della standardizzazione della variabile.
nel caso della media infatti, la deviazione standard diventa deviazione standard diviso radice di n.
come individuare concretamente L1 ed L2 per una variabile che segue la gauss, con varianza della popolazione nota
si devono individuare L1 ed L2 tali per cui per campioni della stessa popolazione di uguale dimensione, la media della popolazione sia compresa nell’intervallo col 95% di probabilità.
bisogna considerare inoltre che la variabile x segue una distribuzione gauss normale, ma la stima della media si fa sulla base della distribuzione delle medie, la quale si approssima a gauss con varianza pari a deviazioen standard al quadrato diviso n, cioè l’intervallo si calcola facendo riferimento alla distribuzione delle medie, dove la media delle medie è mu.
L1 ed L2 devono tener conto della media campionaria e dalla varianza della gaussiana della distribuzione delle medie.
considero un intervallo di confidenza al 95%
tenendo fisso questo valore, cerco sulle tavole il valore z tale per cui sotto la curva c’è il 95% di probabilità di ottenere la stima.
poi so che:
z= variabile - media / deviazione standard
quindi nel caso della distribuzione delle medie z diventa :
z= valore di una media - media nella popolazione / deviazione standard divisa radice della numerosità campionaria.
poi poichè la gauss simmetrica l1 ed l2 si possono identificare come +L e -L.
mediante dei passaggi algebrici, è possibile ottenere l’intervallo di confidenza per la media della popolazione, dove z è compresa fra -L e +L.
L1 ed L2 dipendono dai valori campionari, dalla distribuzione di probabilità
dalla variabilità.
la media della popolazione è compresa tra L1 ed L2 con una probabilità del 95%.
1-alfa= P( valore media-z per deviazione standard diviso radice di n <= media nella popolazione<= valore media +z deviazione standard diviso radice di n
quindi L1 ed L2 vengono sostituiti con meno z e +z tabulati.
lo zeta tabulato dipende dal valore di 1-alfa
1-alfa è definito anche intervallo di confidenza a priori.
se stabilisco un intervallo di confidenza più alto, come 0.99, avrò alfa pari a 0,01 quindi considerando le due code alfa /2 pari a 0.005.
poichè non si trova un valore di zeta tabulato definito per quell’intervallo, si fa la media degli zeta dei due valori e sarà uguale a 2,57
Come individuare intervallo di confidenza per la media di una variabile che segue distribuzione di gauss, ma con varianza incognita
per costruire un intervallo si assume che la varianza della popolazione sia nota
nella realtà questo non accade mai.
nella realtà, la varianza della popolazione ha una sua distribuzione che prende il nome di chi quadro e dipende dai suoi gradi di libertà.
Z=valore della media - media della popolazione diviso deviazione standard diviso radice della numerosità campionaria.
non conoscendo però la deviazione standard nella popolazione, si sostituisce la deviazione standard con S, cioè la STIMA della deviazione standard ottenendo così una nuova distribuzione chiamata t-student.
S proprio come la media, essendo una stima diventa una variabile quindi ha una propria distribuzione.
Di conseguenza la distribuzione T deriva da un rapporto fra 2 distribuzioni. Al numeratore la media campionaria, con distribuzione di Gauss, mentre al denominatore c’è la stima della varianza avente distribuzione chi-quadro.
Questo tipo di distribuzione è chiamata Tstudent.
Quali sono le caratteristiche della distribuzione t-student?
è sovrapponibile alla gauss ma presenta un picco meno alto e code più pesanti, dipende dai gradi di libertà della varianza, quindi dalla dimensione del campione.
è una distribuzione campionaria
maggiore è la dimensione del campione , più è sovrapponibile ad una gauss.
è simmetrica attorno alla media
ha media uguale a 0
ha deviazione standard maggiore di 1 ( che si avvicina ad 1 per n che tende ad infinito
esiste una famiglia di t student che dipende dai gradi di libertà, in questo caso sono pari ad N-1.
come per la gauss standard, anche la t student ha dei valori tabulati per determinare valori sotto la curva, in base ai gradi di libertà.
se dovessimo calcolare l’intervallo di confidenza per una variabile che segue la t student, indicando i limiti come c1 e c2, si ottiene che 1-alfa= p( valore media-t che moltiplica stima della deviazione standard diviso radice di n<= media nella popolazione <=valore media + t per stima della deviazione standard diviso radice di n.
i valori di T si ottengono sulle tavole t student considerando il livello di confidenza e il numero di gradi di libertà.
Cosa è l’errore nella stima?
se considero i due intervalli di confidenza appena citati, sono il valore che moltiplica rispettivamente t o z.
questo errore nella stiam, dipende dalla variabilità, poichè bella formula compare la deviazione standard o comunque la stima della deviazione standard
e dalla distribuzione di probabilità a cui si fa riferimento, considerando il fattore z o t.
questo permette la correlazione fra il campione preso in considerazione e l’intera popolazione.
più è grande la variabilità, minore è l’errore nella stima. la variabilità dipende a sua volta da valori campionari, questo accade perchè l’errore indica la probabilità che all’interno dell’intervallo non ci sia il valore della media, se l’errore aumenta, allora l’intervallo deve essere ristretto così che i valori nell’intervallo siano meno ed è più probabile che ci sia un errore.
I due tipi di interpretazione degli intervalli di confidenza
l’interpretazione probabilistica, cioè dato un intervallo estraendo tutti i campioni da una popolazione distribuita normalmente, la media mu della popolazione è al 95% nell’intervallo calcolato
oppure l’interpretazione pratica, che afferma che effettuando il campionamento da una popolazione con distribuzione normale si ha la probabilità al 95% che l’intervallo calcolato contenga la media. cioè effettuando 100 volte il campionamento di tale popolazione, 95 volte su 100, la media della popolazione è compresa fra i valori L1 ed L2.
più grande è l’errore nella stima, più grande è l’intervallo, minore è la precisione.
da cosa dipende l’ampiezza dell’intervallo di confidenza?
dipende dal numero di soggetti studiati definito n, maggiore è il numero del campione, più piccolo è l’errore, quindi le conclusioni non sono attendibili se i campioni sono poco numerosi.
dalla variabilità dei soggetti in studio correlata ai parametri deviazione standard e stima della deviazione standard.
dal livello di confidenza, che determina il valore di z o t. maggiore è il livello di confidenza, più ampi sono gli intervalli.
per evitare l’aumento dell’ampiezza degli intervalli è possibile agire solo sull’errore standard, dove l’unico fattore su cui è possibile agire è la numerosità campionaria.
n= L al quadrato per deviazione standard al quadrato diviso l’errore nella stima o ampiezza dell’intervallo al quadrato.
qual’è la formula generica per un intervallo?
stima+/- ( fattore di correzione per errore standard della stima )
la stima è il valore della media sul campione
il fattore di correzione o valore critico, è rappresentato da z e serve a determinare limite superiore ed inferiore.
l’errore standard che corrisponde a deviazione standard diviso radice della numerosità campionaria.
L’imprecisione delle stime campionarie.
, indicare l’imprecisione delle stime campionarie in un intervallo di confidenza
serve perchè la media di un campione potrebbe non corrispondere con la media nella popolazione.
più è ampio l’intervallo, minore è la precisione.
l’ampiezza dell’intervallo dipende dalla numerosità campionaria, che se avessimo un campione piccolo la distanza fra i limiti sarebbe maggiore
dalla variabilità dei soggetti in studio, in quanto più piccola è la variabilità più la stima è precisa.
dal fattore di correzione, che dipende dall’intervallo di confidenza, in quanto maggiore è il livello di confidenza, tanto più ampi sono gli intervalli. quindi si otterrano 2 limiti più distanti fra loro.