La statistica inferenziale Flashcards

1
Q

cosa succede nella statistica inferenziale?

A

la media e la deviazione standard diventano variabili perchè dipendono da che campione prendiamo.

come facciamo allora a capire se la media del campione si avvicina alla media della popolazione?

si può fare riferimento alla distribuzione empirica campionaria o quella teorica campionaria.

il metodo empirico prevede l’estrarre dei campioni e del vedere quale media e quale deviazione standard sono più frequenti.

con il metodo teorico invece, la distribuzione teorica della probabilità è invece applicazione di probabilità.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

cosa sono le distribuzioni di campionamento?

A

le distribuzioni di campionamento di un valore come la media, è la distribuzione dei valori di tali statistiche calcolate su campioni casuali, che portano sempre a valori di media casuali.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cosa dice il teorema del limite centrale?

A

afferma che qualsiasi sia la variabile di partenza, in condizioni di alta numerosità campionaria, somme e medie di misurazioni casuali ricavate da una popolazione, tendono a possedere approssimativamente una distribuzione normale di Gauss.

se da un gruppo estraggo diversi campioni e di ogni campione faccio una media, quella media seguirà una distribuzione di gauss con media mu e deviazione standard pari alla deviazione standard di partenza diviso radice di n.

quindi una variabile potrebbe anche non avere una distribuzione di gauss, ma se si considera la somma delle variabili ottenute dai vari campioni fatti, questi avranno distribuzione di Gauss.

x segnato ovvero la media ha quindi una distribuzione normale N con parametri mu cioè la media e deviazione standard pari a deviazione standard diviso la radice di n

quest’ultimo valore india la variabilità dovuta al campione.

La varianza sarà pari alla varianza della popolazione diviso la numerosità campionaria.

man mano che aumento la grandezza dei campioni, poichè i valori tendono a sovrapporsi, le medie risulteranno sempre più simili fra loro.

quindi la variabilità della media è piccola e la numerosità campionaria è grande

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

in cosa consiste la stima dei parametri?

A

è un calcolo che avviene a partire dai dati di un campione, ed è una approssimazione del corrispondente parametro nella popolazione.

quando infatti si estrae un campione e si fa la media di quel campione, si sta facendo una stima di quel parametro.

questa è la stima puntuale, che corrisponde alla stima del risultato di 1 solo campione. e si ottiene calcolando 1 singolo valore numerico per stimare un parametro.

tuttavia la stima puntuale descrive solamente il campione considerato, non indica la variabilità della stima effettuata, non fornisce probabilità e quindi non permette di effettuare inferenza statistica.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

cosa è la stima intervallare?

A

si ottiene calcolando un insieme di valori che con un certo grado di probabilità contiene il parametro da stimare.

da una stima puntuale si passa ad una intervallare tramite la creazione degli intervalli di confidenza.

si calcola un intervallo di possibili valori che il parametro incognito può assumere con una certa probabilità.

questo permette di fare un primo passo verso l’inferenza.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

cosa sono gli intervalli di confidenza?

A

forniscono sia grado di attendibilità di una stima sia informazioni sul valore numerico del parametro incognito.

1-alfa=P(l1<=0<0l2) con alfa compreso tra 0 e 1

dove 1-alfa è la probabilità che il parametro 0 generico (teta) che può essere media,varianza, proporzione) sia compreso fra l1 ed l2 che dipendono dalla dimensione del campione.

1-alfa esprime anche il livello di confidenza che esprime l’attendibilità della stima.

alfa rappresenta il livello di significatività.

solitamente si sceglie alfa pari a 0.05

l’intervallo di confidenza è quindi un intervallo di probabilità, la cui media della popolazione mu è un valore compreso fra valore della media+ errore della stima, con una probabilità di 1-alfa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

come si individua L1 ed L2 in un generico intervallo?

A

il procedimento cambia se si tratta la media, la proporzione o qualsiasi altra cosa.

se considero la distribuzione gaussiana, scegliere 1-alfa = 0.95, si stabilisce un intervallo in modo che al di sotto della curva e all’interno dei due limiti (che non conosciamo) ci sia una probabilità dello 0.95.

mentre all’esterno ci sia una probabilità di 0.05, che essendo simmetrica sarà bipartita in 2 code, quindi paria 0.025.

l1 ed l2 allora si determinano sulle tavole della distribuzione di gauss standard e sono pari a +/- 1,96

1,96 non è altro che 2 e poichè la deviazione standard nella gaussiana è 1 allora corrsiponde alla distanza di 2 deviazioni standard.

POICHE NON SEMPRE LA VARIABILE SEGUE UNA STANDARD, l’intervallo di confidenza va calcolato sulla base della standardizzazione della variabile.

nel caso della media infatti, la deviazione standard diventa deviazione standard diviso radice di n.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

come individuare concretamente L1 ed L2 per una variabile che segue la gauss, con varianza della popolazione nota

A

si devono individuare L1 ed L2 tali per cui per campioni della stessa popolazione di uguale dimensione, la media della popolazione sia compresa nell’intervallo col 95% di probabilità.

bisogna considerare inoltre che la variabile x segue una distribuzione gauss normale, ma la stima della media si fa sulla base della distribuzione delle medie, la quale si approssima a gauss con varianza pari a deviazioen standard al quadrato diviso n, cioè l’intervallo si calcola facendo riferimento alla distribuzione delle medie, dove la media delle medie è mu.

L1 ed L2 devono tener conto della media campionaria e dalla varianza della gaussiana della distribuzione delle medie.

considero un intervallo di confidenza al 95%

tenendo fisso questo valore, cerco sulle tavole il valore z tale per cui sotto la curva c’è il 95% di probabilità di ottenere la stima.

poi so che:

z= variabile - media / deviazione standard

quindi nel caso della distribuzione delle medie z diventa :

z= valore di una media - media nella popolazione / deviazione standard divisa radice della numerosità campionaria.

poi poichè la gauss simmetrica l1 ed l2 si possono identificare come +L e -L.

mediante dei passaggi algebrici, è possibile ottenere l’intervallo di confidenza per la media della popolazione, dove z è compresa fra -L e +L.

L1 ed L2 dipendono dai valori campionari, dalla distribuzione di probabilità

dalla variabilità.

la media della popolazione è compresa tra L1 ed L2 con una probabilità del 95%.

1-alfa= P( valore media-z per deviazione standard diviso radice di n <= media nella popolazione<= valore media +z deviazione standard diviso radice di n

quindi L1 ed L2 vengono sostituiti con meno z e +z tabulati.

lo zeta tabulato dipende dal valore di 1-alfa

1-alfa è definito anche intervallo di confidenza a priori.

se stabilisco un intervallo di confidenza più alto, come 0.99, avrò alfa pari a 0,01 quindi considerando le due code alfa /2 pari a 0.005.

poichè non si trova un valore di zeta tabulato definito per quell’intervallo, si fa la media degli zeta dei due valori e sarà uguale a 2,57

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Come individuare intervallo di confidenza per la media di una variabile che segue distribuzione di gauss, ma con varianza incognita

A

per costruire un intervallo si assume che la varianza della popolazione sia nota

nella realtà questo non accade mai.

nella realtà, la varianza della popolazione ha una sua distribuzione che prende il nome di chi quadro e dipende dai suoi gradi di libertà.

Z=valore della media - media della popolazione diviso deviazione standard diviso radice della numerosità campionaria.

non conoscendo però la deviazione standard nella popolazione, si sostituisce la deviazione standard con S, cioè la STIMA della deviazione standard ottenendo così una nuova distribuzione chiamata t-student.

S proprio come la media, essendo una stima diventa una variabile quindi ha una propria distribuzione.

Di conseguenza la distribuzione T deriva da un rapporto fra 2 distribuzioni. Al numeratore la media campionaria, con distribuzione di Gauss, mentre al denominatore c’è la stima della varianza avente distribuzione chi-quadro.

Questo tipo di distribuzione è chiamata Tstudent.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quali sono le caratteristiche della distribuzione t-student?

A

è sovrapponibile alla gauss ma presenta un picco meno alto e code più pesanti, dipende dai gradi di libertà della varianza, quindi dalla dimensione del campione.

è una distribuzione campionaria

maggiore è la dimensione del campione , più è sovrapponibile ad una gauss.

è simmetrica attorno alla media

ha media uguale a 0

ha deviazione standard maggiore di 1 ( che si avvicina ad 1 per n che tende ad infinito

esiste una famiglia di t student che dipende dai gradi di libertà, in questo caso sono pari ad N-1.

come per la gauss standard, anche la t student ha dei valori tabulati per determinare valori sotto la curva, in base ai gradi di libertà.

se dovessimo calcolare l’intervallo di confidenza per una variabile che segue la t student, indicando i limiti come c1 e c2, si ottiene che 1-alfa= p( valore media-t che moltiplica stima della deviazione standard diviso radice di n<= media nella popolazione <=valore media + t per stima della deviazione standard diviso radice di n.

i valori di T si ottengono sulle tavole t student considerando il livello di confidenza e il numero di gradi di libertà.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Cosa è l’errore nella stima?

A

se considero i due intervalli di confidenza appena citati, sono il valore che moltiplica rispettivamente t o z.

questo errore nella stiam, dipende dalla variabilità, poichè bella formula compare la deviazione standard o comunque la stima della deviazione standard

e dalla distribuzione di probabilità a cui si fa riferimento, considerando il fattore z o t.

questo permette la correlazione fra il campione preso in considerazione e l’intera popolazione.

più è grande la variabilità, minore è l’errore nella stima. la variabilità dipende a sua volta da valori campionari, questo accade perchè l’errore indica la probabilità che all’interno dell’intervallo non ci sia il valore della media, se l’errore aumenta, allora l’intervallo deve essere ristretto così che i valori nell’intervallo siano meno ed è più probabile che ci sia un errore.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

I due tipi di interpretazione degli intervalli di confidenza

A

l’interpretazione probabilistica, cioè dato un intervallo estraendo tutti i campioni da una popolazione distribuita normalmente, la media mu della popolazione è al 95% nell’intervallo calcolato

oppure l’interpretazione pratica, che afferma che effettuando il campionamento da una popolazione con distribuzione normale si ha la probabilità al 95% che l’intervallo calcolato contenga la media. cioè effettuando 100 volte il campionamento di tale popolazione, 95 volte su 100, la media della popolazione è compresa fra i valori L1 ed L2.

più grande è l’errore nella stima, più grande è l’intervallo, minore è la precisione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

da cosa dipende l’ampiezza dell’intervallo di confidenza?

A

dipende dal numero di soggetti studiati definito n, maggiore è il numero del campione, più piccolo è l’errore, quindi le conclusioni non sono attendibili se i campioni sono poco numerosi.

dalla variabilità dei soggetti in studio correlata ai parametri deviazione standard e stima della deviazione standard.

dal livello di confidenza, che determina il valore di z o t. maggiore è il livello di confidenza, più ampi sono gli intervalli.

per evitare l’aumento dell’ampiezza degli intervalli è possibile agire solo sull’errore standard, dove l’unico fattore su cui è possibile agire è la numerosità campionaria.

n= L al quadrato per deviazione standard al quadrato diviso l’errore nella stima o ampiezza dell’intervallo al quadrato.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

qual’è la formula generica per un intervallo?

A

stima+/- ( fattore di correzione per errore standard della stima )

la stima è il valore della media sul campione

il fattore di correzione o valore critico, è rappresentato da z e serve a determinare limite superiore ed inferiore.

l’errore standard che corrisponde a deviazione standard diviso radice della numerosità campionaria.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

L’imprecisione delle stime campionarie.

A

, indicare l’imprecisione delle stime campionarie in un intervallo di confidenza

serve perchè la media di un campione potrebbe non corrispondere con la media nella popolazione.

più è ampio l’intervallo, minore è la precisione.

l’ampiezza dell’intervallo dipende dalla numerosità campionaria, che se avessimo un campione piccolo la distanza fra i limiti sarebbe maggiore

dalla variabilità dei soggetti in studio, in quanto più piccola è la variabilità più la stima è precisa.

dal fattore di correzione, che dipende dall’intervallo di confidenza, in quanto maggiore è il livello di confidenza, tanto più ampi sono gli intervalli. quindi si otterrano 2 limiti più distanti fra loro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

l’intervallo di confidenza per la differenza fra due medie. quando l varianza è nota nella popolazione

A

se considero due popolazioni diverse come donne e maschi riguardo l’altezza, avremo quindi n1 ed n2 che corrispondono alle numerosità campionarie delle due popolazioni.
conoscendo le varianze di entrambe le popolazioni, l’errore standard diventa z che moltiplica radice di deviazione standard della popolazione 1 al quadrato diviso la numerosità campionaria del primo gruppo + la stessa cosa per il secondo gruppo.

ovviamente si considera sempre alfa in 2 curve quindi se la confidenza è a 95% allora si considera alfa uguale a 0.025

17
Q

se la varianza nella popolazione non è nota nella differenza fra medie

A

allora al posto delle deviazioni standard bisogna usare la stima delle deviazioni standard

tuttavia le varianze, vanno considerate come una varianza comune che va calcolata come deviazione standard 1 al quadrato che moltiplica n1 -1 + S2 elevato al quadrato che moltiplica n2 meno 1 tutto diviso n1 più n2 meno 2.

per quanto riguarda l’intervallo di confidenza il fattore di correzione diventa t che dipende dai gradi di libertà della varianza comune, che sono 2.

l’errore standard si calcola come la radice quadrata di Sp al quadrato diviso n1 + sp al quadrato diviso n2

18
Q

come si costruisce un intervallo di confidenza per le proporzioni

A

si applica nel momento in cui il parametro incognito è la proporzione fra i due gruppi e non la media.

quindi il parametro diventa p ( proporzione nella popolazione)

nel campione avremo P con l’archetto che rappresenta la stima della proporzione.

una proporzione non è altro che il rapporto tra il numero di successi e il numero delle prove.

la variabile che conta il numero di successi ha una variabile binomiale dove la media è pari ad np( numero prove per proporzione) e la varianza è pari a np per 1-p.

poichè n è grande

e la proporzione di successi è più o meno uguale a 0.5

questa distribuzione binomiale può essere standardizzata ad una gaussiana.

tuttavia non si potranno considerare la media e la deviazione standard ma i parametri da standardizzare saranno quelli della distribuzione binomiale quindi X valore della proporzione meno np diviso radice di np per 1-p

p stimato, ovvero il numero di successi sul numero di prove meno z per radice di p stimato per 1 meno p stimato diviso n

costituisce il modo di creare l’intervallo di confidenza.

19
Q

come si costruisce un intervallo di confidenza per la differenza fra due proporzioni?

A

diventa z che moltiplica radice di p1 stimata per 1 - p stimata diviso n1 + p2 stimata per 1 -p2 stimata diviso n2

dove p1 è il numero di soggetti che si ammala in una popolazione

p2 il numero di soggetti che si ammalano in un altra popolazione.

20
Q
A