inferenza statistica Flashcards
definizione di popolazione e campione
popolazione: insieme di tutti gli elementi con le caratteristiche che uno vuole capire
campione: insieme di elementi estratti dalla popolazione, secondo una procedura statistica (i campioni che si estraggono da una popolazione possono essere più o meno simili alla popolazione)
definizione di parametro e statistica
parametro: caratteristica associata alla popolazione (lettere greche)
statistica: valore che, per mezzo di una funzione, viene associato ad una caratteristica di un qualsiasi campione di ampiezza n, appartenente ad una data popolazione (lettere latine)
media–> stimatore corretto (a differenza della varianza, che diventa stimatore corretto se al denominatore mettiamo n-1)
cos’è l’inferenza statistica?
un insieme di operazioni sui dati che portano a stime e incertezze su predizioni e parametri di qualche processo o popolazione
spiegare i passaggi dell’inferenza frequentista (approccio NHST)
- test di ipotesi: ipotesi nulla e ipotesi alternativa (bidirezionale o monodirezionale)
- calcolo di una determinata statistica test (sui dati)
- calcolo del p-value sotto Ho
- confronto tra p-value e valore critico α
- decisione: se è possibile rigettare o meno l’ipotesi nulla
quali sono gli aspetti critici dell’utilizzo del p-value?
p-value risponde alla domanda: assumendo che Ho sia vera, qual è la probabilità di osservare (a caso) valori uguali o più estremi rispetto a quelli empiricamente rilevati?
ma la nostra vera domanda è: dati questi valori osservati, qual è la probabilità che l’ipotesi Ho sia vera?
p-value= probabilità di ottenere un risultato uguale o più estremo rispetto a quello rilevato empiricamente se e solo se Ho è vera
NB non rappresenta in alcun modo la probabilità che Ho sia vera e pertanto non può essere considerato un misuratore del grado di falsità della stessa
p-value risente della numerosità campionaria (più aumenta n, più tende a diminuire)
non è una misura dell’evidenza statistica, va usato solo come criterio decisionale per rigettare o meno Ho
quali sono i limiti dell’approccio NHST?
- NHST tende a indurre confusione tra la probabilità dell’ipotesi condizionata ai dati (probabilità a posteriori) e probabilità dei dati condizionati all’ipotesi (verosomiglianza)
- viene erroneamente considerato un metodo per la verifica delle ipotesi, in realtà esso tiene conto solo di Ho e permette solo la falsificazione di tale ipotesi, senza che questo abbia relazione con la veridicità di H1
- il criterio α=0.05 è puramente arbitrario
- i test tradizionali tendono a sovrastimare l’evidenza contro Ho
- l’ipotesi nulla legata ad un unico valore puntuale, senza opportuni accorgimenti, porta a conclusioni distorte
spiegare i passaggi dell’inferenza bayesiana
- definizione della prior (distribuzione di probabilità)
–> per l’approccio bayesiano il parametro è una variabile (insieme di valori) - definizione della verosomiglianza
–> prendendo in esame i dati
(probabilità dei dati condizionata a θ)
–> formula della verosomiglianza: θ^casi favorevoli * (1-θ)^casi sfavorevoli - calcolo della posterior –> teorema di Bayes
–> mette insieme i dati e l’ipotesi a priori
–> (verosomiglianza * prior) / somma (verosomiglianza * prior)
e
r
r
e
r
e
r
r