La verifica delle ipotesi Flashcards

1
Q

a cosa serve la verifica delle ipotesi?

A

ad esempio serve a capire se la proporzione dei casi di trombosi nella popolazione vaccinata è uguale o differente dalla proporzione dei casi di trombosi nella popolazione non vaccinata.

quindi serve a stabilire se la differenza tra le due proporzioni è statisticamente significativa oppure è una differenza solo dovuta al caso.

la percentuale di eventi trombotici nel campione vaccinato rappresenta il parametro della popolazione.

la verifica delle ipotesi è un processo che mira a stabilire se la diversità osservata nel confronto fra i campioni, è vera anche nella popolazione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

la significatività statistica

A

consideriamo di voler confrontare l’efficacia di due farmaci, per stabilire quale è più efficace

si possono verificare 3 situazioni:

il farmaco A è superiore a quello B

esiste un fattore nei campioni che influenza la diversità dei due farmaci

la differenza potrebbe essere una variazione casuale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Le fasi della verifica delle ipotesi

A

1 Analisi dei dati e assunzioni sul modello probabilistico, sui parametri >( media varianza proporzione) sul campione

2 si formula una ipotesi alternativa e una ipotesi nulla

3 si costruisce una statistica test e la sua distribuzione di probabilità

4 si definisce la regola di precisione, e si valutano gli errori ovvero alfa che riguarda il rifiuto dell’ipotesi nulla vera

oppure beta, accettare l’ipotesi nulla falsa.

la regola di decisione permette di dare oggettività al risultato.

Decisione statistica e decisione clinica

la decisione statistica ci dice se accettare l’ipotesi nulla o rifiutarla.

per quanto riguarda la decisione clinica si può affermare ad esempio che la trombosi nei soggetti vaccinati pari alla percentuale di trombosi nei soggetti non vaccinati oppure no.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

come scelgo il test da applicare?

A

assunzioni sul tipo di variabile che sto considerando( gaussiana o binomiale?)

se la variabile non segue nessuna distribuzione nota si usano i test non parametrici

bisogna capire se la varianza è nota
( se usare t o z)

se la varianza incognita è omogeneo o non omogenea ( confronto far due medie )che si dimostra tramite un test

se i campioni sono appaiati o non appaiati ( se i dati vengono da soggetti differenti o da misurazioni sullo stesso soggetto)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

come formulo l’ipotesi statistica?

A

si formula una ipotesi nulla detta anche ipotesi di uguaglianza

la seconda invece è chiamata ipotesi alternativa ed è una ipotesi di diuguaglianza.

si parte dal presupposto che la ipotesi nulla sia vera per giungere poi ad affermare che è falsa ovvero a rifiutarla.

l’ipotesi alternativa può essere una ipotesi di diversità generica, se nell’ambito del confronto interessa solo sapere se i parametri sono diversi.

l’ipotesi generica è detta anche bilaterale o bidirezionale

oppure l’ipotesi alternativa può avere una unica direzione ( unidirezionale) >/<

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

come costruisco lo statistica test e la sua distribuzione di probabilità?

A

è una formula matematica che si calcola a partire dai dati del campione

il risultato di questa formula è casuale,perchè dipende dal campione.

inoltre ogni statistica test ha una sua distribuzione di probabilità che ci permette di accettare o rifiutare l’ipotesi nulla.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

definizione regola di decisone e valutazione degli errori

A

viene confrontato il valore numerico della statistica test, con un termine di riferimento che dipende:

dal tipo di distribuzione della statistica test

dal livello di significatività

il livello di significatività alfa è anche detto errore del 1 tipo ( rischio di prima specie) e consiste nella probabilità di commettere errore, rifiutando l’ipotesi nulla quando questa è vera nella realtà.

il valore di alfa è stabilito dal ricercatore e solitamente ha un valore di 0.05, che vuol dire che l’operatore accetta la probabilità di commettere un errore non superiore al 5% qualora rifiutasse l’ipotesi nulla.

rifiutare l’ipotesi nulla vorrebbe dire che la diversità fra i dati campionari è statisticamente significativa. quindi alfa è la percentuale massima che la differenza osservata sia casuale.

A seconda del livello di significatività scelto, sulla curva si individuano dei limiti sull’asse delle ascisse.

Le zone esterne ai limiti sono dette zone di rifiuto dell’ipotesi nulla, cioè è bassa la probabilità che l’ipotesi nulla sia vera nella popolazione.

le zone interne sono quelle di non rifiuto dell’ipotesi nulla, vale a dire che hanno una alta probabilità che l’ipotesi nulla sia vera nella popolazione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

in cosa consiste l’errore beta di secondo tipo?

A

consiste nella probabilità di accettare l’ipotesi nulla che nella realtà invece è falsa.

cioè accettare l’uguaglianza di due trattamenti quando in realtà sono diversi.

è determinato dall’operatore e solitamente è maggiore di alfa ma comunque piccolo, circa il 20%. beta è la percentuale di errore del test statistico, di non riconoscere una differenza significativa realmente presente nella popolazione.

beta è anche detta percentuale di falsi negativi per il test statistico

si verifica per campioni di piccole dimensioni.

la grandezza dell’errore beta dipende quindi dalla numerosità campionaria: più è piccola n maggiore è beta. Abbiamo detto poi che maggiore è beta, minore è la potenza del test. Più grande è la grandezza del campione, maggiore è la potenza del test.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

cosa è la potenza del test?

A

è pari al complementare di 1 - beta

è la probabilità di rifiutare l’ipotesi nulla H0 quando è vera quella alternativa.

ovvero la probabilità con cui il test individua delle differenze statisticamente significative fra i dati campionari a confronto che sono reali nella popolazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

cosa succede se provo a diminuire l’errore di primo tipo

A

s esposto alfa a 0.01 succede che aumenta la probabilità del test di non vedere una differenza fra i due dati in analisi.

al ridursi di alfa aumenta beta e viceversa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Cosa è il pvalue ?

A

corrisponde alla probabilità, cioè all’area nella curva sottesa nella coda, a partire dai valori di statistica test trovati.

esprime la probabilità effettiva che la differenza osservata nei campioni sia dovuta solo al caso.

se ad esempio in un test in cui si è posto alfa uguale a 0.05, si trova un pvalue di 0.03, vuol dire che si è rifiutati l’ipotesi nulla.

quindi vuol dire che la probabilità che la differenza sia dovuta al caso è del 3%.

più piccolo è il valore di p, più è precisa la decisione statistica, ovvero minori sono le probabilità che le differenze siano dovute al caso.

questo vuol dire che ripetendo l’esperimento con campioni diversi, si otterranno gli stessi risultati. Questo se p< 0.01

se p > 0.1 implica invece che soltanto il caso può realmente spiegare la differenza osservata, che non sarà statisticamente significativa.

p< indica la probabilità di una conclusione falsamente positiva ( nell’esempio un trattamento risulta migliore dall’altro quando nella realtà della popolazione non lo è.)

è il più basso livello di significatività al quale l’ipotesi nulla può essere respinta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

cosa si intende per differenza statisticamente non significativa?

A

è una differenza che non è soltanto attribuibile al caso

infatti in questo caso è importante considerare il campione

il risultato di una differenza non statisticamente significativa non conclusivo, ecco perchè si parla più di non rifiuto che di accettazione dell’ipotesi nulla.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

cosa accade alla significatività nel caso di campioni numerosi?

A

dal punto di vista clinico non è detto che una differenza significativa, lo si anche in ambito medico

con campioni molto numerosi, piccolissime differenze, che possiedono poca o nessuna importanza clinica, possono rivelarsi significative

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

a cosa serve il test di fischer?

A

serve a confrontare campioni indipendenti:

è il test di verifica dell’omogeneità delle varianze.

anche qui si pone una ipotesi nulla dove la varianza 1 è uguale alla varianza 2.

F è pari a stima della deviazione standard più grande al quadrato diviso la stima della deviazione standard 2 al quadrato.

la distribuzione di fischer ha una curva a destra più lunga quindi è asimmetrica e positiva. essa dipende dai gradi di libertà di numeratore e denominatore.

l’errore alfa quindi va a trovarsi in suna sola coda ed è quindi fisso.

f sarà il valore che lascia a destra un’area pari a 0.05.

cerco il valore tabulato di f con n1-1 ed n2-2

nelle colonne ci saranno i gradi di libertà del numeratore nelle righe ci saranno i gradi di libertà del denominatore.

più le varianze sono omogenee, più sono simili, più il rapporto si avvicina ad 1, più f rientrerà nella zona di accettazione dell’ipotesi nulla.

se le varianze sono omogenee quindi fcalcolato è minore di ftabulato, allora posso calcolare la devianza pooled.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Il test della somma dei ranghi o di Wilcoxon

A

si usa quando non è possibile fare nessuna assunzione riguardo alla distribuzione della variabili ( che quindi non segue nè una binomiale nè una gauss)

di conseguenza non si conoscono nè media nè deviazione standard.

Questo test si basa sulla mediana, che è un indice di posizione, ci permette di fare test tra campioni INDIPENDENTI.

Questo test si dice non parametrico.

nelle ipotesi, pongo mediana 1 = mediana 2

si crea un campione combinato mettendo dei segni per ricordarsi a quale gruppo appartengono i valori.

successivamente si creano i ranghi, cioè si assegna una posizione alle osservazioni, ordinate precedentemente in maniera crescente.

a valori uguali dei ranghi si assegna ad entrambi la media dei due ranghi come se fossero diversi.

se le variabile è realmente differente, le osservazioni si stratificano, cioè quelle appartenenti ad un gruppo si trovano nella prima parte e quelle dell’altro nelle seconda parte della graduatoria.

si sommano allora i ranghi dei rispettivi gruppi ottenendo 2 somme di ranghi. Avremo una somma dei ranghi maggiore e una somma dei ranghi minore.

si stabilisce una soglia oltre cui le osservazioni sono stratificate o no.

si stabilisce poi l’accettazione o il rifiuto dell’ipotesi nulla.

si osservano le tavole di wilcoxon, se il valore, si ottiene un untervallo e se la somma dei ranghi del campione con numerosità minore cade fuori dall’intervallo si rifiuta l’ipotesi nulla.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

confronto di due medie per campioni non indipendenti

A

in questo caso si tratta della stessa popolazione, quindi campioni appaiati.

quindi sono misurazioni effettuate sullo stesso paziente, più volte.

bisognerà considerare le differenze fra la prima e la seconda misurazione

quello che si va a verificare è quindi la media delle differenze, cioè si calcolano il valore delle differenze e poi si divide per il numero delle differenze.

si può poi calcolare la stima della deviazione standard delle differenze chè è pari allo scostamento della differenza dalla media delle diferenze tutto al quadrato diviso i gradi di libertà ovvero n-1.

17
Q

confronto fra medie in campioni appaiati, con distribuzione ignota

A

si usa il test di wilcoxon, solo che si assegnano i ranghi in base al segno positivo o negativo

se le differenze avessero tutte lo stesso segno, avremmo una somma dei ranghi nulla ed una massima.

in questa situazione la dieta è efficace

ad esempio la somma dei ranghi di segno positivo è 8.5

la somma dei ranghi con segno negativo è 69.5

confronto allora con l’intervallo tabulato che in questo caso è tra 13 e 65 quindi i valori cadono all’esterno e si può rifiutare l’ipotesi nulla.

le differenze nulle si escludono dal campione

18
Q

confronto fra più medie, il metodo dell’analisi della varianza.

A

se ad esempio voglio confrontare i risultati di una dieta su 4 gruppi di cavie con 4 trattamenti diversi. Si potrebbe effettuare un confronto a due a due, ma sarebbe necessario fare più test per cui si sommerebbero gli errori di ciascun test ottenendo un errore complessivo molto maggiore, quindi si usa un altro procedimento.

il metodo utilizzato si chiama analisi della varianza

viene indicato il peso di una cavia come yij dove i sta per il gruppo e j sono le osservazioni

bisogna assumere che tutte le medie sono uguali

nell’ipotesi alternativa invece, basta dire che almeno 2 medie siano diverse fra loro.

viene allora analizzata la variabilità. dismostrando l’ipotesi alternativa è come se si dicesse che è il trattamento ad indurre tale variabilità.

in poche parole si valutano i singoli scostamenti dei valori, dalla media totale.

la devianza totale con n-1 gradi di libertà sarà uguale allora alla devianza entro gruppi che ha n-k ( numero gruppi) gradi di libertà, + la devianza fra gruppi con il numero di gruppi meno 1 gradi di libertà.

tutti questi elementi vanno elevati al quadrato perchè se si facesse la somma di tutti gli scostamenti questa tenderebbe a 0.

nella formula della devianza totale allora la devianza fra gruppi cioè quella dei gruppi dalla media totale, deve essere pari a 0 secondo l’ipotesi nulla.

la devianza entro gruppo rappresenta quindi la variabilità biologica.

ora bisogna valutare quali delle due variabilità prevalgono relativamente al problema mostrato.

allora le due varianze biologiche ed fra gruppi vanno confrontati mediante un test che è quello di fischer.

nella devianza totale i gradi di libertà sono n-1

nella devianza entro gruppo i gradi di libertà sono n-k, infatti esso contiene 2 sommatorie, una per n ed una per k

nella varianza tra gruppi si ricavano scostamenti ,, ci sono scostamenti quanti sono i gruppi.

a questo punto possiamo capire quale delle due varianze prevale, con il test di fischer

quindi devo considerare sia i gradi di libertà del numeratore sia quelli del denominatore

nella varianza tra gruppi è k-1

nella varianza tra gruppi è n-k

se f calcolato è maggiore del valore soglia allora si rifiuta l’ipotesi nulla.

tutto ciò è discusso in una tabella ANOVA.

nella colonna delle varianze, si potrebbe trovare SSQ che vuol dire sum of squares.

la varianza residua è pari alla varianza entro gruppi.

lo stesso valore per l devianza è chiamata devianza entro gruppi.

19
Q

a cosa serve il test di bartlett

A

in questo caso per verificare la omegeneità delle varianze, per effettuare quindi il test di fischer , si dimostra tramite questo test

esso afferma che i dati dei gruppi di osservazioni, devono avere varianze che devono risultare stime tutte della stessa varianza incognita nella popolazione.

l’ipotesi nulla affermsa quindi che le devianze sono tutte uguali.

questo tipo di test ha una distribuzione chi quadro con k-1 gradi di libertà.

20
Q

confronti multipli

A

se quindi si verifica il non rifiutare l’ipotesi nulla, bisogna capire quale delle medie è diversa.

dunque nascerebbe la necessità di fare i confronti a due a due.

allora ci sono due procedure:

LSD che sta per least significant difference ovvero minima differenza significativa di fischer, che esegue tutti i test t student.

oppure il metodo bonferroni, che è basato sulla costruzione di intervalli di confidenza sulla differenza fra le medie. esso stabilisce che 1-alfa è la probabilità che la differenza fra due generiche medie sia compresa in questo intervallo. Il test bonferroni stabilisce che se nell’intervallo non è compreso lo 0, le due medie potrebbero considerarsi diverse, quindi la loro differenza statisticamente significativa.

c’è un altro metodo chiamato test del campo di variazione di duncan, che però ha una elevata perdita di potenza .

21
Q

a cosa serve l’analisi della varianza non parametrica o di kruskal wallis?

A

quando non si può effettuare una valutazione riguardo la distribuzione di Gauss, si procede con questo test

l’ipotesi nulla viene definita sulle mediane, si definisce ogni medina di ogni gruppo uguale

i valori nelle tabelle devono essere aggregati in una unica serie di dati che devono essere ordinati in modo crescente. poi in base alla posizione occupata si stabilisce un valore da 1 ad n.

dopo aver assegnato i ranghi : numero più basso ha rango 1

ottengo la somma dei ranghi relativa a ciascun gruppo

la statistica test è una equazione di H

dove se h calcolato è minore di H tabulato, allora non rifiuterò l’ipotesi nulla.

se ci sono più di 5 osservazioni nei vari campioni allora H vine confrontato con i valori tabulati di chi quadro con n-1 gradi di libertà.

in presenza di osservazioni con medesimi valori, si utilizza una formula per H corretta

22
Q

verifica di ipotesi per una proporzione

A

quando ho una variabile quantitativa continua, posso lavorare slle medie, ma se la variabile è qualitativa si possono solo “contare “ le persone con una certa caratteristica, ma non la quantità di questa caratteristica.

p sarà la percentuale di malati ad esempio nella popolazione mentre p^ sarà la quantità di malati stimata.

ASSUNZIONI

si tratta di una distribuzione binomiale

nel caso ni n che tende ad infinito e p= 0.5 si può approssimare ad una Gauss.

faccio quindi l’ipotesi nulla ovvero p=p0 dove P0 è in questo caso pari a o.5

l’ipotesi alternativa sarà quella della diversità

la statistica test sarà un test zeta dove zeta calcolato è variabile meno media diviso deviazione standard.

in questo caso poichè deriva da una binomiale la media sarà n per p0 -1/2 che è un fattore di correzione.

al di sotto è presente la radice di np per 1 -p0 ovvero la devianza.

23
Q

verifica di ipotesi per 2 proporzioni

A

considero di voler valutare due percentuali in due popolazioni indipendenti:

qui la variabile ha distribuzione binomiale, ma viene approssimata ad una gauss

la formula della statistica test cambia

nelle ipotesi pongo l’ipotesi nulla dove p1 =p2

se nella formula di una proporzione si è lavorato solo su un valore, ora si usa nella formula X1/ n1 e X2 /n2 quindi le proporzioni nei due campioni

tuttavia può succedere che la distribuzione non possa essere assimilata ad una Gauss allora si usa un metodo semiparametrico.
I dati vengono messi nella tabella di contingenza del chi quadro.

l’ipotesi nulla così come quella alternativa rimangono uguali, tuttavia la formula dello statistica test chi quadro cambia.

al numeratore compare inoltre un fattore di correzione per la continuità di Yates. Questo quando la dimensione del campione è più piccola di 30 oppure si ha una frequenza minore di 5.

si confrontano chi quadro calcolato con chi quadro tabulato con grado di libertà uno per le tabelle 2x2. quando il valore calcolato è maggiore allora si rifiuta l’ipotesi nulla.

24
Q
A