Inferenza E Verifica Di Ipotesi Flashcards
Scopo dell’inferenza statistica
Stima come sarebbero i risultati della popolazione target se fossimo in grado di studiare ogni singolo soggetto.
Questo tipo di indagine implica una probabilità di errore.
L’obiettivo quindi è quello di trovare, con un determinato livello di confidenza, all’interno di quali valori si troverà la media reale della popolazione della variabile misurata.
Si passa quindi dalla distribuzione dei risultati del campione, che rappresenta il numero di osservazioni che possiedono ciascuno dei possibili valori della variabile, ad una distribuzione che rispecchia la probabilità che ciascuna delle possibili medie sia la Reale media della popolazione
Cos’è l’intervallo di confidenza
I valori entro i quali si trova con una determinata probabilità la Reale media della popolazione
Cos’è l’errore standard della media
È la deviazione standard fratto la radice quadrata del numero delle osservazioni
Intervallo di confidenza 68%
Media della popolazione più o meno un errore standard della media
Intervallo di confidenza al 95%
Media della popolazione più o meno 2 errori standard della media
Intervallo di confidenza al 99%
Media della popolazione più o meno 2,5 errori standard della media
Inferenza statistica per variabili qualitative
In tal caso l’obiettivo e’ stimare con un determinato livello di confidenza all’interno di quali livelli si troverà la percentuale reale della popolazione della categoria della variabile misurata
Cos’è la verifica di ipotesi
Confronto dei risultati di varie popolazioni fra loro al fine di realizzare un inferenza demografica a partire da campioni ottenuti per ciascuna popolazione
come nel caso dell’inferenza statistica anche in tal caso esiste una probabilità di errore
Ipotesi h0 e h1
L’ipotesi h0 viene anche definita ipotesi nulla ed è quella che riflette la situazione precedente al test. Negli studi di correlazione afferma che non vi è associazione tra due variabili
L’ipotesi h1 rappresenta invece l’ipotesi alternativa che se viene accettata comporta una modifica dello stato esistente. Negli studi di correlazione afferma che esiste un associazione tra le variabili analizzate
Errore Alfa ed errore beta
L’errore Alfa consiste nel supporre un’associazione quando questa non esiste
L’errore beta consiste nel non incontrare un’associazione quando in realtà esiste
Disegno di superiorità
L’obiettivo è sapere se un intervento A sia migliore di un intervento B o se sia migliore quest’ultimo
L’ipotesi h0 presuppone quindi l’uguaglianza di A e B mentre h1 è la differenza tra A e B
Necessaria quindi una verifica di ipotesi bidirezionale o a due code
Disegno di non inferiorità
L’obiettivo e’ stabilire se un intervento sperimentale A non sia peggiore di un altro esistente B
H0 rappresenta l’inferiorità di A rispetto a B
H1 rappresenta invece una condizione nella quale A e’ non minore di B
in tal caso è necessario una verifica di ipotesi monodirezionale o ad una coda perché l’unico dato ti interessa escludere l’inferiorità di a rispetto a B
Cos’è il limite di non inferiorità Delta
Viene utilizzato nelle analisi di non inferiorità ed è ill valore a partire del quale si considera che l’intervento sperimentale sia inferiore a quello esistente
Se scegli un valore abitario pari al 20%
quindi ad esempio un farmaco sperimentale deve conseguire un beneficio pari al 80% di quello associato all’intervento di controllo per non essere considerato inferiore
Disegno di equivalenza terapeutica
L’obiettivo è stabilire se l’intervento sperimentale A sia simile ad un intervento esistente B. Non deve essere né migliore ne peggiore deve produrre un effetto terapeutico equivalente
Esempio di disegno di equivalenza terapeutica
L’esempio classico è rappresentato dagli studi di bioequivalenza che si utilizzano per autorizzare l’immissione in commercio di farmaci generici attraverso il confronto delle relative proprietà farmacocinetiche con gli originali
L’ipotesi nulla in tal caso è che due farmaci non siano bioequivalenti
come nell’analisi di non inferiorità l’obiettivo è di stabilire dei limiti per definire il quadro di equivalenza. Tali valori sono stabiliti in un più o meno 20 % dell’effetto del farmaco
Definizione di errore Alfa
È la probabilità di rifiutare l’ipotesi nulla essendo questa vera cioè l’errore che si commette quando le differenze osservate sono in realtà riconducibili al caso
Cos’è il livello di significatività statistica
È la probabilità di commettere l’errore Alfa
Cos’è il valore p
La probabilità che si stia commettendo un errore Alfa
Quando si parla di significatività statistica
Il valore di p deve essere inferiore a 0,05. In tal caso si accetta h1 e si rifiuta h0
Viceversa non si accetta h1 e non si rifiuta h0
Cos’è l’errore beta
Probabilità di non rifiutare l’ipotesi nulla essendo falsa
Di norma deve essere inferiore al 20%
Comunque spesso l’errore beta non si calcola e non si considera
Potenza statistica
È la probabilità di rifiutare l’ipotesi nulla quando è falsa.
È pari ad 1 meno beta
in sostanza per i vari studi epidemiologici si richiede che la potenza statistica minima sia pari al 80%
Relazione tra errori alfa e beta ed il caso
Sono errori casuali cioè puramente dipendenti dal caso
In quanto tali si risolvono aumentando le dimensioni del campione
Criteri che è necessario conoscere per scegliere il test di verifica delle ipotesi
Se la variabile analizzata e’ quantitativa o qualitativa
Se il confronto riguarda i risultati ottenuti di tale variabile in gruppi diversi parleremo di ‘dati dipendenti’, se la variabile è stata analizzata in uno stesso gruppo ma in tempi diversi parleremo di ‘dati accoppiati’
Test per variabili quantitative
Di norma associati ad una Maggiore Potenza statistica rispetto a quelli usati per le variabili qualitative
Abbiamo due tipologie di test per le variabili quantitative:
Parametrici. se la variabile segue una distribuzione normale o se il numero di osservazione è superiore a 30 benché la distribuzione non sia normale.
Non parametrici. se il numero di osservazioni è inferiore a 30 e se la variabile non segue una distribuzione normale
I parametrici hanno una Maggiore Potenza statistica rispetto ai non parametrici
Test di verifica delle ipotesi utilizzati per variabili qualitative ordinali
In tal caso possiamo utilizzare solamente test non parametrici
Chi quadro
Distribuzione più usata nelle tecniche statistiche per l’analisi delle variabili qualitative e per la verifica delle ipotesi con dati disponibili sotto forma di frequenze.
le frequenze osservate sono numero di soggetti che nel nostro campione cadono nelle diverse categorie per la variabile di interesse
Le frequenze attese sono il numero di soggetti che ci aspetteremo di osservare in una determinata categoria se una qualche ipotesi nulla circa la variabile fosse vera
Anova
Tecnica con cui la variazione totale presente in un insieme di dati viene scomposta in differenti componenti.
Ad ognuna delle componenti viene associata una fonte di variabilità specifica in modo da poter attribuire ad ognuna di queste fonti il loro contributo rispetto alla variabilità totale
Obiettivo dei test per studi di associazione tra variabili
In questo caso l’obiettivo è dimostrare se la modificazione eventualmente prodotta in una o più variabili definite indipendenti (x) influiscono sul valore che assumono altre variabili definit e y.
Mirano inoltre a quantificare tale influenza
Regressione
Volta ad esprimere l’associazione esistente tra due variabili mediante un’equazione che mostra in che modo la variabile y varia in funzione della variabile x.
tramite tali equazioni si può anche prevedere il valore che assumerà la variabile y il rispetto alla variabile x
Quando si parla di regressione univariata o semplice
Se esiste solo una variabile indipendente
Quando si parla di regressione multivariata
Se esistono due o più variabili indipendenti x
A cosa è utile l’analisi multivariata
Utili ad evitare distorsioni dovute ad un fattore confondente
Tipologie di regressione
Regressione logistica se la variabile y è qualitativa
Regressione lineare se la variabile y e quantitativa
Correlazione
La correlazione mediante un coefficiente di correlazione esprime la percentuale delle modifiche osservate nella variabile y dovute alle modifiche osservate nella variabile x
Esprime quindi la forza dell’associazione
Test di correlazione più utilizzati
Quelli più usati riguardano variabili quantitative
Abbiamo il coefficiente r di Pearson che è un test parametrico che misura il grado di correlazione lineare tra le variabili. Si usa quando le due variabili hanno una distribuzione normale o il numero di osservazioni è superiore a 30 e non esclude altri tipi di correlazioni diversi dalla lineare
Coefficiente p di spearman che è un test non parametrico che si usa quando le variabili seguono una distribuzione anomala e il numero di osservazioni inferiore a 30
Significato del segno di coefficiente di correlazione
Se è positivo la correlazione direttamente proporzionale
Se negativo la correlazione è inversamente proporzionale
Significato del valore assoluto del coefficiente di correlazione
Se superiore a 0,7 la correlazione a Forte
Se inferiore a 0,7 è debole
Se è pari a zero la correlazione è assente
Analisi di sopravvivenza
Si impiega quando nell’ambito di uno studio epidemiologico la variabile di risposta è il tempo che trascorre fino al verificarsi di un evento di interesse come il decesso, la guarigione o la comparsa di malattia
Quindi le variabili analizzate sono da una parte quantitative, ossia il tempo trascorso, e da un lato qualitative, ossia la comparsa o meno di un evento
Quando si parla di osservazione incomplete o censurate
Quando il tempo di monitoraggio di alcuni pazienti termina prima del verificarsi dell’evento di interesse
Principali test statistici utilizzati nell’analisi di sopravvivenza
Sono test non parametrici
Caplan Meyer per le curve di sopravvivenza
Test dei ranghi logaritmici
Modello di regressione di Cox per calcolare La regressione
Hazard Ratio
consente di calcolare il grado di associazione esistente tra un determinato fattore di rischio o protezione e un evento di interesse
Si può calcolare mediante un’analisi di sopravvivenza confrontando due gruppi di soggetti
Nello specifico l’hazard ratio è il quoziente fra il rischio che un soggetto del gruppo sperimentale ha di sviluppare l’evento di interesse rispetto a un soggetto del gruppo di controllo per ciascuna unità di tempo
Differenza tra il rischio relativo El Hazard Ratio
Il rischio relativo valuta il rischio cumulato nel corso dell’intero studio mentre l’HazardRatio analizza il rischio istantaneo per ciascuna unità di tempo
cioè in sostanza la Hazard ratio analizza le probabilità di sviluppo dell’evento nel successivo istante di tempo