Statistica Flashcards
Cos’è la statistica e come si suddivide?
è una disciplina che si occupa di studiare metodi finalizzati alla conoscenza quantitativa e qualitativa dei fenomeni collettivi mediante la raccolta, la sintesi l’analisi dei dati.
- descrittiva: presentazione, organizzazione e sintesi dei dati relativi ad una popolazione oggetto di studio (campione)
- inferenziale: generalizzazione dei risultati osservati sul campione all’intera popolazione utilizzando la teoria della probabilità
Definizione di popolazione, unità statistica e campione
- popolazione (target): insieme di individui o unità di interesse per la ricerca e che hanno delle caratteristiche osservabili comuni
- unità statistiche: ogni individuo o elemento della popolazione target
- campione: sottoinsieme della popolazione target che è rappresentativo dell’intera popolazione
Definizione variabile, parametro della popolazione, dato
- variabile: qualsiasi caratteristica che può differire tra le unità statistiche della popolazione e che può essere osservata (p.e. sesso, età)
- parametro della popolazione: caratteristica numerica relativa ad una variabile della popolazione (p.e., %di F o M, età media)
- dato: valore osservato di una variabile in un individuo del campione (p.e., i valori di sesso ed età di un pz dello studio sono dati)
Definizione variabile, parametro della popolazione, dato
- variabile: qualsiasi caratteristica che può differire tra le unità statistiche della popolazione e che può essere osservata (p.e. sesso, età)
- parametro della popolazione: caratteristica numerica relativa ad una variabile della popolazione (p.e., %di F o M, età media)
- dato: valore osservato di una variabile in un individuo del campione (p.e., i valori di sesso ed età di un pz dello studio sono dati)
Classificazione delle variabili
CATEGORICHE (QUALITATIVE)
- nominale: esprime una qualità con un aggettivo/sostantivo (non c’è un ordine intrinseco, solo estetico)
- ordinale: valori/categoriche hanno un ordine intrinseco (p.e., livello di soddisfazione basso, medio, alto)
- dicotomica: variabile nominale con sole due possibilità
N.B. le categoria devono essere mutualmente esclusive
N.B. nei database i valori delle var. categoriali sono spesso codificati da valori numerici -> bisogna considerare il significato dei numeri.
p.e., livello di soddisfazione 1=basso, 2=medio, 3=alto
anche se sono rappresentati “esteticamente” da numeri, rappresentano 3 categorie (basso, medio, alto) e sono quindi variabili categoriali e non numeriche!!!
NUMERICHE (QUANTITATIVE)
- discreta: la variabile assume un numero finito di valori numerici o rappresenta un conteggio (p.e., FC)
- continua: variabile può assumere un qualsiasi valore all’interno di un intervallo (p.e, pressione sistolica, età…)
N.B. una variabile numerica può essere trasformata in una variabile categorica dividendo l’intervallo dei suoi possibili valori in due o più sottointervalli (p.e., età < 30, tra 30-60 e >60)
VARIABILI CATEGORICHE
CATEGORICHE (QUALITATIVE)
- nominale: esprime una qualità con un aggettivo/sostantivo (non c’è un ordine intrinseco, solo estetico)
- ordinale: valori/categoriche hanno un ordine intrinseco (p.e., livello di soddisfazione basso, medio, alto)
- dicotomica: variabile nominale con sole due possibilità
N.B. le categoria devono essere mutualmente esclusive
N.B. nei database i valori delle var. categoriali sono spesso codificati da valori numerici -> bisogna considerare il significato dei numeri.
p.e., livello di soddisfazione 1=basso, 2=medio, 3=alto
anche se sono rappresentati “esteticamente” da numeri, rappresentano 3 categorie (basso, medio, alto) e sono quindi variabili categoriali e non numeriche!!!
VARIABILI NUMERICHE
NUMERICHE (QUANTITATIVE)
- discreta: la variabile assume un numero finito di valori numerici o rappresenta un conteggio (p.e., FC)
- continua: variabile può assumere un qualsiasi valore all’interno di un intervallo (p.e, pressione sistolica, età…)
N.B. una variabile numerica può essere trasformata in una variabile categorica dividendo l’intervallo dei suoi possibili valori in due o più sottointervalli (p.e., età < 30, tra 30-60 e >60)
DISTRIBUZIONE DI FREQUENZA
La distribuzione di frequenza di una variabile rappresenta quante volte un dato valore (o intervallo di valori) viene osservato nel campione
FREQUENZA RELATIVA: è più indicativa della frequenza assoluta perchè mette in relazione la frequenza con il totale
Fre. relativa=frequenza/n.totale di osservazioni
(il totale della frequenza relativa è 1, il totale della frequenza assoluta è il numero delle osservazioni)
N.B. soprattutto per le variabili numeriche, si possono raggruppare i dati in CLASSI DI INTERVALLO DISGIUNTE (un valore può essere assegnato solo ad una classe)
FREQUENZA RELATIVA
è più indicativa della frequenza assoluta perchè mette in relazione la frequenza con il totale
Fre. relativa=frequenza/n.totale di osservazioni
(il totale della frequenza relativa è 1, il totale della frequenza assoluta è il numero delle osservazioni)
N.B. soprattutto per le variabili numeriche, si possono raggruppare i dati in CLASSI DI INERVALLO DISGIUNTE (un valore può essere assegnato solo ad una classe)
RAPPRESENTAZIONE GRAFICA DELLE VARIABILI
VARIABILI CATEGORICHE
- Diagramma o grafico a barre
- Diagramma o grafico a torta
VARIABILI NUMERICHE
- istogramma (la distribuzione può essere simmetrica o asimmetrica con le code)
MISURE DI TENDENZA CENTRALE
Una misura (o indice) di tendenza centrale è un valore che rappresenta il centro della distribuzione, ossia un valore attorno al quale si concentrano più osservazioni.
- MEDIA: media aritmetica delle osservazioni = somma delle osservazioni divisa per il numero delle osservazioni
- MEDIANA: valore che occupa la posizione centrale tra le osservazioni ordinate
posizione centrale:
> n. pari = media dei valori che hanno la posizione attorno a n+1/2
> n. dispari= n+1/2 - MODA: valore con la maggiore frequenza. possono esserci più mode o 0 mode se tutti i valori hanno la stessa frequenza.
N.B. SE DISTRIBUZIONE SIMMETRICA: MEDIA E MEDIANA COINCIDONO
SE DISTR. ASIMMETRICA: MEDIA TENDE VERSO I VALORI DELLA CODA.
SE CODA A DESTRA MEDIA>MEDIANA
SE CODA A SINISTRA MEDIA
RELAZIONE TRA INDICI DI TENDENZA CENTRALE E VARIABILI
MEDIA: solo per var. numeriche (no nominale o ordinale)
MEDIANA: per var. numeriche e categoriche ordinali
MODA: per tutte
MEDIA E MEDIANA A SECONDA DELLA DISTRIBUZIONE SIMMETRICA-ASIMMETRICA
N.B. SE DISTRIBUZIONE SIMMETRICA: MEDIA E MEDIANA COINCIDONO
SE DISTR. ASIMMETRICA: MEDIA TENDE VERSO I VALORI DELLA CODA.
SE CODA A DESTRA MEDIA>MEDIANA
SE CODA A SINISTRA MEDIA
PERCENTILI E QUARTILI
sono indici di posizione.
PERCENTILI: il P-esimo percentile è il valore al di sotto del quale è compreso il P% delle osservazioni ordinate (p.e., 80esimo percentile=80% delle osservazioni è al di sotto delle osservazioni)
QUARTILI: data una sequenza ordinata di dati, i quartili dividono la sequenza in 4 parti uguali
Q1= valore al di sotto del quale è compreso 1/4 delle osservazioni (25esimo percentile)
Q2= valore al di sotto del quale è compreso 2/4 (1/2) delle osservazioni (50esimo percentile e mediana)
Q3= valore al di sotto del quale è compreso 3/4 delle osservazioni (75esimo percentile)
QUARTILI
QUARTILI: data una sequenza ordinata di dati, i quartili dividono la sequenza in 4 parti uguali
Q1= valore al di sotto del quale è compreso 1/4 delle osservazioni (25esimo percentile)
Q2= valore al di sotto del quale è compreso 2/4 (1/2) delle osservazioni (50esimo percentile e mediana)
Q3= valore al di sotto del quale è compreso 3/4 delle osservazioni (75esimo percentile)
PERCENTILI
PERCENTILI: il P-esimo percentile è il valore al di sotto del quale è compreso il P% delle osservazioni ordinate (p.e., 80esimo percentile=80% delle osservazioni è al di sotto delle osservazioni)
n. di osservazioni minori/n totale di osservazioni
BOXPLOT + DISTRIBUZIONI SIMMETRICHE/ASIMMETRICHE
Boxplot: visualizza min, max e quartili di una variabile
la scatola è costruita in modo che contenga ce il 50% delle osservazioi.
se si utilizza un software e si identificano degli outlier, gli estremi dei segmenti all’esterno della scatola non sono più min e max delle osservazioni.
la linea centrale del box=mediana (Q2)
distribuzione simmetrica: Q1 e Q3 sono circa alla stessa distanza dalla mediana e la scatola è centrata tra i due estremi
distribuzione asimmetrica: Q1 e Q3 hanno diversa distanza dalla mediana Q2 e la scatola non è centrata tra i due estremi.
se coda a dx: distanza tra Q3 e Q2 è maggiore della distanza tra Q1 e Q2 e scatola più vicina all’estremo inferiore
MISURE DI DISPERSIONE
Le misure di dispersione sono valori che rappresentano la variabilità dei valori di una variabile e sono:
- RANGE O CAMPO DI VARIAZIONE = max - min
- DIFFERENZA INTERQUANTILE = Q3-Q1
- VARIANZA (S2) E DS (S)
N.B.
range risente dell’asimmetria della distribuzione o della presenza di outlier perchè considera i valori estremi;
la differenza interquartile non risente n’ dell’eventuale forma asimmetrica della distribuzione nè della presenza degli outlier
S2 e DS risentono dell’asimmetria della distribuzione o della presenza di outlier perchè considerano tutte le osservazioni
VARIANZA E DEVIAZIONE STANDARD
VARIANZA: calcola lo scostamento dei singoli valori dalla media aritmetica
S^2= Sommatoria (Xi-media)^2/n-1
(Xi-media)^2=SCARTO= scostamento di una qualsiasi osservazione dalla media
DEVIAZIONE STANDARD: indica quanto, mediamente, ciascun elemento è lontano dal valore medio (è la media degli scostamenti) -> scarto quadratico medio
S=radice della varianza
N.B. S2 e DS risentono dell’asimmetria della distribuzione o della presenza di outlier perchè considerano tutte le osservazioni
COS’E’ LA TEORIA DELLA PROBABILITA’?
la teoria della probabilità è l’insieme dei metodi matematici che permette di studiare e descrivere i fenomeni aleatori (risultato non prevedibile con certezza) quantificando l’incertezza (probabilità) che si verifichi un determinato evento.
la teoria della probabilità di basa su tre concetti:
- esperimento: qualsiasi processo di osservazione o misurazione di un fenomeno aleatorio (esperimento=prova casuale)
- evento
- probabilità
L’ESPERIMENTO GENERA L’EVENTO CON UNA DETERMINATA PROBABILITA’
COS’E’ LO SPAZIO CAMPIONARIO
Lo spazio campionario S è l’insieme di tutti i possibili eventi
S= {E u Ē}
Ē = evento complementare = il contrario di un evento E
La P(S)=1
EVENTI ELEMENTARI, EVENTI COMPOSTI, EVENTI CERTI E EVENTI IMPOSSIBILI, EVENTI COMPLEMENTARI
EVENTI ELEMENTARI: singoli risultati di un esperimento
EVENTI COMPOSTI: insieme di più ev. elementari
EVENTI CERTI: si verifica sepre in quanto comprende tutti i possibili risultati (p.e., il bambino è M o F)
EVENTI IMPOSSIBILI: non può mai verificarsi
EVENTO COMPLEMENTARE: Contrario di un evento E
N.B. GLI EVENTI ELEMENTARI SONO, PER DEFINIZIONE, INCOMPATIBILI
N.B. UN EVENTO E IL SUO COMPLEMENTARE SONO, PER DEFINIZIONE, INCOMPATIBILI
EVENTI ELEMENTARI
EVENTI ELEMENTARI: singoli risultati di un esperimento
N.B. UN EVENTO E IL SUO COMPLEMENTARE SONO, PER DEFINIZIONE, INCOMPATIBILI
EVENTI COMPOSTI
EVENTI COMPOSTI: insieme di più ev. elementari
EVENTI CERTI ED EVENTI IMPOSSIBILI
EVENTI CERTI: si verifica sepre in quanto comprende tutti i possibili risultati (p.e., il bambino è M o F)
EVENTI IMPOSSIBILI: non può mai verificarsi
EVENTO COMPLEMENTARE
EVENTO COMPLEMENTARE Ē : Contrario di un evento E
N.B. GLI EVENTI ELEMENTARI SONO, PER DEFINIZIONE, INCOMPATIBILI
P(Ē) = 1 - P(E) - REGOLA DELL’EVENTO COMPLEMENTARE
UNIONE DI EVENTI
L’UNIONE DI DUE EVENTI A e B (AuB) è l’evento i cui risultati sono tutti i risultati inclusi in A o B (o entrambi)
INTERSEZIONE DI EVENTI
L’INERSEZIONE DI DUE EVENTI A e B (A∩B) è l’evento i cui risultati sono tutti i risultati inclusi sia in A che in B
Se A e B sono incompatibili -> P(A∩B)=∅
come si calcola la probabilità di eventi incompatibili?
P (x) di eventi incompatibili=somma delle probabilità dei singoli eventi
Le 3 definizioni della probabilità
-CLASSICA: casi favorevoli/casi possibili
tutti gli eventi elementari sono considerati con la stessa probabilità di verificarsi
-FREQUENTISTA: n. di volte in cui l’evento si è verificato/n. di esperimenti
considera la frequenza relativa con cui l’evento si è già verificato nelle esperienza precedenti (l’esperimento dovrebbe esser ripetibile un numero illimitato di volte nelle stesse condizioni)
- SOGGETTIVISTA: si basa sulle proprie conoscenze/opinioni o informazioni
REGOLA DELL’EVENTO COMPLEMENTARE
P(Ē) = 1 - P(E)
P(E) + P(Ē) = P (EUĒ) = P(S) = 1
per lo stesso ragionamento: P(∅) = 0 perchè:
P(∅) = 1 - P(S) = 1-1 = 0
REGOLA ADDITIVA
P
REGOLA ADDITIVA
P(AUB) = P(A) + P(B) - P(A∩B)
da ciò segue la regola delle probabilità totali (caso di 2 eventi):
P(A)=P(A∩B) + P(A∩B ̅)
REGOLA DELLE PROBABILITA’ TOTALI
regola delle probabilità totali (caso di 2 eventi):
P(A)=P(A∩B) + P(A∩B ̅)
COSA SONO LE TABELLE DI CONTINGENZA?
Tabelle che riassumono i dati di 2 variabili categoriali.
ogni valore in una cella rappresenta la frequenza assoluta dei soggetti che hanno la caratteristica sulla riga e sulla colonna
ogni colonna rappresenta una variabile
TOTALE PER RIGA E PER COLONNA + FREQUENZA RELATIVA PER RIGA E COLONNA
Si calcola per le tabelle di contingenza
tot per riga: frequenza della variabile sulla riga
tot per colonna: frequenza della variabile sulla colonna
freq. relativa per riga: n. osservazioni nella cella/tot della riga
freq. relativa per colonna: n. osservazioni nella cella/tot della colonna
DISEGNA TABELLA DI CONTINGENZA DEL TEST DIAGNOSTICO
REGOLA DELLA PROBABILITA’ CONDIZIONATE
dati 2 eventi A e B, la probabilità di A condizionato B è la probabilità che accada A sapendo che è accaduto B
P(A|B) = P(A∩B) / P(B)
possiamo applicare la regola del complementare alla probabilità condizionata:
P(Ā|B) = 1 - (A|B)
N.B. non vale il contrario -> P(A|B ̅) ≠ P (A|B)
REGOLA DEL COMPLEMETARE APPLICATA ALLA PROBABILITA’ CONDIZIONATA
possiamo applicare la regola del complementare alla probabilità condizionata:
P(Ā|B) = 1 - (A|B)
N.B. non vale il contrario -> P(A|B ̅) ≠ P (A|B)
REGOLA DELLE PROBABILITA’ TOTALI CON PROBABILITA’ CONDIZIONATE
P(A)=P(A∩B) + P(A∩B ̅)
Le intersezioni possono essere ricavati con le probabilità condizionate:
P(A|B) = P(A∩B) / P(B) -> P(A∩B)=P(A|B) x P(B)
P(A|B ̅) = P(A∩B ̅) / P(B ̅) -> P(A∩B ̅)=P(A|B ̅) x P(B ̅)
TAB. DI CONTINGENZA:
PREVALENZA
SENSIBILITA’
SPECIFICITA’
VALORE PREDITTIVO POSITIVO
VALORE PREDITTIVO NEGATIVO
PREVALENZA: probabilità che una persona sia malata
P(M+) = nM+/n
SENSIBILITA’: probabilità che una persona malata risulti positiva al test
P(T+|M+) = P(T+∩M+)/M+ = VP/nM+
SPECIFICITA’: probabilità che una persona non malata risulti negativa al test
P(T-|M-) = P(T-∩M-)/M- = VN/nM-
VALORE PREDITTIVO POSITIVO: probabilità che una persona positiva al test sia veramente malata
P(M+|T+) = P(M+∩T+)/T+ = VP/nT+
VALORE PREDITTIVO NEGATIVO: probabilità che una persona negativa al test sia veramente non malata
P(M-|T-) = P(M-∩T-)/T- = VN/nT+
PREVALENZA
PREVALENZA: probabilità che una persona sia malata
P(M+) = nM+/n
SENSIBILITA’
SENSIBILITA’: probabilità che una persona malata risulti positiva al test
P(T+|M+) = P(T+∩M+)/M+ = VP/nM+
SPECIFICITA’
SPECIFICITA’: probabilità che una persona non malata risulti negativa al test
P(T-|M-) = P(T-∩M-)/M- = VN/nM-
VALORE PREDITTIVO POSITIVO
VALORE PREDITTIVO POSITIVO: probabilità che una persona positiva al test sia veramente malata
P(M+|T+) = P(M+∩T+)/T+ = VP/nT+
VALORE PREDITTIVO NEGATIVO
VALORE PREDITTIVO NEGATIVO: probabilità che una persona negativa al test sia veramente non malata
P(M-|T-) = P(M-∩T-)/T- = VN/nT+
TEOREMA DI BAYES + dimostrazione
Il teorema di Bayes permette di aggiornare la probabilità di avere la malattia sulla base del risultato del test diagnostico -> ATTRAVERSO IL TH DI BAYES AGGIORNIAMO I VALORI PREDITTIVI POST-TEST
VEDI DIMOSTRAZIONE DA QUADERNO
LA STIMA DELLA PREVALENZA P(M+) E’ REALISTICA?
La stima della prevalenza e dunque la frequenza relativa dei M+ è realistica se lo studio è prospettico.
se lo studio è caso-controllo si sceglie a priori il numero di soggetti M+ e M- da includere. La frequ. relativa dei M+ è non realistica a meno che non si scelga una proporzione casi-controllo che rispecchi quella della prevalenza nella popolazione
COME SI MODIFICANO I VALORI PREDITTIVI IN RELAZIONE ALLA PREVALENZA
a parità di sensibilità e specificità:
- VPP aumenta all’aumentare della prevalenza
- VPN diminuisce all’aumentare della prevalenza
a seconda del caso è preferibile usare una maggiore specificità o sensibilità.
A PARITA’ DI PREVALENZA, SI PREFERISCE UNA MAGGIORE SENSIBILITA’ SE:
1. le conseguenze di una mancata diagnosi sono particolarmente gravi
2. se si vuole avere una minore quota di FN (essere + sicuri che i negativi non siano malati)
se aumenta la sensibilità: aumentano i VP e diminuiscono i FN
A PARITA’ DI PREVALENZA, SI PREFERISCE UNA MAGGIORE SPECIFICITA’ SE:
1. identificazione di un FN porta a conseguenze fisiche, psicologiche o economiche particolarmente gravi
se aumenta la specificità: aumentano i VN e diminuiscono i FP
QUANDO PREFERIRE UNA MAGGIORE SENSIBILITA’ A PARITA’ DI PREVALENZA?
A PARITA’ DI PREVALENZA, SI PREFERISCE UNA MAGGIORE SENSIBILITA’ SE:
1. le conseguenze di una mancata diagnosi sono particolarmente gravi
2. se si vuole avere una minore quota di FN (essere + sicuri che i negativi non siano malati)
se aumenta la sensibilità: aumentano i VP e diminuiscono i FN
QUANDO PREFERIRE UNA MAGGIORE SPECIFICITA’ A PARITA’ DI PREVALENZA?
A PARITA’ DI PREVALENZA, SI PREFERISCE UNA MAGGIORE SPECIFICITA’ SE:
1. identificazione di un FN porta a conseguenze fisiche, psicologiche o economiche particolarmente gravi
se aumenta la specificità: aumentano i VN e diminuiscono i FP
COSA SONO I RAPPORTI DI VEROSOMIGLIANZA?
i LR (rapporti di versimiglianza) sono misure che permettono di valutare la bontà di un test diagnostico CONSIDERANDO CONTEMPORANEAMENTE LA SENSIBILITA’ E LA SPECIFICITA’ DEL TEST E INDIPENDENTEMENTE DALLA PREVALENZA!!!
UN BUON TEST HA LR+ ALTO E LR- BASSO
rapporto di verosomiglianza positivo (LR+)
LR+=sensibilità/1-specificità
se LR+>1 = P(T+) > nei M+ rispetto ai M-
rapporto di verosomiglianza negativo (LR-)
LR=1-sensibilità/specificità
se LR-<1 = P(T-) > nei M- rispetto ai M+
RAPPORTO DI VEROSOMIGLIANZA POSITIVO
rapporto di verosomiglianza positivo (LR+)
LR+=sensibilità/1-specificità
se LR+>1 = P(T+) > nei M+ rispetto ai M-
RAPPORTO DI VEROSOMIGLIANZA NEGATIVO
rapporto di verosomiglianza negativo (LR-)
LR=1-sensibilità/specificità
se LR-<1 = P(T-) > nei M- rispetto ai M+
COS’E’ LA CURVA ROC?
la curva ROC è n grafico che mette in relazione sensibilità e specificità di un test diagnostico al variare del cut-off.
permette di valutare la bontà di un test diagnostico di distinguere M+ da M-, determinare il cut-off ideale e confrontare più variabili quantitative.
ASSE X: 1-SPECIFICITA’ (FALSE POSITIVE RATE)
ASSE Y: SENSIBILITA’ (TRUE POSITIVE RATE)
CURVA IDEALE (0,1)
CUT-OFF IDEALE : il più vicino alle coordiate (0,1) e dunque: (X-0)2+(Y-1)2
SE CURVA=DIAGOGNALE -> TEST NON INFORMATVIVO -> AUC =0,5
SE AUC=1 -> TEST IDEALE
TEST MIGLIORE = AUC PIU’ VICINO A 1
FALSE POSITIVE RATE E TRUE POSITIVE RATE
CURVA ROC
ASSE X: 1-SPECIFICITA’ (FALSE POSITIVE RATE)
ASSE Y: SENSIBILITA’ (TRUE POSITIVE RATE)