statistica Flashcards
Rapporti
Un rapporto è una frazione, in cui il numeratore è indipendente dal denomi-natore, cioè numeratore e denominatore spesso si escludono a vicenda. ad esempio rapporto giovani/anziani, malati/sani, ma-
schi/femmine (ODDS)
Proporzioni
La proporzione è sempre una frazione, ma nel numeratore sono com-presi eventi che stanno anche nel denomina-tore. In una proporzione il numeratore è più piccolo del denominatore ed è una quota parte di esso. Esempio: la mortalità è data dal numero di morti sul numero totale di abitanti.
Tassi
Il tasso è una derivazione della pro-porzione che tiene conto delle variazioni che i fenomeni possono subire nel tempo. Quindi il tasso introduce un nuovo concetto: il tempo. Esistono due tipi di tassi: incidenza e prevalenza.
Incidenza
numero di nuovi casi, esem-pio “nuovi casi di malattia”, quindi neo-dia-gnosi in un determinato intervallo di tempo,
Prevalenza
numero totale di casi (es. casi di malattia), con “numero totale” s’intende casi vecchi e casi nuovi. La prevalenza conta quante persone sono affette da una de-terminata malattia e può essere prevalenza puntuale o periodale.
tra incidenza e prevalenza qual è la misura dinamica?
l’incidenza, perchè mi permette di dire se l’incidenza è in aumento, ovvero se il numero di casi sta aumentando, se è stazionario oppure se sta diminuendo
media- caratteristiche?
Sintetizza tutti i dati: è il valore più vicino a
tutte le singole osservazioni
E’ invariante per trasformazioni affini
E’ valida soprattutto per i dati che seguono
una distribuzione di frequenza normale
E’ sensibile ai valori estremi
Mediana calcolo
Nelle serie dispari è il valore al centro della distribuzione ordinata (valore nella (n+1)/2 esima posizione)
Nelle serie pari è la media dei due valori al centro della distribuzione ordinata (media tra il valore nella n/2 esima e il valore nella (n/2)+1 esima posizione)
mediana caratteristiche
E’ detta anche 50° percentile
- Utilizza le relazioni di posizione dei dati
- Esiste per i dati numerici continui e discreti e per i dati categorici ordinali
- Non è sensibile ai valori estremi
- E’ il migliore indice di sintesi nelle distribuzioni asimmetriche
variabilità, definizione
il grado maggiore o minore di disomogeneità del campione
varianza, calcolo
sommatoria degli scarti al quadrato, diviso la numerosità campionaria meno uno se su campione
com’è la variabilità su piccolo campione?
molto alta
deviazione standard calcolo
varianza sotto radice
calcolo del p-esimo percentile
(n*p)/100
se NON è un intero
• il p-esimo percentile sarà l’ osservazione che si trova alla posizione data da np/100 approssimato per eccesso
se è un intero
• il p-esimo percentile sarà la media tra l’ osservazione che si trova nella posizione np/100 e l’ osservazione che si trova nella posizione successiva
ragionamento deduttivo vs induttivo
deduttivo dal generale al particolare, e viceversa per induttivo
errore tipo 1
FALSO POSITIVO
o alpha, un ipotesi falsa considerata vera
(e dunque scarto l’ipotesi nulla quando questa è vera, accettando erroneamente quella alternativa)
errore tipo 2
FALSO NEGATIVO
o beta, scarti un’ipotesi che invece è vera
ipotesi nulla
ipotesi che non vi sia alcuna reale differenza tra medie o tra proporzioni nei gruppi comparati oppure che non vi sia alcuna reale associazione tra due variabili continue.
livello alfa
AKA ERRORE ALFA, SIGNIFICATIVITA’ STATISTICA O VALORE P
corrisponde alla probabilità massima di commettere un errore falso-positivo che il ricercatore è disposto ad accettare. Per consuetudine, il livello alfa è attualmente fissato a p = 0.05. che il ricercatore è disposto a correre un rischio del 5% di essere in errore quando asserisce che il gruppo trattato e quello di controllo differiscono realmente
SE P >0.05%
accetto l’ipotesi nulla, scarti quella alternativa: non c’è correlazione
correlazione e associazione- definizioni
CORRELAZIONE-> due variabili statistiche si definiscono correlate se si influenzano reciprocamente (direttamente o indirettamente proporzionale)
NON significa che siano però associate.
ASSOCIAZIONE-> rapporto che lega due variabili che sono in rapporto causa/effetto l’una con l’altra
coefficiente di correlazione di pearson (r)
può assumere valori tra 0 e I1I 0- non esiste correlazione I1I- correlazione massima segno positivo-> correlazione diretta segno negativa correlazione indiretta
Quali test di associazione esistono?
Chi quadro per variabili categoriche
T di student per variabili quantitative
formula del Xquadro
(per verificare associazione tra variabili categoriche)
E’ LA sommatoria tra la differenza tra frequenze osservate e attese elevate al quadrato fratto le frequenze attese
X2 variante di McNemar
PER DATI APPAIATI
1-negli studi caso-controllo
2.nei dati appaiati su trial clinico (controllo- farmaco)
3. studio pre/post
Test della probabilità esatta di Fischer
per variabili categoriche in caso di campione piuttosto ridotto, quando all’interno di una o più delle 4 caselle c’è un valore inferiore a 2
(es. studi pilota)
regressione lineare semplice
valutare la relazione tra due variabili continue
ci permette di studiare il valore previsto di una variabile (variabile di outcome o di risultato) per ogni livello dell’altra variabile (variabile esplicativa o predittiva o ”covariata”)
ci permette di studiare il valore previsto di una variabile (variabile di outcome o di risultato) per ogni livello dell’altra variabile (variabile esplicativa o predittiva o ”covariata”)
m=b0+b1x
cos’è la b1?
sarebbe tipo y=b+ax
b1 (cioè a) è la pendenza
a quanto corrisponde un’unità di variazione in y?