domande statistica Flashcards
in una distribuzione asimmetrica positiva, la media e la mediana dove si trovano?
a dx della moda
ordine nella distribuzione asimmetrica:
MODA-MEDIANA-MEDIA
quando in un raggruppamento scegliamo a caso un punto iniziale e successivamente ogni k-esimo elemento, che tipo di campionamento utilizziamo?
campionamento sistematico
quando in un campionamento almeno due gruppo (o strati) condividono le stesse caratteristiche:
campionamento stratificato
quale variabile può essere definita quantitativamente DISCRETA?
numero di posti letto in un ospedale
no: età, peso, glicemia
data la sequenza di distribuzione. 10, 3,8, 10,10,8,7,2,1
il valore 8 è?
la mediana
MEDIANA
si ordinano i numeri (n) in ordine crescente (o decrescente);
se il numero di dati è dispari, la mediana corrisponde al valore centrale, ovvero al valore che occupa la posizione (n + 1) / 2.
un ricercatore presenta la pressione di 70 pazienti, come presenta le misure per poter fornire informazioni efficaci?
media e deviazione standard
il limite della mediana è:
può assumere un valore che non appartiene al campione
il limite della media è:
nel calcolo risente dei valori estremi
studio di 4 genotipi differenti, qual è la probabilità che venga estratto il genotipo Aa?
lo spazio campionario è dato da 4 genotipi, quindi la probabilità a priori se gli eventi che possono verificarsi sono tutti equiprobabili, allora la probabilità è 1/4
probabilità che la macchina venga colpita da un meteorite
probabilità soggettiva, si basa su un’osservazione
in un sondaggio sui danni del fumo passivo su 1038 adulti, 52 hanno dichiarato che il fumo è innocuo, qual è la probabilità che un adulto dichiari che il fumo passivo è innocuo?
probabilità A POSTERIORI, bisogna analizzare i risultati.
52/1038=5%
probabilità di avere un gruppo sanguigno A o 0?
p(A) + p(0)
probabilità 2% che sangue sia infetto e epatite virale. paziente riceve dal pool di sangue 45 trasfusioni. probabilità di sviluppare epatite?
erano evidenziate due risposte
0.597
1-(o.98)^45 (commento di matte: probabilità di almeno 1)
quale informazione pratica permette di dedurre la definizione di curva di distribuzione di una variabile?
calcolare la probabilità di un evento
La curva di distribuzione più appropriata ci permette di calcolare la probabilità di un evento, cioè che probabilità ho quando la variabile aleatoria assume un determinato valore
Da uno studio è emerso che negli ospedali del Nord Italia per una patologia A si resta ricoverati
in media 4.5 giorni, con una deviazione standard di 2.1 giorni, con quale probabilità si potrà trovare
un ospedale in cui la degenza è inferiore ai 2.4 giorni? p26
16%
il valore dista dalla media di 1 ds quindi si può dire che c’è una probabilità del 68%, però i valori devono essere inferiori, quindi si fa (100-68): 2 e si trova la probabilità nella coda.
Valore medio pressione popolazione sana è 120 mmHg e in questa popolazione la probabilità
di trovare oggetti con P compresa tra 120 e 140 mmHg è del 47.5%. dispersione?
10 mmHg
moltiplicando per 2 la p di 47.5% si ottiene 95% per cui sappiamo che in una distribuzione normale corrisponde alla media + o - 2 σ per cui avendo 140-120= 20 => 1σ= 10 mmHg.
probabilità di un risultato insolitamente alto?
p<0.05
p minore del numero più piccolo
la distribuzione binomiale è determinata da:
dalla taglia del campione n e dalla probabilità p
N.B. La distribuzione binomiale si usa quando voglio vedere la probabilità di x successi in n prove.
la distribuzione di poisson è determinata da:
solo dalla media
la distribuzione normale o gaussiana è determinata da:
media e deviazione standard
mediana, range e ds sono:
stimatori distorti
media, varianza e proporzione sono:
stimatori non distorti
errore standard indica:
la variabilità delle medie campionarie intorno alla media
Popolazione con N soggetti e media M. Estraendo da essa tutti i possibili gruppi di numerosità k
e calcolando su ciascuno di essi la media, che valore potrà avere la media di tutte le k medie così
definite?
uguale alla media M
La media delle medie coincide con la media della popolazione.
Significato IC 90%?
L’intervallo di valori all’interno dei quali cade il valore vero della popolazione con una
probabilità del
90%
Definizione IC di una media: diminuisco la dimensione del campione di studio, cosa
succede?
l’ampiezza dell’intervallo aumenta di conseguenza
Se diminuisce la taglia n del campione di studio, di conseguenza aumenta il margine di errore, quindi aumenta anche l’IC.
Stima di un parametro con ds (deviazione standard) nota, campione casuale semplice di n<30, parametro distribuito
normalmente, cosa usiamo? (p. 38)
distribuzione normale (z)
Stima di un parametro con ds ignota, campione casuale semplice di n<30, parametro distribuito
normalmente, cosa usiamo?
distribuzione t di Student
per stimare la varianza di una popolazione:
distribuzione normale (z)
i valori critici della distribuzione normale z variano al variare:
NON VARIANO
N.B. I valori critici sono i 2 valori di “z” che determinano l’area al 95 %. Nella distribuzione normale sono fissi. Quindi,
si trova sempre che al 90% il mio valore critico vale ±1,645; al 95% ± 1,96 (α=0.05); al 99% ± 2,57.
i valori critici della distribuzione t variano al variare:
dei gradi di libertà
i valori critici entrano in gioco per:
calcolare gli intervalli /regione di confidenza
i valori critici entrano in gioco:
definire la regione /intervallo di accettazione (o confidenza)
la probabilità beta indica:
la probabilità di NON RIFIUTARE l’ipotesi nulla, quando andrebbe rifiutata
la probabilità alfa indica:
la probabilità di ERRORE nel rifiutare l’ipotesi nulla, quando andrebbe rifiutata
come si misura la correlazione tra due variabili distribuite in modo normale?
coefficiente r di Pearson (valori vicini a -1 o a 1 indicano che esiste una buona correlazione
(positiva o negativa) e valori vicini a 0 indicano che non esiste correlazione
Un coefficiente di regressione di -1.3 che significa?
significa che al crescere unitario della variabile indipendente, la variabile dipendente cresce
mediamente di -1, 3 unità
NB: decresce mediamente di 1.3 unità (-1:
relazione inversa).
A cosa serve t Student applicato al coefficiente di regressione?
due possibili risposte:
A valutare se l’inclinazione della retta stimata dal modello è significativamente
diversa da 0
A valutare se i dati sono attendibili
Quale differenza c’è tra il coefficiente di regressione e il coefficiente di
correlazione?
entrambi indicano la forza dell’associazione, ma il coefficiente di correlazione è bidirezionale
(non cambia se si inverte la variabile dipendente con quella indipendente), mentre quello di
regressione è unidirezionale
nella regressione lineare la relazione è inversa se:
b<0
) Da uno studio e emerso che negli ospedali del Nord Italia per una patologia A si resta ricoverati
in media 5,8 giorni, con una deviazione standard di 1.4 giorni, con quale probabilità si potrà trovare
un ospedale in cui la degenza e inferiore ai 3 giorni?
16 %
gaussiana
68% –> media e deviazione
32:2=16 –> le estremità
(risposta segnata 2.5%)
l’ANOVA evidenzia una differenza significativa tra h gruppi (h>2), ma non tra quali. Il test di Bonferroni evidenzia tra quali. Quando applico il test di Bonferroni il livello di significatività:
deve essere corretto per il numero di confronti αh = α/h
Le coorti fisse sono costituite da soggetti che:
entrano nella coorte in un certo istante e ne escono quando divengono casi
quale di queste e una misura standardizzata della dimensione dell’effetto del T di student?
d di cohen
quale metodo andrebbe utilizzato per confrontare un parametro, che segue la distribuzione normale, tra due gruppi indipendenti?
a. il test t per dati appaiati
b. il test di mann-whitney
c. il test di wilcoxon
GIUSTA: nessuna delle precedenti
per verificare se una variabile in studio segue la distribuzione normale usiamo:
test Kolmogorov – Smirnov
il coefficiente b della retta di regressione significa che: per ogni incremento unitario in:
x, y varia di una certa quantità costante
se in una distribuzione asimmetrica i valori alti sono nella coda abbiamo
asimmetria positiva
Quale dei seguenti indici non costituisce una misura di tendenza centrale:
campo di variazione
Se si volesse studiare la relazione tra lo stress e la qualià della vita togliendo l’influenza della depressione si dovrebbe usare:
Correlazione parziale
Quale differenza c’e tra il coefficiente di regressione e il coefficiente di
correlazione?
entrambi indicano la forza dell’associazione, ma il coefficiente di correlazione è bidirezionale (non cambia se si inverte la variabile dipendente con quella indipendente), mentre quello di regressione è unidirezionale
L’incidenza di una malattia misura:
La proporzione di partecipanti allo studio in cui e insorta la malattia in un determinato periodo di tempo
Se l’intervallo di confidenza del OR=1,71 è (1,51-1,95), allora:
il fattore di esposizione favorisce l’evento
or>1 –> fattore di rischio
or<1 –> fattore protettivo
se i due parametri sono entrambi negativi o entrambi positivi è accettabile
se uso il test del chi-quadrato per verificare l’indipendenza tra i risultati di due parametri in scala nominale. Qual è l’ipotesi nulla del test?
i risultati dei due parametri sono indipendenti
Se l’ipotesi di ricerca è dimostrare che la pressione arteriosa è più alta nei maschi rispetto alle femmine che tipo di ipotesi sperimentale è:
un’ ipotesi a una coda
Si pensi alla definizione di intervallo di confidenza di una media; immaginando di aumentare la dimensione del campione in studio, cosa succede?
l’ampiezza dell’intervallo diminuisce di conseguenza
Si ipotizzi di avere un dataset di dimensioni elevate e di avere dati mancanti “random” nelle
variabili età altezza e peso. Qual’è la misura più appropriata di tendenza centrale da usare:
la media
Se l’ipotesi sperimentale è che i livelli medi di uricemia nei maschi siano più alti che nelle
femmine, quale sarà l’ipotesi nulla?
Non c’è differenza tra maschi e femmine nei valori medi di uricemia
) Quale utilità hanno i gradi di liberta nelle analisi inferenziali parametriche?
Permettono di evitare che la numerosità campionaria influenzi i risultati
in un box- plot la lunghezza della scatola rappresenta:
lo scarto interquartile
Se IC del RR=1.71 è (1.51 1.95) allora:
Il fattore di esposizione favorisce l’evento
Si ipotizzi di avere un dataset di dimensioni ridotte, che i dati non siano distribuiti normalmente e di
avere dati mancanti nelle variabili età altezza e peso. Qual è la misura più appropriata di tendenza
centrale da usare?
la mediana
i disegni correlazioni riguardano:
relazioni tra variabili
Quale delle seguenti è una misura standardizzata della dimensione dell’effetto per il test di chiquadrato:
V di Cramer
Da uno studio è emerso che negli ospedali del Nord Italia per una patologia A si resta ricoverati in media
5,8 giorni, con una deviazione standard di 1,4 giorni, con quale probabilità si potrà trovare un ospedale in cui
la degenza è inferiore ai 7,2 giorni?
16 %
5,8 + 1,4 = 7,2 (68%) 100-68 = 32/2 = 16 %
Un predittore è anche noto come:
variabile esplicativa
Un gruppo di ricercatori ha preso come riferimento il valore medio della pressione sistolica in una
popolazione sana μ= 120 mmHg e ha calcolato che in questa popolazione la probabilità di trovare
soggetti con una pressione compresa tra 120 e 150 mmHg è del 49,5%. Qual è la dispersione media
delle osservazioni nella popolazione considerata:
10 mmHg
La probabilità beta indica:
la probabilità di NON RIFIUTARE l’ipotesi nulla, quando andrebbe rifiutata
un gruppo di ricerca studia 3 gruppi di pazienti; ogni gruppo soffre di una malattia rara e così il numero di partecipanti è piccolo e i valori non sono distribuiti normalmente. Qual è il test per verificare la differenza?
test di Kruskall-Wallis
distribuzione binomiale determinata da:
taglia del campione n e dalla probabilità p
Se gli intervalli di confidenza di due gruppi non si sovrappongono, quale potrebbe essere una
conclusione ragionevole?
È probabile che ci sia una differenza tra le medie dei due gruppi nella popolazione
se l’ipotesi di ricerca è dimostrare che la pressione arteriosa è diversa nei maschi rispetto alle femmine che tipo di ipotesi sperimentale è
un ipotesi a due code
Se gli intervalli di confidenza di due gruppi si sovrappongono, quale potrebbe essere una
conclusione ragionevole?
E IMPROBABILE che ci sia una differenza tra le medie dei due gruppi
Quale percentuali di soggetti/valori ricade tra il primo e terzo quartile?
50%
Le coorti fisse sono costituite da soggetti che:
entrano nella coorte in un certo istante e ne escono quando diventano casi
Sulla base del processo di ricerca, come si decide se esiste evidenza a favore di una certa ipotesi di ricerca?
si disegna uno studio, si raccolgono ed analizzano dati in modo da verificare le ipotesi
quale metodo andrebbe utilizzato per confrontare un parametro, che non segue la distribuzione
normale, tra due gruppi indipendenti?
il test di mann-whitney
In uno studio caso-controllo prospettico si puo calcolare:
Risk Ratio
l’ANOVA evidenzia una differenza significativa tra h gruppi (h>2), ma non tra quali. Il test di Bonferroni evidenzia tra quali. Quando applico il test di Bonferroni il livello di significatività:
deve essere corretto per il numero di confronti αh = α/h
Se IC del RR=1.71 e (0.85 – 2.95) allora:
Il fattore di esposizione e ininfluente sull’evento
un test molto specifico
Individua bene i veri negativi, ma puo avere falsi positivi
Quale delle seguenti è una misura standardizzata della dimensione dell’effetto per la regressione lineare:
R^2
qual’ è l’ipotesi nulla del test Kolmogorov – Smirnov?
la variabile segue la distribuzione normale
Se l’ipotesi sperimentale è che i livelli medi di uricemia nei maschi siano più bassi che nelle
femmine, quale sarà l’ipotesi nulla?
Non c’è differenza tra maschi e femmine nei valori medi di uricemia
I valori critici nella distribuzione z variano al variare:
non variano
il coefficiente b della retta di regressione significa che: per ogni incremento unitario in:
x, y varia di una certa quantità costante
In una distribuzione SIMMETRICA, la media e la mediana si trovano :
moda, mediana e media si sovrappongono