modelli di regressione Flashcards
Quando si usano i modelli di regressione? e o correlazione?
quando si hanno delle variabili che sono entrambe quantitative.
cosa cambia tra modello di correlazione e modello di regressione?
nel modello di correlazione, non si possono far eipotesi sulla relazione fra le due variabili, in quanto sono poste sullo stesso piano, quindi si valuta l’INTERAZIONE .
Se invece tra le due variabili è possibile stabilire una causa o un effetto, allora si usa un metodo di regressione
il metodo di regressione
la regressione valuta un tipo di relazione lineare di una variabile in funzione dell’altra ma non viceversa: una variabile sarà la causa, l’altra l’effetto.
si individua una variaabile x indipendente e una y dipendente
dopodichè è necessario creare un modello matematico in grado di predire i valori di y in funzione di x.
la variabile x è una variabile non casuale, ma deterministica, cioè affetta da valore trascurabile.
inoltre per ogni valore di x non esiste un solo valore di y, ma una sottopopolazione di valori di y che seguono una distribuzione di gauss.
modello di regressione lineare
il modello di regressione più semplice è quello lineare, dove y= a + bx dove a è il termine noto, b è il coefficiente angolare ed è rappresentato da una retta
tuttavia in statistica a causa della sottopopolazione di y, c’è anche yi= a +Bxi + ei
dove ei rappresenta l’errore di misura legata alla variabilità biologica dei soggetti in osservazione
a rappresenta l’intercetta cioè quel valore che y assume in corrispondenza di x uguale a 0
b è il coefficiente angolare che in statistica prende il nome di coefficiente di regressione, ed esprime la pendenza della retta e quanto varia in media la variabile dipendente al variare unitario della variabile indipendente.
per comprendere la relazione fra i punti si usa il metodo dei MINIMI QUADRATI
IL METODO DEI MINIMI QUADRATI
Consiste nell’individuare la retta che rende minima la somma delle distanze al quadrato di ciascun punto yi dai punti della retta di regressione stessa.
yi rappresenta il valore osservato mentre y^ è il valore stimato dalla retta a cui corrisponde un certo valore x
tutte le distanze dalla retta rappresentano gli errori del modello che sono espressione della variabilità biologica
infatti, considerando l’esempio del peso, non è detto che per una certa statura corrsiponde sempre lo stesso peso
analisi della varianza della regressione
è importante fare inferenza cioè bisogna chiedersi se quello che si osserva nel campione è possibile estenderlo alla popolazione dal campione da cui è stato estratto. L’inferenza in ambito della regressione si fa sul coefficiente di regressione verificando l’ipoteis nulla B=0 cioè coeff angolare uguale a zero.
se b=0 allora non c’è nessuna relazione grafica tra x ed y e graficamente si ottiene una rett aparallela all’asse delle x perchè, all’aumentare di x y rimane costante.
quindi se b=0 allora y è indipendente da x
tuttavia anche se
non rifiuto H0, non posso dire che non c’è alcuna relazione, ma semplicemente che quel tipo di relazione non è lineare
si osserva che la devianza totale con N-1 gradi di libertà, è pari alla somma della devianza di regressione, cioè lo scostamento del valore stimato di y dalla media
+ la devianza residua, cioè la differenza fra la variabile y stimata e il vero valore di y
con n-2 gradi di libertà
per vedere se il coefficiente di regressione è uguale a 0, bisogna considerare la devianza di regressione. Nel caso limite , la devianza di regressione è uguale a 0 quando b=0
bisogna capire allora se prevale la variabilità di regressione o quella residua
allora si fa un test di fischer dove si ottiene un f calcolato, basato su varianza di regressione su varianza residua
per passare dalle devianze alle varianze basta dividere per i gradi di libertà.
per la devianza totale, i gradi di libertà sono N-1
per la devianza di regressione, i gradi di libertà sono 1
per la devianza residua i gradi di libertà sono N-2
la statistica test di fischer verifica l’ipotesi nulla B=0, cioè si va a capire se è più grande la varianza di regressione o quella residua
se Fcalcolato è maggiore di f tabulato si rifiuta H0
come faccio a capire se un modello ha b diverso da 0 ?
cerco di capire qual’è allora il valore di b
in questo caso non basta l’analisi della varianza, ma comunque è utile aver scomposto la variabilità perchè il test sarà una t di student
si valuta t calc e lo si confronta con t tabulato, in corrispondenza di N-2 gradi di libertà
l’intervallo di confidenza per il coefficiente di regressione. b
b simato +/- t con n-2 gradi di libertà e l’errore della stima
questo permette di stabilire che nella popolazione il valore di b è compreso fra due valori.
il coefficiente di determinazione
dire che la regressione è significativa, significa dire che tra le variabili x ed y esiste una relazione lineare.
per capire quanto ad esempio la variabile altezza riesce a predire il peso si usa il coefficiente di determinazione R al quadrato
esso indica quanta parte delle osservazioni sono spiegate dal modello, cioè quanti dati cadono sulla retta stimata.
R al quadrato deriva dalla devianza di regressione diviso la devianza totale.
graficamente, la devianza di regressione, è la distanza dalla retta di regressione alla retta media. la devianza totale è la distanza dal punto generico alla retta media.
è un valore compreso fra 0 e 1
se R quadro = 0 vuol dire che il numeratore è pari a zero, quindi non c’è devianza di regressione questo significa che tutta la variabilità è spiegata dalla varianza residua quindi il peso non dipende dall’altezza ma da qualcos’altro
R quadro uguale 1, tutta lavariabilità è dovuta al numeratore, quindi la retta y cadrà esattamente sulla retta di regressione, quindi non c’è devianza residua.
se R quadro è pari a 0.9, vuol dire che il 90% dei punti cade sulla retta di regressione, e vuol dire anche che il 90% della variabilità del peso è dovuta all’altezza.
questo ci fa dire che la statira ci permette di prevedere il peso.
intervallo di confidenza per il valore di yi stimato.
considero di aver costruito il modello di regressione lineare semplice.
stimo alcuni valori di yi a partire da valori di xi
cerco di capire se questa relazione è vera nella popolazione
allora costruisco l’intervallo di confidenza esattamente come per b.
modello di regressione lineare multipla o multivariata o multivariabile
ad esempio il valore della pressione arteriosa, dipende dalla glicemia dal colesterolo etc…
avremo nell’equazione, una intercetta, un errore e b1,b2 … che vanno stimati.
tramite il test F di fischer individuo il modello più idoneo
tramite la statistica test t invece, si valuta pero ogni b quanto esso influisce su ciascun coefficiente di regressione.
modello di regressione logistica
molte volte in medicina, l’effetto di più variabili incide su una variabile dicotomica che segue una distribuzione binomiale.
essa serve a valutare quando il valore di y è pari ad 1
1= successo 0= insuccesso
poichè y non è continua allora si mette la probabilità di y
poi si fa una trasformazione logit ( logaritmo per entrambi i membri dell’equazione ) e si ottiene una equazione con relazione lineare per x e log(p/1-p) che può assumere valori da +infinito a -infinito.
nel termine a destra ottengo sempre il modello di regressione lineare.
questa regressione logistica, permette di capire quanto una variabile x influenza il successo e l’insuccesso su y.
a differenza della regressione lineare, b indica come varia logp/1-p al variare unitario di x.
poichè non è facile valutare b, allora si interpreta l’esponenziale di b ovvero ODDS RATIO
questo odds ratio è una stima del rischio che può assumere valori tra 0 e +infinito
un odds ratio pari ad 1 indica un b= 0 quindi non esplicativo, dunque non vi è relazione fra le due variabili.
l’odds ratio maggiore di 1 indica che avere una glicemia alta produce un rischio maggiore di avere la malattia
se l’odds ratio risulta compreso fra 0 ed 1, indica che la variabile x è protettiva ovvero ad alti valori di x, si riduce la probabilità della malattia.
test sul b logistico per fare inferenza
si usa un test Z
chi quadro per il trend
se si ha a che fare con una tabella di contingenza, dove la variabile è dicotomica, e l’altra presenta k modalità
se si conclude che c’è una differenza significativa fra le proporzioni, allora tramite l’analisi del trend si può capire quale proporzione è maggiore e quale minore
quindi se una variabile è qualitativa ma ordinale, si può valutare se l’andamento di questa può influire sulla presenza/assenza della variabile dicotomica eventualemente dipendente.