modelli di regressione Flashcards

Question 1

Q

Quando si usano i modelli di regressione? e o correlazione?

Answer

A

quando si hanno delle variabili che sono entrambe quantitative.

Question 2

Q

cosa cambia tra modello di correlazione e modello di regressione?

Answer

A

nel modello di correlazione, non si possono far eipotesi sulla relazione fra le due variabili, in quanto sono poste sullo stesso piano, quindi si valuta l’INTERAZIONE .

Se invece tra le due variabili è possibile stabilire una causa o un effetto, allora si usa un metodo di regressione

Question 3

Q

il metodo di regressione

Answer

A

la regressione valuta un tipo di relazione lineare di una variabile in funzione dell’altra ma non viceversa: una variabile sarà la causa, l’altra l’effetto.

si individua una variaabile x indipendente e una y dipendente

dopodichè è necessario creare un modello matematico in grado di predire i valori di y in funzione di x.

la variabile x è una variabile non casuale, ma deterministica, cioè affetta da valore trascurabile.

inoltre per ogni valore di x non esiste un solo valore di y, ma una sottopopolazione di valori di y che seguono una distribuzione di gauss.

Question 4

Q

modello di regressione lineare

Answer

A

il modello di regressione più semplice è quello lineare, dove y= a + bx dove a è il termine noto, b è il coefficiente angolare ed è rappresentato da una retta

tuttavia in statistica a causa della sottopopolazione di y, c’è anche yi= a +Bxi + ei

dove ei rappresenta l’errore di misura legata alla variabilità biologica dei soggetti in osservazione

a rappresenta l’intercetta cioè quel valore che y assume in corrispondenza di x uguale a 0

b è il coefficiente angolare che in statistica prende il nome di coefficiente di regressione, ed esprime la pendenza della retta e quanto varia in media la variabile dipendente al variare unitario della variabile indipendente.

per comprendere la relazione fra i punti si usa il metodo dei MINIMI QUADRATI

Question 5

Q

IL METODO DEI MINIMI QUADRATI

Answer

A

Consiste nell’individuare la retta che rende minima la somma delle distanze al quadrato di ciascun punto yi dai punti della retta di regressione stessa.

yi rappresenta il valore osservato mentre y^ è il valore stimato dalla retta a cui corrisponde un certo valore x

tutte le distanze dalla retta rappresentano gli errori del modello che sono espressione della variabilità biologica

infatti, considerando l’esempio del peso, non è detto che per una certa statura corrsiponde sempre lo stesso peso

Question 6

Q

analisi della varianza della regressione

Answer

A

è importante fare inferenza cioè bisogna chiedersi se quello che si osserva nel campione è possibile estenderlo alla popolazione dal campione da cui è stato estratto. L’inferenza in ambito della regressione si fa sul coefficiente di regressione verificando l’ipoteis nulla B=0 cioè coeff angolare uguale a zero.

se b=0 allora non c’è nessuna relazione grafica tra x ed y e graficamente si ottiene una rett aparallela all’asse delle x perchè, all’aumentare di x y rimane costante.

quindi se b=0 allora y è indipendente da x

tuttavia anche se
non rifiuto H0, non posso dire che non c’è alcuna relazione, ma semplicemente che quel tipo di relazione non è lineare

si osserva che la devianza totale con N-1 gradi di libertà, è pari alla somma della devianza di regressione, cioè lo scostamento del valore stimato di y dalla media

+ la devianza residua, cioè la differenza fra la variabile y stimata e il vero valore di y

con n-2 gradi di libertà

per vedere se il coefficiente di regressione è uguale a 0, bisogna considerare la devianza di regressione. Nel caso limite , la devianza di regressione è uguale a 0 quando b=0

bisogna capire allora se prevale la variabilità di regressione o quella residua

allora si fa un test di fischer dove si ottiene un f calcolato, basato su varianza di regressione su varianza residua

per passare dalle devianze alle varianze basta dividere per i gradi di libertà.

per la devianza totale, i gradi di libertà sono N-1

per la devianza di regressione, i gradi di libertà sono 1

per la devianza residua i gradi di libertà sono N-2

la statistica test di fischer verifica l’ipotesi nulla B=0, cioè si va a capire se è più grande la varianza di regressione o quella residua

se Fcalcolato è maggiore di f tabulato si rifiuta H0

Question 7

Q

come faccio a capire se un modello ha b diverso da 0 ?

Answer

A

cerco di capire qual’è allora il valore di b

in questo caso non basta l’analisi della varianza, ma comunque è utile aver scomposto la variabilità perchè il test sarà una t di student

si valuta t calc e lo si confronta con t tabulato, in corrispondenza di N-2 gradi di libertà

Question 8

Q

l’intervallo di confidenza per il coefficiente di regressione. b

Answer

A

b simato +/- t con n-2 gradi di libertà e l’errore della stima

questo permette di stabilire che nella popolazione il valore di b è compreso fra due valori.

Question 9

Q

il coefficiente di determinazione

Answer

A

dire che la regressione è significativa, significa dire che tra le variabili x ed y esiste una relazione lineare.

per capire quanto ad esempio la variabile altezza riesce a predire il peso si usa il coefficiente di determinazione R al quadrato

esso indica quanta parte delle osservazioni sono spiegate dal modello, cioè quanti dati cadono sulla retta stimata.

R al quadrato deriva dalla devianza di regressione diviso la devianza totale.

graficamente, la devianza di regressione, è la distanza dalla retta di regressione alla retta media. la devianza totale è la distanza dal punto generico alla retta media.

è un valore compreso fra 0 e 1

se R quadro = 0 vuol dire che il numeratore è pari a zero, quindi non c’è devianza di regressione questo significa che tutta la variabilità è spiegata dalla varianza residua quindi il peso non dipende dall’altezza ma da qualcos’altro

R quadro uguale 1, tutta lavariabilità è dovuta al numeratore, quindi la retta y cadrà esattamente sulla retta di regressione, quindi non c’è devianza residua.

se R quadro è pari a 0.9, vuol dire che il 90% dei punti cade sulla retta di regressione, e vuol dire anche che il 90% della variabilità del peso è dovuta all’altezza.

questo ci fa dire che la statira ci permette di prevedere il peso.

Question 10

Q

intervallo di confidenza per il valore di yi stimato.

Answer

A

considero di aver costruito il modello di regressione lineare semplice.

stimo alcuni valori di yi a partire da valori di xi

cerco di capire se questa relazione è vera nella popolazione

allora costruisco l’intervallo di confidenza esattamente come per b.

Question 11

Q

modello di regressione lineare multipla o multivariata o multivariabile

Answer

A

ad esempio il valore della pressione arteriosa, dipende dalla glicemia dal colesterolo etc…

avremo nell’equazione, una intercetta, un errore e b1,b2 … che vanno stimati.

tramite il test F di fischer individuo il modello più idoneo

tramite la statistica test t invece, si valuta pero ogni b quanto esso influisce su ciascun coefficiente di regressione.

Question 12

Q

modello di regressione logistica

Answer

A

molte volte in medicina, l’effetto di più variabili incide su una variabile dicotomica che segue una distribuzione binomiale.

essa serve a valutare quando il valore di y è pari ad 1

1= successo 0= insuccesso

poichè y non è continua allora si mette la probabilità di y

poi si fa una trasformazione logit ( logaritmo per entrambi i membri dell’equazione ) e si ottiene una equazione con relazione lineare per x e log(p/1-p) che può assumere valori da +infinito a -infinito.

nel termine a destra ottengo sempre il modello di regressione lineare.

questa regressione logistica, permette di capire quanto una variabile x influenza il successo e l’insuccesso su y.

a differenza della regressione lineare, b indica come varia logp/1-p al variare unitario di x.

poichè non è facile valutare b, allora si interpreta l’esponenziale di b ovvero ODDS RATIO

questo odds ratio è una stima del rischio che può assumere valori tra 0 e +infinito

un odds ratio pari ad 1 indica un b= 0 quindi non esplicativo, dunque non vi è relazione fra le due variabili.

l’odds ratio maggiore di 1 indica che avere una glicemia alta produce un rischio maggiore di avere la malattia

se l’odds ratio risulta compreso fra 0 ed 1, indica che la variabile x è protettiva ovvero ad alti valori di x, si riduce la probabilità della malattia.

Question 13

Q

test sul b logistico per fare inferenza

Answer

A

si usa un test Z

Question 14

Q

chi quadro per il trend

Answer

A

se si ha a che fare con una tabella di contingenza, dove la variabile è dicotomica, e l’altra presenta k modalità

se si conclude che c’è una differenza significativa fra le proporzioni, allora tramite l’analisi del trend si può capire quale proporzione è maggiore e quale minore

quindi se una variabile è qualitativa ma ordinale, si può valutare se l’andamento di questa può influire sulla presenza/assenza della variabile dicotomica eventualemente dipendente.