Regressione Logistica Flashcards
Cosa analizza la regressione logistica? Quale funzione utilizza? Intervallo valori, forma…
Analizza la relazione tra una variabile risposta dipendente binaria (es Obeso/Non Obeso) e una o più variabili esplicative continue o discrete.
Utilizza la funzione logistica per stimare la probabilità della variabile risposta.
Assume valori tra 0 e 1 ed ha una forma ad S.
Regressione lineare come trovo la retta, come confronto i modelli.
Se Y binaria che succede se uso regressione lineare?
Regressione logistica che metodo usa?
Nella regressione lineare cerco la retta che minimizza la somma dei quadrati dei residui.
Confronto i modelli guardando R^2.
Se Y è binaria non posso usare una retta.
Y assume valori tra 0 e 1, con la retta si andrebbe da -inf a + inf.
La regressione lineare non si adatta bene a questi dati binari.
La regressione logistica utilizza il concetto di massima verosimiglianza.
La funzione logit cosa permette di fare? Che forma matematica ha? Come si comporta al variare di p?
Attraverso la funzione logit possiamo trasformare un evento binario con probabilità (0~1) in un valore continuo.
Ha la seguente forma matematica:
g(p) = ln (p/ 1-p)= ln(odds).
- con p=0,5 g(p) è 0.
- con p->0 g(p) tende a meno infinito.
- con p->1 g(p) tende a più infinito.
Come stimo i parametri nella regressione lineare?
Come stimo i parametri nella regressione logistica?
Quale è la f di verosimiglianza.
Nella reg lineare cercavo i valori dei parametri che minimizzavano la sommatoria dei quadrati dei residui.
Nella reg logistica cerco i valori dei parametri B che massimizzano la funzione di verosimiglianza:
produttoria per i che va da 1 a n di…
… (ni yi) * pi^yi * (1-pi)^(ni-yi).
Come collego i parametri stimati a ln(odds), odds e alle probabilità?
g(p)= ln(odds)= g stimata
odds= e^(g stimata)
p= e^(g stimata) / 1+e^(g stimata)
Interpretazione dei coefficienti nella funzione logit e negli odds.
Quando xi aumenta di 1, ln(odds) aumenta di Bi.
Quando xi aumenta di 1, odds si moltiplicano di un fattore e^(Bi).
Cosa indica il “Number of fisher scoring iterations”
Il numero di volte che l’algoritmo ha cercato di migliorare la stima dei parametri del modello per ottenere il miglior adattamento ai dati.
Cosa posso utilizzare per confrontare i modelli logistici semplici e quelli più complessi?
Quale distribuzione utilizzo e con quale scopo?
Cosa succede se p<alfa?
Posso utilizzare il test del rapporto di verosimiglianza x confrontare i modelli più semplici con modelli annidati.
Attraverso la distribuzione chi quadrato verifico se la differenza della devianza dei modelli è significativa.
Se p<alfa allora la devianza del modello completo è significativamente minore di quella del modello semplice.