Lezione 4-5:Statistica Bivariata (Analisi Di Correlazione E Regressione) Flashcards
Qual è lo scopo della statistica bivariata?
Studia se esiste una correlazione tra 2 variabili:
-2 variabili quantitative
-2 variabili qualitative
-1 variabile quantitativa e 1 qualitativa
Dipendenza e causalità sono la stessa cosa?
No
-DIPENDENZA—-> studia se c’è una associazione tra x e y
-CAUSALITÀ—->studia se c’è un rapporto causa-effetto tra le variabili
Il fatto che ci sia dipendenza non vuol dire che ci sia causalità, infatti potrebbe esistere una terza variabile Z da cui dipendono X e Y e che le mette in correlazione tra loro
Qual è la differenza tra correlazione e regressione?
-CORRELAZIONE—->studia se esiste una relazione tra le 2 variabili, quindi se la relazione è lineare o no(COME VARIA X AL VARIARE DI Y, OVICEVERSA?)—-> studio della co-variazione RELAZIONE SIMMETRICA
-REGRESSIONE—-> studia la forma della relazione (subentra il concetto di variabili dipendente o indipendente) (es. i valori di y dipendono da x?) RELAZIONE ASIMMETRICA
QUINDI SI VA A VALUTARE PRIMA LA CORRELAZIONE E POI LA REGRESSIONE!
Come si chiama l’analisi di 2 variabili quantitative?
Analisi della correlazione e della regressione
Dimmi 4 modi per valutare la relazione tra 2 variabili quantitative
Dimmi 4 cose sul digramma a dispersione
-è anche detto scatterplot
-è la rappresentazione grafica dell’andamento congiunto delle due variabili quantitative.
-Gli assi cartesiani del diagramma a dispersione
rappresentano i valori delle variabili
-L’insieme dei punti nel diagramma a
dispersione si chiama nuvola di punti.
Come si interpretano i dati dello scatterplot?
Dimmi 3 cose che si possono dedurre dall’osservazione della nuvola di punti dello scatterplot
- forma ( lineare o non lineare)
-forza
-direzione (diretta o inversa)
Della relazione tra le variabili quantitative
Com’è la relazione tra queste variabili?
Come sono la forza e la direzione di queste due variabili?
Quali informazione dà lo studio della covarianza?
Studia il segno/direzione della relazione (ossia se è diretta o inversa)
Dimmi 3 cose sulla covarianza
-indica come varia X al variare di Y e viceversa (ossia se esiste una relazione lineare diretta o lineare inversa tra le variabili)
-È un indicatore sintetico sulla variazione
contemporanea dei valori di due variabili quantitative
-si calcola come:
Che vuol dire se
Sxy>0
Sxy<0
Sxy=0
Qual è il limite della covarianza?
-non dà risultati standardizzati (ossia dà risultati legati alle loro unità di misura)
Cos a indica il coefficiente di correlazione di Pearson?
-il segno/ direzione della relazione
-la forza della relazione
Dimmi 4 cose sul coefficiente di correlazione di Pearson
-è un indice standardizzato (senza unità di misura)
-varia tra -1 e 1
-è influenzato dagli outliers e dal range delle variabili
- si calcola come
Che vuol dire se
-ρX,Y = 1 = correlazione lineare DIRETTA perfetta
-ρ X,Y = -1 = correlazione lineare INVERSA perfetta
Quali sono i due obiettivi della regressione lineare?
-scopo esplicativo—-> descrivere la relazione tra x e y
-scopo predittivo—< stimare il valore di Y in base a quello di X
Da cosa è rappresentata la relazione delle due variabili nello studio della regressione lineare?
Da una retta (è una stima approssimativa della relazione)
Qual è l’obiettivo della retta dei minimi quadrati?
Trovare la retta migliore di tutte (ossia quella che minimizza l’errore)
Infatti la retta dei minimi quadrati è quella che minimizza l’errore
Cosa vuol dire se
-a (cappuccio)> 0
-a (cappuccio)< 0
Cosa misura a (cappuccio)?
La forza dell’impatto
(Infatti:
Come faccio a fare una previsione rispetto ad un valore Xi?
Infatti la retta di regressione prevede il valore medio di Y sulla base del valore di Xi
Cosa indica la bontà di adattamento?
Indica quanto sia veritiera la previsione lineare della retta dei minimi quadrati
Cosa fa b (cappuccio?
Cosa sono SST, SSR,SSE e quali sono le loro formule?
SST—->somma totale dei quadrati
SSR—->somma dei quadrati spiegata con la regressione (ciò che catturo con la previsione della retta di regressione lineare)
SSE—> somma dei quadrati non spiegata (ossia ciò che perdo con la previsione della retta di regressione)
Cosa vuol dire se
-SST=SSR
-SST è simile a SSR
-SST è simile ad SSE
Cosa misura l’indice di adattamento?
-misura quanta parte della variabilità totale di Y si riesce a spiegare attraverso la retta dei minimi quadrati (o retta di regressione)
Cosa vuol dire se
-R^2 tende a 0
-R^2 tende a 1
R2 → 1 indica che la quota di variabilità spiegata dalla retta si avvicina molto alla variabilità totale, quindi siamo in presenza di ottima bontà di adattamento lineare (SST è simile a SSR)
R2 → 0 indica che la retta spiega una quota piccola
della variabilità totale (quindi SST è simile ad SSE)
Qual è la relazione tra l’indice di adattamento e il coefficiente di correlazione di pearson?
Come varia R^2?
Qual è la differenza tra coefficiente di adattamento e coefficiente di correlazione?
Coefficiente di correlazione di pearson—->pxy
Coefficiente di adattamento—-> o indice di regressione (R^2)