Bivariata Flashcards
Analisi bivariata
Indaga la relazione tra due variabili misurate
Cosa si usa per 2 variabili qualitative/quantitative discrete?
tavole di contingenza
Cosa si usa per 2 variabili quantitative?
analisi di correlazione lineare
Cosa si usa per una variabile qualitativa e una quantitativa?
analisi della varianza o confronto tra le medie (dipendenza in media)
Le tavole di contingenza (a doppia entrata)
Le tavole di contingenza sono tabelle a doppia entrata; i valori riportati all’interno della tabella sono le frequenze congiunte assolute, e la loro somma è pari al totale dei casi osservati.
Dalla tabella si possono ricavare inoltre le distribuzioni marginali, sommando per riga e per colonna le frequenze congiunte; le frequenze relative congiunte, pari al rapporto tra le frequenze assolute congiunte e
il totale dei casi osservati.
Cosa sono le frequenze congiunte assolute?
sono i valori riportati all’interno delle tavole di contingenza e la loro somma è pari al totale dei casi osservati
Cosa sono le distribuzioni marginali?
sono valori che si ottengono sommando per riga e per colonna le frequenze assolute nelle tavole di contingenza
Cosa sono le frequenze relative congiunte?
sono valori pari al rapporti tra le frequenze assolute congiunte e il totale dei casi osservati
Cosa si può ricavare ulteriormente dalle tavole di contingenza?
- frequenze subordinate
- indipendenza statistica
- perfetta dipendenza unilaterale
- perfetta dipendenza bilaterale
Cosa sono le frequenze subordinate? (x,y)
riguarda la frequenza di osservare il carattere x dato il carattere y e viceversa.
Quando si verifica l’indipendenza statistica?
si verifica se al variare di X le distribuzioni subordinate sono tutte uguali tra loro, si può concludere che la distribuzione del carattere Y non dipende da X. Nel caso d’indipendenza statistica, la frequenza relativa congiunta è pari al prodotto delle marginali corrispondenti.
Quando si verifica una perfetta dipendenza unilaterale?
quando ad ogni valore di X corrisponde un solo valore di Y, ma non è detto che si verifichi il contrario. In generale, quando il numero di colonne (valori assunti dalla Y) è inferiore al numero di righe (valori assunti dalla X) non è mai possibile che X dipenda perfettamente da Y
Quando si verifica una perfetta dipendenza bilaterale?
quando ad ogni valore di X corrisponde un solo valore di Y e viceversa;
la perfetta dipendenza bilaterale si può avere allora solo per matrici quadrate.
Indici di connessione
- Chi-quadro
- CRAMER V
indici atti al misurare il grado di connessione tra variabili (dato che è difficile che si verifichi nella realtà indipendenza statistica)
L’indice Chi-Quadro
assume valore nullo se i fenomeni X e Y sono indipendenti.
Risente del numero delle osservazioni effettuate quindi al crescere di N, l’indice tende a crescere.
L’indice di CRAMER V
è un indice relativo quindi non risente del n di osservazioni come per il chi-quadro;
assumi valori compresi tra 0 e 1:
0 = indipendenza statistica;
1 = perfetta dipendenza almeno unilaterale.
[tende a crescere all’aumentare del grado di dipendenza delle variabili considerate]
Che indici si usano per l’analisi della correlazione lineare?
per misurare il grado di concordanza tra due variabili quantitative occorre utilizzare:
- Covarianza
- Coefficiente di correlazione lineare
La covarianza
è un indice che:
- assume valori positivi se Y è concordante con X (a modalità elevate dell’una, corrispondono modalità
elevate dell’altra, quindi x e y tendono a muoversi nella stessa direzione);
- valori negativi se vi è discordanza tra X e Y (a modalità elevate dell’una non corrispondono
modalità elevate dell’altra, quindi x e y tendono a muoversi in direzioni opposte).
- Valore nullo se vi è indipendenza statistica (non c’è relazione lineare)
È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può
dire sul grado del loro legame.
Il coefficiente di correlazione lineare (indice di Pearson)
è un indice relativo quindi ovvia al problema della covarianza.
Assume valori compresi tra -1 e 1. In particolare assume valore:
- 1 se e solo se Y è funzione lineare positiva di X (e viceversa) e in questo caso i punti corrispondenti
alle osservazioni sono disposti su una retta con inclinazione positiva.
- [-1 se e solo se Y è funzione lineare negativa di X (e viceversa) e in questo caso i punti corrispondenti alle osservazioni sono disposti su una retta con inclinazione negativa.
- 0 se tra le variabili non è presente alcun tipo di relazione lineare (indipendenti in correlazione).
Il confronto tra medie
Se si vuole incrociare una variabile quantitativa con una variabile qualitativa, la loro relazione può essere descritta confrontando le medie della variabile numerica all’interno delle categorie definite dalla variabile misurata a livello nominale/ordinale.
L’indice Eta-Squared (dipendenza)
E’ un indice relativo atto al misurare la dipendenza in media:
η2= 0 : indipendenza in media (in MEDIA, non in assoluto)
- η2> 0 : dipendenza in media
- η2= 1 : massima dipendenza in media
In generale, si può considerare 0.2 come valore soglia oltre il quale si può asserire che esiste dipendenza in
media tra le variabili. Aumentando il valore di Eta aumenta la dipendenza in media.
Cosa si verifica nel caso della indipendenza in media?
In caso di indipendenza in media, le medie dei diversi gruppi saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà nulla. Viceversa qualora ad ogni livello della variabile qualitativa sia associato un unico valore della variabile quantitativa, si parlerà di massima dipendenza in media e si avrà variabilità interna ai gruppi nulla.
Lo scarto quadratico medio
è un indice sintetico dell’intensità della relazione si basa sulla scomposizione della varianza per la variabile
quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile categorica X.
Com’è la formula dello scarto quadratico medio:
SQTy = SQtra + SQnei
Dove:
- SQTy (somma dei quadrati totali) è la variabilità totale,
- SQtra variabilità tra i gruppi (somma dei quadrati tra i gruppi) esprime quanta variabilità di Y può essere legata al variare delle categorie di X,
- SQnei variabilità interna ai gruppi (somma dei quadrati nei gruppi) esprime la variabilità nell’andamento di Y indipendente da X.
Gli strumenti qualitativi
utili per effettuare un primo test idoneo a scoprire possibili connessioni
- Analisi di connessione (qual/qual)–>tabella di contingenza (o di frequenza o a doppia entrata)
- Analisi di correlazione (quant/quant)–>diagramma scatter plot
- Analisi della varianza (quant/qual)–>tabella dei valori medi spaccati per variabile qualitativa
Quali sono gli indici ASSOLUTI delle tre diverse analisi?
Analisi di connessione–>indice χ2
- Analisi di correlazione–>covarianza (x,y)
- Analisi della varianza –>scarto quadratico medio tra i diversi gruppi
Quali sono gli indici RELATIVI delle tre diverse analisi?
- Analisi di connessione –>indice di Cramer V 0 ≤ V ≤ 1
- Analisi di correlazione –>indice di correlazione lineare ρ 0 ≤ ρ ≤ 1
- Analisi della varianza –>indice di dipendenza in media η 0 ≤ η ≤ 1
Tutti questi indici sono compresi tra 0 e 1.
- Se = 0: non esiste relazione
- Se = 1: la relazione è perfetta ed è la massima possibile
Qual è l’ordine d’impiego degli strumenti d’analisi?
- calcolo indici relativi (che hanno tutti un valore minimo e uno massimo) poi calcolo gli indici
assoluti invece non ammettono massimo; se con essi ottengo 0 segnalano solo l’assenza della relazione tra variabili; - Se tali indicatori segnalano la presenza di una relazione tra le due variabili, allora si indaga di che
tipo è attraverso gli strumenti qualitativi
A cosa serve il test di ipotesi?
Per studiare le associazioni tra variabili.
L’obiettivo dei test è decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato
campionario.
Che ipotesi fornisce il ricercatore nella teoria dei test?
- ipotesi parametriche: se riguardano il valore di uno o più parametri della popolazione conoscendone la
distribuzione a meno dei parametri stessi; - ipotesi non parametriche: se prescindono dalla conoscenza della distribuzione della popolazione.
Le 2 tipologie di errore nel test d’ipotesi
- errore di primo tipo
- errore di secondo tipo
L’errore di primo tipo e l’errore di secondo tipo non si posso verificare contemporaneamente
- L’errore di primo tipo può occorrere solo se H0 è vera
- L’errore di secondo tipo può occorrere solo se H0 è falsa
Se la probabilità dell’errore di primo tipo (α) aumenta, allora la probabilità dell’errore di secondo tipo (β)
diminuisce
Cosa succede nell’errore di primo tipo? (α)
Si verifica quando rifiuto un’ipotesi nulla (H0) vera; è un errore molto grave. E’ possibile governarlo da un punto di vista probabilistico ma non può esser eliminato.
Viene chiamato livello di significatività del test ed è fissato a priori dal ricercatore
La probabilità dell’errore di primo tipo è α. (alfa)
Cosa succede nell’errore di secondo tipo? (β)
Si verifica quando rifiuto un’ipotesi nulla (H0) falsa, è un errore meno grave del primo.
La probabilità dell’errore di secondo tipo è β. (beta)
Cos’è il P-Value?
E’ la probabilità che H0 sia “vera” in base al valore osservato della statistica test; è anche chiamato livello di significatività osservato ed è il più piccolo valore di α per il quale H0 può essere rifiutata.
Qual è la regole di decisione del P-Value?
Prima confronto il P-Value con α e di conseguenza:
- Se il p-value è piccolo (< α)–>rifiuto H0
- Se il p-value è grande (≥ α)–>accetto H0
Cos’è il livello di soglia del test?
È il margine di errore che sono disposto ad accettare per prendere una decisione, generalmente α = 0,05.
In genere, se l’output del test è un valore ≤ alla soglia, significa che la probabilità che avvenga l’errore è
talmente bassa che sono disposto ad accettare questo rischio. Se il livello soglia è > 0,05, non accetto il
rischio.
Per cosa si usa il test T?
Per verificare l’ipotesi di dipendenza lineare tra due variabili
Come si interpreta il test T?
H0: indipendenza lineare tra X e Y
H1: dipendenza lineare tra X e Y
se il livello di significatività è al 5%, si rifiuta per |t| >t0,975
Per cosa si usa il TEST F?
Per la verifica di ipotesi sulle differenze tra medie