15. Analisi bivariata Flashcards

1
Q

Analisi bivariata

a cosa serve?

A

L’analisi bivariata ci permette di mettere in relazione due variabili e testare le nostre ipotesi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quali sono le tecniche di analisi bivariata?

A

Le tecniche di analisi bivariata dipendono dal tipo di variabile e sono:
- Tabulazione incrociata/tavole di congruenza: si usa quando la variabile indipendente e dipendente sono entrambe nominali
- Regressione lineare/ANOVA: si usa quando la variabile indipendente è nominale e quella dipendente è cardinale
- Regressione logistica: si usa quando la v. indipendente è cardinale ma la dipendente è nominale
- Regressione lineare/ correlazione: si una quando la v. indipendente e quella dipendente sono cardinali.

Inoltre, prima di svolgere qualsiasi tipo di analisi è necessario comprendere la direzione della realzione tra le due variabili.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Tavole di contingenza

Cosa sono e come si creano

A

Consiste nell’incrociare le distribuzioni delle due variabili in una tabella a cui aggiungiamo anche le frequenze marginali.
Quando si costruisce una tavola di contingenza bisogna rispettare i seguenti accorgimenti:
- riportare solo le percentuali che servono all’analisi
- riportare le percentuali totali, anche se è palese che fa 100
- riportare le basi delle percentuali
- intestare la tabella per spiegarne il contenuto
- seguire soliti accorgimenti per arrotondare, per le cifre decimali etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

In che modo possono essere interpretare le tavole?

A

Nell’interpretazione può essere utile calcolare la differenza tra le due modalità di risposta, che è chiamata indice di differenza percentuale e permette di leggere i dati tenendo conto simultaneamente dell’andamento di più modalità della variabile dipendente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Test del chi-quadro

A

Test che ci permette di capire se una relazione è statisticamente esistente o meno. Esso può essere applicato ad ogni tavola di contingenza che abbia N>100 e compara le frequenze attese a quelle osservate.
Il valore che troviamo, chi^2, è tanto maggiore quanto maggiore è la distanza tra la tabella delle frequenze osservate e la tabella delle frequenze attese. L’ipotesi di indipendenza è accettata se p <= 0,05

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Misura della forza della relazione tra variabili nominali

A
  • Misure basate sul valore del chi-quadro: possiamo utilizzare il chi-quadro per valutare la forza della relazione tra due variabili se esso è stato calcolato su tabelle che presentano lo stesso numero di casi. Per ovviare a questo inconveniente alcuni calcolano phi, che divide il chi^2 per il numero di casi della rilevazione. Questo indice però non è normalizzato, motivo per cui è molto più usato l’indice V di Cramer, in cui chi^2 è diviso per il valore massimo che può raggiungere in un determinato caso
  • Misure basate sulla riduzione proporzionale dell’errore: se due variabili x e y sono indipendenti, il fatto di conoscere per una certa unità di analisi il valore assunto su di essa da x non ci aiuta a predire il valore assunto sulla stessa da y. Invece, se esse sono perfettamente correlate, il fatto di conoscere x ci permette di predirre senza errore x
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Misure della forza della relazione tra variabili ordinali

A

Se le variabili sono entrambe ordinali possiamo usare delle misure di cograduazione. Esse si basano tutte sul confronto tra i valori assunti dalle variabili x e y su tutte le possibili coppie di casi.
Una coppia di casi è detta concordante se su un caso i valori di x e y sono entrambi maggiori o minori dei valori delle stesse variabili sull’altro caso. Una coppia è detta invece discordante se una variabile assume su un caso un valore maggiore mentre l’altra un valore minore, rispetto ai valori assunti sul secondo caso, es: il soggetto 1 è più istruito ma meno praticante del soggetto 2.
Se la maggior parte delle coppie sono concordanti o discordanti, allora abbiamo una relazione fra due variabili (rispettivamente positiva o negativa)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Rapporti di probabilità

A

Si tratta di un prodotto delle tecniche di analisi multivariata dei dati che ha assunto sempre maggiore importanza negli ultimi anni.
Il rapporto di probabilità si calcola facendo il rapporto tra le due frequenze che analizziamo, e ci permette di capire di quanto la frequenza maggiore è più grande rispetto alla minore.
Il rapporto di probabilità può essere applicato anche a tavole di contingenza su cui possiamo calcolare una proporzione condizionata e poi trasformarla in rapporto di probabilità (omega= pi/1-p).
Valori superiori ad 1 indicano una associazione positiva, valori inferiori ad 1 negativa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Analisi della varianza

Principi

A

La tecnica di analisi della varianza, detta anche ANOVA, serve per studiare la realzione tra una variabile nominale ed una cardinale.
In questa analisi, la categoria della variabile nominale indipendente è detta gruppo.
Calcolando la varianza delle due variabili è possibile determinare la varianza interna, ovvero quella tra ogni valore all’interno del gruppo e la media di ogni gruppo; ed esterna, ovvero quella trta la media dei gruppi e la media totale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Test della significatività

Caso analisi della varianza

A

Consiste nel fare una verifica della ipotesi nulla secondo la quale le medie di gruppo provengono tutte da una stessa popolazione e sono uguali fra di loro. Per farlo si calcola il rapporto tra stima esterna ed interna -> rapporto F, che ha una distribuzione campionaria conosciuta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quando vanno usati i modelli di regressione lineare?

A

Quando la variabile dipendente è continua.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Diagramma di dispersione

A

Nel caso di una relazione tra due variabili cardinali, essa può essere rappresentata graficamente tramite un piano cartesiano che abbia sull’asse X la variabile indipendente, e sull’asse Y la variabbile dipendente. Collocando sul piano i casi studiati creiamo un diagramma di dispersione che può presentare 4 casi:
- Relazione positiva tra le variabili (se il valore di X è alto anche il valore di Y è alto per ogni caso)
- Relazione negativa tra le variabili (se il valore di X è alto, il valore di Y è basso per ogni caso o vice-versa)
- Assenza di relazione lineare tra le variabili
- Relazione curvilinea (ci sono casi in cui un valore alto di X comporta un valore basso di Y e casi in cui un valore alto di X comporta un valore alto di Y).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Retta di regressione

A

Quando creiamo un diagramma di dispersione, possiamo tracciare una retta, detta retta interpolante, che si avvicini ai punti e li sintetizzi. Data una nuvola di punti, il problema è quindi determinare i parametri a e b della retta (nella formula Y=a+bX) che meglio di tutte le altre è in grado di sintetizzarla.

La statistica ci permette di determinare a e b a partire dai valore di X e Y sui casi, utilizzando il metodo dei minimi quadrati, che consiste nel trovare quella retta che ha la proprietà di ridurre al minimo la somma dei quadrati degli scarti tra i valori teorici di Y e i valori di Y osservati. In questo caso, mentre a è l’intercetta della retta sull’asse O, b è il coefficiente di regressione, ovvero la variazione che fa registrare la variabile Y al variare di un’unità della variabile X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Coefficiente di correlazione

A

Mentre la retta ti regressione ci dice qual è la forma della relazione tra X e Y, non ci dice nulla sulla forza di questa relazione. Per misurare la forza di una relazione tra due variabili cardinali si utilizza il coefficiente di correlazione di Pearson (r). Esso varia da -1 (perfetta relazione negativa) a 1 (perfetta relazione positiva), con 0 in caso di assenza di relazione → si tratta di una misura standardizzata e normalizzata, che permette quindi il confronto tra vairabili misurate in modi diversi e su campioni diversi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly