Bivariata Flashcards

1
Q

Analisi bivariata

A

Indaga la relazione tra due variabili misurate

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Cosa si usa per 2 variabili qualitative/quantitative discrete?

A

tavole di contingenza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cosa si usa per 2 variabili quantitative?

A

analisi di correlazione lineare

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cosa si usa per una variabile qualitativa e una quantitativa?

A

analisi della varianza o confronto tra le medie (dipendenza in media)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Le tavole di contingenza (a doppia entrata)

A

Le tavole di contingenza sono tabelle a doppia entrata; i valori riportati all’interno della tabella sono le frequenze congiunte assolute, e la loro somma è pari al totale dei casi osservati.
Dalla tabella si possono ricavare inoltre le distribuzioni marginali, sommando per riga e per colonna le frequenze congiunte; le frequenze relative congiunte, pari al rapporto tra le frequenze assolute congiunte e
il totale dei casi osservati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cosa sono le frequenze congiunte assolute?

A

sono i valori riportati all’interno delle tavole di contingenza e la loro somma è pari al totale dei casi osservati

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Cosa sono le distribuzioni marginali?

A

sono valori che si ottengono sommando per riga e per colonna le frequenze assolute nelle tavole di contingenza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Cosa sono le frequenze relative congiunte?

A

sono valori pari al rapporti tra le frequenze assolute congiunte e il totale dei casi osservati

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cosa si può ricavare ulteriormente dalle tavole di contingenza?

A
  • frequenze subordinate
  • indipendenza statistica
  • perfetta dipendenza unilaterale
  • perfetta dipendenza bilaterale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cosa sono le frequenze subordinate? (x,y)

A

riguarda la frequenza di osservare il carattere x dato il carattere y e viceversa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quando si verifica l’indipendenza statistica?

A

si verifica se al variare di X le distribuzioni subordinate sono tutte uguali tra loro, si può concludere che la distribuzione del carattere Y non dipende da X. Nel caso d’indipendenza statistica, la frequenza relativa congiunta è pari al prodotto delle marginali corrispondenti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quando si verifica una perfetta dipendenza unilaterale?

A

quando ad ogni valore di X corrisponde un solo valore di Y, ma non è detto che si verifichi il contrario. In generale, quando il numero di colonne (valori assunti dalla Y) è inferiore al numero di righe (valori assunti dalla X) non è mai possibile che X dipenda perfettamente da Y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quando si verifica una perfetta dipendenza bilaterale?

A

quando ad ogni valore di X corrisponde un solo valore di Y e viceversa;
la perfetta dipendenza bilaterale si può avere allora solo per matrici quadrate.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Indici di connessione

A
  • Chi-quadro
  • CRAMER V
    indici atti al misurare il grado di connessione tra variabili (dato che è difficile che si verifichi nella realtà indipendenza statistica)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

L’indice Chi-Quadro

A

assume valore nullo se i fenomeni X e Y sono indipendenti.
Risente del numero delle osservazioni effettuate quindi al crescere di N, l’indice tende a crescere.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

L’indice di CRAMER V

A

è un indice relativo quindi non risente del n di osservazioni come per il chi-quadro;
assumi valori compresi tra 0 e 1:
0 = indipendenza statistica;
1 = perfetta dipendenza almeno unilaterale.

[tende a crescere all’aumentare del grado di dipendenza delle variabili considerate]

17
Q

Che indici si usano per l’analisi della correlazione lineare?

A

per misurare il grado di concordanza tra due variabili quantitative occorre utilizzare:
- Covarianza
- Coefficiente di correlazione lineare

18
Q

La covarianza

A

è un indice che:
- assume valori positivi se Y è concordante con X (a modalità elevate dell’una, corrispondono modalità
elevate dell’altra, quindi x e y tendono a muoversi nella stessa direzione);
- valori negativi se vi è discordanza tra X e Y (a modalità elevate dell’una non corrispondono
modalità elevate dell’altra, quindi x e y tendono a muoversi in direzioni opposte).
- Valore nullo se vi è indipendenza statistica (non c’è relazione lineare)

È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può
dire sul grado del loro legame.

19
Q

Il coefficiente di correlazione lineare (indice di Pearson)

A

è un indice relativo quindi ovvia al problema della covarianza.
Assume valori compresi tra -1 e 1. In particolare assume valore:
- 1 se e solo se Y è funzione lineare positiva di X (e viceversa) e in questo caso i punti corrispondenti
alle osservazioni sono disposti su una retta con inclinazione positiva.
- [-1 se e solo se Y è funzione lineare negativa di X (e viceversa) e in questo caso i punti corrispondenti alle osservazioni sono disposti su una retta con inclinazione negativa.
- 0 se tra le variabili non è presente alcun tipo di relazione lineare (indipendenti in correlazione).

20
Q

Il confronto tra medie

A

Se si vuole incrociare una variabile quantitativa con una variabile qualitativa, la loro relazione può essere descritta confrontando le medie della variabile numerica all’interno delle categorie definite dalla variabile misurata a livello nominale/ordinale.

21
Q

L’indice Eta-Squared (dipendenza)

A

E’ un indice relativo atto al misurare la dipendenza in media:
η2= 0 : indipendenza in media (in MEDIA, non in assoluto)
- η2> 0 : dipendenza in media
- η2= 1 : massima dipendenza in media

In generale, si può considerare 0.2 come valore soglia oltre il quale si può asserire che esiste dipendenza in
media tra le variabili. Aumentando il valore di Eta aumenta la dipendenza in media.

22
Q

Cosa si verifica nel caso della indipendenza in media?

A

In caso di indipendenza in media, le medie dei diversi gruppi saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà nulla. Viceversa qualora ad ogni livello della variabile qualitativa sia associato un unico valore della variabile quantitativa, si parlerà di massima dipendenza in media e si avrà variabilità interna ai gruppi nulla.

23
Q

Lo scarto quadratico medio

A

è un indice sintetico dell’intensità della relazione si basa sulla scomposizione della varianza per la variabile
quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile categorica X.

24
Q

Com’è la formula dello scarto quadratico medio:

A

SQTy = SQtra + SQnei

Dove:
- SQTy (somma dei quadrati totali) è la variabilità totale,
- SQtra variabilità tra i gruppi (somma dei quadrati tra i gruppi) esprime quanta variabilità di Y può essere legata al variare delle categorie di X,
- SQnei variabilità interna ai gruppi (somma dei quadrati nei gruppi) esprime la variabilità nell’andamento di Y indipendente da X.

25
Q

Gli strumenti qualitativi

A

utili per effettuare un primo test idoneo a scoprire possibili connessioni
- Analisi di connessione (qual/qual)–>tabella di contingenza (o di frequenza o a doppia entrata)
- Analisi di correlazione (quant/quant)–>diagramma scatter plot
- Analisi della varianza (quant/qual)–>tabella dei valori medi spaccati per variabile qualitativa

26
Q

Quali sono gli indici ASSOLUTI delle tre diverse analisi?

A

Analisi di connessione–>indice χ2
- Analisi di correlazione–>covarianza (x,y)
- Analisi della varianza –>scarto quadratico medio tra i diversi gruppi

27
Q

Quali sono gli indici RELATIVI delle tre diverse analisi?

A
  • Analisi di connessione –>indice di Cramer V 0 ≤ V ≤ 1
  • Analisi di correlazione –>indice di correlazione lineare ρ 0 ≤ ρ ≤ 1
  • Analisi della varianza –>indice di dipendenza in media η 0 ≤ η ≤ 1

Tutti questi indici sono compresi tra 0 e 1.
- Se = 0: non esiste relazione
- Se = 1: la relazione è perfetta ed è la massima possibile

28
Q

Qual è l’ordine d’impiego degli strumenti d’analisi?

A
  1. calcolo indici relativi (che hanno tutti un valore minimo e uno massimo) poi calcolo gli indici
    assoluti invece non ammettono massimo; se con essi ottengo 0 segnalano solo l’assenza della relazione tra variabili;
  2. Se tali indicatori segnalano la presenza di una relazione tra le due variabili, allora si indaga di che
    tipo è attraverso gli strumenti qualitativi
29
Q

A cosa serve il test di ipotesi?

A

Per studiare le associazioni tra variabili.
L’obiettivo dei test è decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato
campionario.

30
Q

Che ipotesi fornisce il ricercatore nella teoria dei test?

A
  • ipotesi parametriche: se riguardano il valore di uno o più parametri della popolazione conoscendone la
    distribuzione a meno dei parametri stessi;
  • ipotesi non parametriche: se prescindono dalla conoscenza della distribuzione della popolazione.
31
Q

Le 2 tipologie di errore nel test d’ipotesi

A
  1. errore di primo tipo
  2. errore di secondo tipo

L’errore di primo tipo e l’errore di secondo tipo non si posso verificare contemporaneamente
- L’errore di primo tipo può occorrere solo se H0 è vera
- L’errore di secondo tipo può occorrere solo se H0 è falsa
Se la probabilità dell’errore di primo tipo (α) aumenta, allora la probabilità dell’errore di secondo tipo (β)
diminuisce

32
Q

Cosa succede nell’errore di primo tipo? (α)

A

Si verifica quando rifiuto un’ipotesi nulla (H0) vera; è un errore molto grave. E’ possibile governarlo da un punto di vista probabilistico ma non può esser eliminato.
Viene chiamato livello di significatività del test ed è fissato a priori dal ricercatore

La probabilità dell’errore di primo tipo è α. (alfa)

33
Q

Cosa succede nell’errore di secondo tipo? (β)

A

Si verifica quando rifiuto un’ipotesi nulla (H0) falsa, è un errore meno grave del primo.
La probabilità dell’errore di secondo tipo è β. (beta)

34
Q

Cos’è il P-Value?

A

E’ la probabilità che H0 sia “vera” in base al valore osservato della statistica test; è anche chiamato livello di significatività osservato ed è il più piccolo valore di α per il quale H0 può essere rifiutata.

35
Q

Qual è la regole di decisione del P-Value?

A

Prima confronto il P-Value con α e di conseguenza:
- Se il p-value è piccolo (< α)–>rifiuto H0
- Se il p-value è grande (≥ α)–>accetto H0

36
Q

Cos’è il livello di soglia del test?

A

È il margine di errore che sono disposto ad accettare per prendere una decisione, generalmente α = 0,05.

In genere, se l’output del test è un valore ≤ alla soglia, significa che la probabilità che avvenga l’errore è
talmente bassa che sono disposto ad accettare questo rischio. Se il livello soglia è > 0,05, non accetto il
rischio.

37
Q

Per cosa si usa il test T?

A

Per verificare l’ipotesi di dipendenza lineare tra due variabili

38
Q

Come si interpreta il test T?

A

H0: indipendenza lineare tra X e Y
H1: dipendenza lineare tra X e Y

se il livello di significatività è al 5%, si rifiuta per |t| >t0,975

39
Q

Per cosa si usa il TEST F?

A

Per la verifica di ipotesi sulle differenze tra medie