14. Analisi monovariata Flashcards

1
Q

Matrice dati

A

Matrice in cui viene raccolto il materiale empirico grezzo raccolto. In ogni cella derivante dall’incrocio fra una riga e una colonna abbiamo un dato, cioè il valore assunto da una particolare variabile su un caso particolare. Per essere inserite nella stessa matrice, i casi devono avere la stessa unità di analisi e su tutti i casi studiati devono essere rilevate le stesse informazioni.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Come avviene la codifica?

A

La codifica, ovvero la traduzione del materiale empirico in matrice dati, avviene con l’ausilio di due strumenti:
- tracciato record: indica la posizione di ogni variabile nella riga della matrice
- codebook: assegna a ogni modalità della variabile un valore numerico → contiene le spiegazioni su cosa ogni variabile misura e come.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quante variabili producono i vari tipi di domanda?

A
  • Domanda a scelta multipla → produce una sola variabile. Attenzione alla presenza della risposta “non risponde” che va codificata con un valore che non faccia confusione.
  • Domanda a scelta multipla dove vanno indicate più scelte ordinate→ produce tante variabili quante sono le scelte indicate da chi risponde.
  • Batteria di domande → essendo più domande aventi lo stesso formato di risposta, esse producono un numero di variabili pari al numero di domande.
  • Domande a risposta multipla (stessa domanda ammette più risposte) → genera tante variabili quante sono le risposte dell’individuo
  • Domanda aperta → la codifica viene effettuata a posteriori creando delle categorie in cui inserire delle varie risposte.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

A cosa serve l’analisi monovariata?

A

L’analisi monovariata serve principalmente per analizzare la distribuzione delle variabili che rappresentano i fenomeni che vogliamo studiare -> analisi descrittiva. In base al tipo di variabile, possiamo studiare le caratteristiche di una distribuzione, che possono essere:
- Tendenza centrale -> ci dice qualcosa sulla tipicità di alcuni valori
- Variabilità -> ci da una informazione sulla dispersione dei valori

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Distribuzione di frequenza di una variabile

A

È una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei dati analizzati. È anche detta distribuzione di frequenze assolute, in quanto accanto ad ogni valore della variabile poniamo il numero di casi che presentano quel valore senza alcun altro intervento.
Se invece vogliamo confrontare la distribuzione di frequenza di una variabile in un gruppo con la stessa distribuzione in un altro gruppo di diversa numerosità, dobbiamo trovare le frequenze relative (singola frequenza/totale comune).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

In che modo le frequenze devono essere presentate nelle tabelle?

A
  • Distribuzione di frequenza deve avere orma compatta ed essere accompagnata dalla base di calcolo delle percentuali
  • Cifre decimali riportare solo se significative, anche lo 0 va riportato
  • Arrontondare normalmente
  • Quadratura -> a causa degli arrotondamenti può succedere che la somma delle percentuali sia maggiore o minore di 100, vanno qundi alterate lievemente le cifre per far tornare il conto.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

A che cosa serve la distribuzione di frequenza?

A
  • Ci da maggiori informazioni sui dat
  • ci permette di pulire i dati (identificare eventuali errori a partire da incongruenze logiche, dati mancanti o residuali o risposte come non risponde)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quali funzioni ha la pulizia dati?

A
  • Controlli di plausbilità: controllare che tutti i valori delle variabili siano plausibili, cioè che appartengano al ventaglio di valori previsti dal codice.
  • Controlli di congruenza: si possono confrontare le distribuzioni di due variabili per far emergere eventuali incongruenze → l’ispezione delle distribuzioni di frequenza fa emergere l’errore e permette di correggerlo. In alternativa si usa l’incrocio tra due variabili (es: controllando che tutte le casalinghe siano donne, che chi va a messa la domenica sia cattolico etc.).
  • Valori mancanti: si tratta di soggetti che non hanno risposto a quella domanda particolare, oppure la domanda è stata palesemente codificata in modo errato. Nei casi di non risponde o valore implausibile siamo davanti ad un valore mancante. Essi comportano sempre una complicazione nell’analisi dei dati. Se derivano da errori di codifica, vanno esclusi dalle analisi, come anche i casi di non risposta.
  • Ponderazione: la situazione più comune è quella della post-stratificazione . Se la distorsione fra campione e popolazione è molto forte occorre muoversi con la massima cautela → non usare pesi troppo bassi o troppo alti.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Misure di tendenza centrale

A

Si tratta di un indice di sintesi della distribuzione che indica qual è il baricentro dei valori di una distribuzione. Esse sono:
- Moda (v. nominali) -> è la modalità della variabile che si presenta nella distribuzione con maggiore frequenza.
- Mediana (v. ordinali) -> si ordinano tutti i casi di una distribuzione e il valore centrale è la mediana
- Media aritmetica (v. cardinali) -> è data dalla somma dei valori assoluti della variabile su tutti i casi, divisa per il numero di casi. Se ci sono classi, si usa il valore centrale.

Le misure di tendenza centrale sono cumulabili.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Misure di variabilità

A

Si tratta di un indice di sintesi che evidenzia il che modo le altre modalità si collocano rispetto al centro della distribuzione. Esse sono:
- Indice di omogeneità (v. nominali): è massimamente omogenera quando tutti i casi hanno la stessa modalità, emtre è massimamente eterogenea se i casi sono equidistribuiti. Se vogliamo neutralizzare l’influenza del numero di modalità usiamo l’indice di omogeneità relativa, che assume valore 1 se l’omogeneità è massima e 0 se è nulla.
- Differenza interquantile (v. ordinali): si ottiene dividendo i casi della distribuzione in 4 parti di uguale numerosità, i valori che segnano i confini tra le quattro parti sono detti quartili. La differenza tra Q1 e Q3 può essere utilizzata come indice di dispersione della variabile.
- Deviazione standard e varianza (v. cardinali): si può calcolare lo scostamento semplice medio, la deviazione standard, la varianza o il coefficiente di variazione
- Concentrazione: misura di variabili che si applica alle variabili cardinali quando esse consistono in quantità possedute dall’unità di analisi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Rappresentazioni grafiche delle distribuzioni di frequenza

A

Variabili nominali:
- Diagramma a barre: riporta la distribuzione su un piano cartesiamo, es ortogramma
- Diagramma di composizione: si suddivide l’area di una figura geometrica in parti proporzionali alle varie frequenze, es diagramma a torta

Variabili cardinali
- Istogramma: diagramma a barre ma le barre sono vicine perchè c’è continuità
- Poligono di frequenza: si uniscono i punti medi dei lati superiori dei rettangoli di un istrogramma.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Indice di distanza tra casi

A

Ci permette di calcolare l’indice di somiglianza tra due casi confrontando due righe di una matrice. Il calcolo è effettuabile solo se le variabili sono cardinali, se sono nominali possono essere trasformate in variabili dicotomiche

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Indici di dissimilarità tra distribuzioni

A

È possibile calcolare la similarità tra due distribuzioni di frequenza sintetizzando in un unico numero la differenza che esiste tra due distribuzioni di frequenza della stessa variabile -> indice molto usato nella ricerca elettorale per sintetizzare il cambiamento di distribuzione dei voti tra due elezioni successive.
Esso può essere calcolato solo se le due variabili hanno le stesse modalità.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Classificazione

A

È il processo secondo il quale i casi studiati vengono raggruppati in sottoinsiemi sulla base della loro similarità. Le classi ottenute devono essere esaustive e mutualmente esclusive.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Classificazione unidimensionale

A

Si classificano i casi in base alla loro somiglianza ad una sola variabile:
- v. nominale: l’aggregazione è necessario in quanto le successive operazioni di analisi bivariata possono richiedere che ogni modalità presenti un numero di casi sufficiente
- v. cardinale: raggruppamento per classi di maggiore ampiezza secondo tre criteri:
- raggruppare i valori della variabile in intervalli di uguale ampiezza
- aggregare i valori assumendo a riferimento in quale modo il loro significato (es: età degi figli può essere aggregata in base alla scansione scolastica)
- aggregare i dati utilizzando la divisione in quantili, per ottenere classi di uguale numerosità

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Classificazione multidimensionale

A

Classificazione sulla base di più variabili. Possono essere:
- Tassonomie: classificazione nella quale le variabili sono considerate in successione, in una struttura gerarchica che procedere per variabili di generalità descrescente. Molto comune nelle scienze naturali.
- Tipologie: classificazione nella quale le variabili che la definiscono sono considerate simultaneamente, le classi sono dette tipi ed è comune nelle scienze sociali. È creata per spiegare o interpretare un fenomeno, quindi deve essere produttiva di teoria.

17
Q

Standardizzazione delle variabili

A

Quando c’è la necessità di confrontare tra di loro i valori di variabili cardinali appartenenti a distribuzioni differenti o che usano diverse unità di misura, esse vanno trasformate in valori standardizzati che non risentano delle unità di misura. La standardizzazione avviene in due passaggi:
- trasformiamo i punteggi in scarti dalla media
- dividiamo la nuova variabile per lo scarto-tipo di quella variabile dalla media, ovvero per la sua deviazione standard.

La nuova variabile Z ha media 0 e deviazione 1.

18
Q

Normalizzazione

A

In alcuni casi la standardizzazione non è opportuna ed è meglio usare la normalizzazione, che ci permette di valutare il valore sostantivo di una variabile.
Si ottiene una grandezza che varia da 0 a 1 e presenta i vantaggi:
- valori delle due distribuzioni sono direttamente confrontarbili
- ha un punto medio intuitivo
- il suo valore può essere letto come una probabilità

19
Q

Procedura di deflazione

A

Serve per eliminare le differenze che i soggetti possono attribuire ai punteggi di una batteria di domande (qualcuno usa sempre punteggi molto elevati, quando usa tutto il campo di variazione e qualcuno no).
Si svolge sottranedo al punteggio assegnato dall’individuo ad ogni variabile la media dei punteggi assegnati da quello stesso sogetto a tutte le variabili della batteria e dividendo poi per la deviazione standard.

20
Q

Tipi di indici

A

Esistono due tipi di indici:
- Indici additivi: il punteggio dell’indice deriva dalla somma dei punteggi delle singole variabili
- Indici tipologici: si hanno quando i dati sono relativi a modalità che costituiscono una tipologia, perché i valori corrispondono a dei tipi

21
Q

Rapporti statistici

A

Quando dobbiamo confrontare un fenomeno che fa riferimento a realtà diverse, nelle quali le quantità assolute dei fenomeni risentono della diversa dimensione degli aggregati o del diverso ammontare dei fenomeni considerati, si pone la necessità di relativizzare le quantità assolute alle rispettive basi di riferimento del fenomeno mediante un rapporto. Questo rapporti può essere:
- r. di composizione: es: proporzione di maschi = maschi / (maschi+femmine)
- r. di coesistenza: es: rapporto di mascolonità = frequenza maschi/frequenza femmine
- r. di derivazione: es: rapporto tra nati e popolazione (quoziente di natalità). In questa categoria rientrano molti quozienti demografici (q. di moralità, immigrazione etc.)
- r. medio: es: densità della popolazione = n- di abitanti / superficie di territorio

22
Q

Serie

A

Servono per analizzare un fenomeno nel tempo e nello spazio. Possono essere
- Temporali: sequenza dei valori assunti da una variabile nello stesso aggregato territoriale in tempi diversi. Si utilizza il piano cartesiano per rappresentarle.
- Territoriali: sequenza dei valori assunti da una variabile nello stesso momento in aggregati territoriali diversi. Si utilizzano diagrammi a barre o cartogrammi.

23
Q

Studio della variazione

Nelle serie temporali e territoriali

A

La variazione di un fenomeno rilevato con una serie temporale o storica si può calcolare con:
- Differenza assoluta e differenza relativa tra le due gradezze
- Numeri indice: si tratta di fare una proporzione ponendo a 100 il dato iniziale per valutare quanto esso è cresciuto in un determinato periodo di tempo. es: poniamo a 100 i divorzi nel 2000, a quanto ammontano nel 2001? Facendo una proporzione troviamo che essi ammontano a 106.6 → i divorzi sono cresciuti del 6.6%