14. Analisi monovariata Flashcards
Matrice dati
Matrice in cui viene raccolto il materiale empirico grezzo raccolto. In ogni cella derivante dall’incrocio fra una riga e una colonna abbiamo un dato, cioè il valore assunto da una particolare variabile su un caso particolare. Per essere inserite nella stessa matrice, i casi devono avere la stessa unità di analisi e su tutti i casi studiati devono essere rilevate le stesse informazioni.
Come avviene la codifica?
La codifica, ovvero la traduzione del materiale empirico in matrice dati, avviene con l’ausilio di due strumenti:
- tracciato record: indica la posizione di ogni variabile nella riga della matrice
- codebook: assegna a ogni modalità della variabile un valore numerico → contiene le spiegazioni su cosa ogni variabile misura e come.
Quante variabili producono i vari tipi di domanda?
- Domanda a scelta multipla → produce una sola variabile. Attenzione alla presenza della risposta “non risponde” che va codificata con un valore che non faccia confusione.
- Domanda a scelta multipla dove vanno indicate più scelte ordinate→ produce tante variabili quante sono le scelte indicate da chi risponde.
- Batteria di domande → essendo più domande aventi lo stesso formato di risposta, esse producono un numero di variabili pari al numero di domande.
- Domande a risposta multipla (stessa domanda ammette più risposte) → genera tante variabili quante sono le risposte dell’individuo
- Domanda aperta → la codifica viene effettuata a posteriori creando delle categorie in cui inserire delle varie risposte.
A cosa serve l’analisi monovariata?
L’analisi monovariata serve principalmente per analizzare la distribuzione delle variabili che rappresentano i fenomeni che vogliamo studiare -> analisi descrittiva. In base al tipo di variabile, possiamo studiare le caratteristiche di una distribuzione, che possono essere:
- Tendenza centrale -> ci dice qualcosa sulla tipicità di alcuni valori
- Variabilità -> ci da una informazione sulla dispersione dei valori
Distribuzione di frequenza di una variabile
È una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei dati analizzati. È anche detta distribuzione di frequenze assolute, in quanto accanto ad ogni valore della variabile poniamo il numero di casi che presentano quel valore senza alcun altro intervento.
Se invece vogliamo confrontare la distribuzione di frequenza di una variabile in un gruppo con la stessa distribuzione in un altro gruppo di diversa numerosità, dobbiamo trovare le frequenze relative (singola frequenza/totale comune).
In che modo le frequenze devono essere presentate nelle tabelle?
- Distribuzione di frequenza deve avere orma compatta ed essere accompagnata dalla base di calcolo delle percentuali
- Cifre decimali riportare solo se significative, anche lo 0 va riportato
- Arrontondare normalmente
- Quadratura -> a causa degli arrotondamenti può succedere che la somma delle percentuali sia maggiore o minore di 100, vanno qundi alterate lievemente le cifre per far tornare il conto.
A che cosa serve la distribuzione di frequenza?
- Ci da maggiori informazioni sui dat
- ci permette di pulire i dati (identificare eventuali errori a partire da incongruenze logiche, dati mancanti o residuali o risposte come non risponde)
Quali funzioni ha la pulizia dati?
- Controlli di plausbilità: controllare che tutti i valori delle variabili siano plausibili, cioè che appartengano al ventaglio di valori previsti dal codice.
- Controlli di congruenza: si possono confrontare le distribuzioni di due variabili per far emergere eventuali incongruenze → l’ispezione delle distribuzioni di frequenza fa emergere l’errore e permette di correggerlo. In alternativa si usa l’incrocio tra due variabili (es: controllando che tutte le casalinghe siano donne, che chi va a messa la domenica sia cattolico etc.).
- Valori mancanti: si tratta di soggetti che non hanno risposto a quella domanda particolare, oppure la domanda è stata palesemente codificata in modo errato. Nei casi di non risponde o valore implausibile siamo davanti ad un valore mancante. Essi comportano sempre una complicazione nell’analisi dei dati. Se derivano da errori di codifica, vanno esclusi dalle analisi, come anche i casi di non risposta.
- Ponderazione: la situazione più comune è quella della post-stratificazione . Se la distorsione fra campione e popolazione è molto forte occorre muoversi con la massima cautela → non usare pesi troppo bassi o troppo alti.
Misure di tendenza centrale
Si tratta di un indice di sintesi della distribuzione che indica qual è il baricentro dei valori di una distribuzione. Esse sono:
- Moda (v. nominali) -> è la modalità della variabile che si presenta nella distribuzione con maggiore frequenza.
- Mediana (v. ordinali) -> si ordinano tutti i casi di una distribuzione e il valore centrale è la mediana
- Media aritmetica (v. cardinali) -> è data dalla somma dei valori assoluti della variabile su tutti i casi, divisa per il numero di casi. Se ci sono classi, si usa il valore centrale.
Le misure di tendenza centrale sono cumulabili.
Misure di variabilità
Si tratta di un indice di sintesi che evidenzia il che modo le altre modalità si collocano rispetto al centro della distribuzione. Esse sono:
- Indice di omogeneità (v. nominali): è massimamente omogenera quando tutti i casi hanno la stessa modalità, emtre è massimamente eterogenea se i casi sono equidistribuiti. Se vogliamo neutralizzare l’influenza del numero di modalità usiamo l’indice di omogeneità relativa, che assume valore 1 se l’omogeneità è massima e 0 se è nulla.
- Differenza interquantile (v. ordinali): si ottiene dividendo i casi della distribuzione in 4 parti di uguale numerosità, i valori che segnano i confini tra le quattro parti sono detti quartili. La differenza tra Q1 e Q3 può essere utilizzata come indice di dispersione della variabile.
- Deviazione standard e varianza (v. cardinali): si può calcolare lo scostamento semplice medio, la deviazione standard, la varianza o il coefficiente di variazione
- Concentrazione: misura di variabili che si applica alle variabili cardinali quando esse consistono in quantità possedute dall’unità di analisi
Rappresentazioni grafiche delle distribuzioni di frequenza
Variabili nominali:
- Diagramma a barre: riporta la distribuzione su un piano cartesiamo, es ortogramma
- Diagramma di composizione: si suddivide l’area di una figura geometrica in parti proporzionali alle varie frequenze, es diagramma a torta
Variabili cardinali
- Istogramma: diagramma a barre ma le barre sono vicine perchè c’è continuità
- Poligono di frequenza: si uniscono i punti medi dei lati superiori dei rettangoli di un istrogramma.
Indice di distanza tra casi
Ci permette di calcolare l’indice di somiglianza tra due casi confrontando due righe di una matrice. Il calcolo è effettuabile solo se le variabili sono cardinali, se sono nominali possono essere trasformate in variabili dicotomiche
Indici di dissimilarità tra distribuzioni
È possibile calcolare la similarità tra due distribuzioni di frequenza sintetizzando in un unico numero la differenza che esiste tra due distribuzioni di frequenza della stessa variabile -> indice molto usato nella ricerca elettorale per sintetizzare il cambiamento di distribuzione dei voti tra due elezioni successive.
Esso può essere calcolato solo se le due variabili hanno le stesse modalità.
Classificazione
È il processo secondo il quale i casi studiati vengono raggruppati in sottoinsiemi sulla base della loro similarità. Le classi ottenute devono essere esaustive e mutualmente esclusive.
Classificazione unidimensionale
Si classificano i casi in base alla loro somiglianza ad una sola variabile:
- v. nominale: l’aggregazione è necessario in quanto le successive operazioni di analisi bivariata possono richiedere che ogni modalità presenti un numero di casi sufficiente
- v. cardinale: raggruppamento per classi di maggiore ampiezza secondo tre criteri:
- raggruppare i valori della variabile in intervalli di uguale ampiezza
- aggregare i valori assumendo a riferimento in quale modo il loro significato (es: età degi figli può essere aggregata in base alla scansione scolastica)
- aggregare i dati utilizzando la divisione in quantili, per ottenere classi di uguale numerosità