STATA Flashcards
browse
apre la matrice dati solo per visualizzarla
edit
apre la matrice dati e permette di modificarla
clear
“pulisce” la memoria di STATA rimuovendo dati e label delle variabili precedenti
Do-file
finestra di testo in cui si registrano tutti i comandi da usare così da tenerne traccia; può essere lanciato tutto contemporaneamente e stata individua eventuali errori; consente di inserire commenti/titoli/frasi etc.
Sintassi dei commenti
I commenti nel do-file vanno preceduti da * o //
Per scrivere più righe: /* all’inizio e fine
help
Da solo o prima di un comando, apre la sezione di aiuto di stata
Sintassi dei comandi
[by varlist:] command varlist [=exp] [if exp] [in range] [weight] [, options]
Tutte le funzioni si costruiscono a partire da command varlist
Con “varlist” lista di variabili su cui eseguire il comando
Version [numero della versione]
imposta la versione del programma che verrà utilizzata
set more off
aumenta lo spazio di output per una migliore visualizzazione dei dati
describe [varlist]
fornisce informazioni sulla variabile: nome della variabile; tipo; formato; value label; etichetta della variabile
cd “inserire percorso file”
definisce la cartella dove STATA “lavorerà” ed eventualmente esporterà output e grafici.
Per trovare il percorso: File> change working directory > …
use “DB Prima lezione”
Apre il file .dat su cui si vuole lavorare; se questo file si trova già nella cartella definita attraverso il comando precedente, basterà specificare il nome del file, e non il percorso completo.
Summarize [varlist]
offre informazioni riguardo la distribuzione della variabile considerata; in particolare : numero di osservazioni; media; deviazione standard; minimo; massimo.
codebook [varlist]
combina le informazioni fornite da Describe e Summarize ma anche il numero di codici per i missing values o il numero di modalità.
tabulate [varlist], [options]
Distribuzione di frequenza di una o più variabili, indicando anche % e cumulate.
Opzioni:
- missing>mostra le mancanti
- nolabel> nasconde le etichette
bysort
esegue comandi (come tabulate, summarize) a seconda della suddivisione del campione rispetto ad una determinata variabile (es: il genere).
es> bysort q1: tabulate q124
Ssc install [nome comando da installare]
Per installare un comando
Fre
Evoluzione di tabulate, “frequencies”, mostra nome delle variabili, valori e relative etichette; rende superfluo l’uso di nolabel o missing, perché li indica autonomamente; + aggiunge le percentuali valide
decode q29a, mv(-99=.a \ -98=.b)
Nella parentesi: valore attuale= nuovo valore missing. Eseguito il comando, abbiamo il seguente output → q29a: 18 missing values generated. L’operazione è andata a buon fine.
Stata consente 26 missing values, uno per ogni lettera dell’alfabeto preceduta da un punto (); questo consente di mantenere distinguibili i diversi tipi di dati mancanti, come “non so” e “non risponde”
generate eval_merkel=q29a-6
Permette di ricodificare una variabile esistente (in questo caso q29a). Si tratta di una scala di gradimento con valori numerici da 1 a 11, ma con value label da -5 (minimo gradimento) a +5 (massimo gradimento): vogliamo uniformare i valori alle value label, e creiamo una nuova variabile spostando i valori numerici in modo tale da uniformarli alle etichette.
recode q135 (1 2 = 1) (3=2) (4 5 =3) (-99 6 9 =.), gen(edu_grp)
Potremmo voler riclassificare una variabile, ad esempio per unire classi “vicine” da un punto di vista semantico o accorpare classi con frequenze troppo basse per l’analisi bivariata. Esempio: il livello di istruzione.
Dopo «recode» indichiamo il nome della variabile di partenza. Nelle parentesi, prima del segno = mettiamo i valori della variabile originale; dopo il segno = il valore della nuova variabile. Al termine, dopo la virgola, l’opzione gen (nome nuova variabile) per creare una nuova variabile e non sovrascrivere.
label variable edu_grp “livello di istruzione riclassificato”
Con questo comando attribuiamo la label, tra «», alla variabile edu_grp.
label define edu_grpL 1 «basso» 2 «medio» 3 «alto»
Con questo comando creiamo il «pacchetto» di label, dove a ogni valore numerico corrisponde, tra «», l’etichetta, e lo nominiamo edu_grpL.
label values edu_grp edu_grpL
Con questo comando, invece, attribuiamo alla nostra variabile il «pacchetto» appena creato.
replace spdvoters=1 if q19aa==4
Replace consente di modificare i valori all’interno di una variabile. Per modificare una variabile preesistente, possiamo crearne una nuova ed andare a sostituire al suo interno i valori (grazie a replace), sulla base dei valori assunti nella vecchia.
Opzioni del comando tabulate
col = percentuali di colonna
row = percentuali di riga
cell = percentuali di cella
exp = riporta il valore delle frequenze attese
chi2 = calcola il chi-quadrato
V = possiamo anche calcolare il V di Cramèr, che normalizza Chi2 rispetto al numero di celle della tabulazione e alla numerosità del campione
corr [varlist]
calcola il coefficiente r per misurare l’intensità della relazione
regr [var1 var2]
regressione dove var1 è la dipendente e var2 è la indipendente (con questo comando è richiesto di specificare prima la dipendente poi l’indipendente) consente di evidenziare i coefficienti della retta di regressione e R2
oneway q29a q1, tabulate
Indico prima la dipendente poi la indipendente; restituisce BSS WSS e TSS, da cui calcolare Eta2. L’opzione tabulate mostra medie e st.dev di gruppo