2L: Presentazione dei dati Flashcards
La tabella riassuntiva
Una tabella di riepilogo riporta le frequenze o le percentuali degli elementi in un insieme di categorie, in modo da poter vedere le differenze tra le categorie.
Tabella di contingenza
Una tabella di contingenza aiuta a organizzare due o più variabili categoriali DCO VA
Utilizzata per studiare eventuali modelli operanti tra le risposte di due o più variabili categoriali
Tabulazioni incrociate o totalizzazioni congiunte delle risposte delle variabili categoriali
Per due variabili, i totali di una variabile si trovano nelle righe e i totali della seconda variabile si trovano nelle colonne
Come organizzare i dati numerici
- vettore ordinato;
- distribuzioni di frequenza;
- distribuzioni cumulate;
Vettori ordinati
Un vettore ordinato è una sequenza di dati in ordine crescente, dal valore più piccolo al valore più grande;
Mostra l’intervallo (dal valore minimo al valore massimo);
Può aiutare ad identificare gli outlier (osservazioni anomale)
Distribuzione di frequenza
La distribuzione di frequenza è una tabella riassuntiva in cui i dati sono organizzati in classi numericamente ordinate.
E’ necessario prestare attenzione alla selezione del numero appropriato di raggruppamenti di classi per la tabella, alla determinazione della larghezza adeguata di un raggruppamento di classi e alla definizione dei confine di ciascun raggruppamento di classi per evitare sovrapposizioni.
Il numero di classi dipende dal numero di valori presenti nei dati. Con un numero maggiore di valori, di solito ci sono più classi. In generale, una distribuzione di frequenza dovrebbe avere almeno 5 classi, ma non più di 15.
Per determinare l’ampiezza di un intervallo di classi, si divide l’intervallo (valore massimo– valore minimo) dei dati per il numero di raggruppamenti di classi desiderati .
Visualizzazione dei dati categoriali tramite strumenti grafici
- Tabella riassuntiva per una variabile: grafico a barre, grafico a torta, grafico di Pareto.
- Tabella di contingenza per due variabili: grafico a barre affiancate
Grafico a barre e grafico a torta
Il grafico a barre visualizza una variabile categoriale come una serie di barre. La lunghezza di ogni barra rappresenta la frequenza o la percentuale di valori per ogni categoria. Ogni barra è separata da uno spazio chiamato “gap”.
Il grafico a torta è un cerchio suddiviso in fette che rappresentano le categorie. La dimensione di ogni fetta della torta varia in base alla percentuale di ciascuna categoria.
Il diagramma di pareto
Utilizzato per rappresentare dati categoriali
Un grafico a barre verticali, in cui le categorie sono mostrate in ordine decrescente di frequenza
Nello stesso grafico compare un poligono cumulato
Utilizzato per separare i “pochi importanti” dai “molti banali”
Grafico a barre affiancate
Il grafico a barre affiancate rappresenta i dati di una tabella di contingenza
Visualizzazione di dati numerici mediante grafici
- Vettore ordinato: diagramma ramo-foglia;
- distribuzioni di frequenza e distribuzioni cumulate: istogramma, poligono, Ogiva.
Diagramma ramo-foglia
Un modo semplice per vedere come sono distribuiti i dati e dove esistono concentrazioni di dati.
Il diagramma ramo-foglia organizza i dati in gruppi (ramo) in modo che i valori all’interno di ciascun gruppo (foglia) si diramino verso destra su ogni riga.
Istogramma
Un grafico a barre verticali dei dati in una distribuzione di frequenza è chiamato istogramma
In un istogramma non ci sono spazi tra barre adiacenti
I confini delle classi (o i punti medi delle classi) sono indicati sull’asse orizzontale
L’asse verticale rappresenta la frequenza, la frequenza relativa o la frequenza percentuale
L’altezza delle barre rappresenta la frequenza, la frequenza relativa o la percentuale.
Poligono delle percentuali
Un poligono delle percentuali si forma facendo in modo che il punto medio di ogni classe rappresenti i dati di quella classe e collegando poi la sequenza di punti medi alle rispettive percentuali di classe
Il poligono delle frequenze percentuali cumulate, o ogiva, visualizza la variabile di interesse lungo l’asse X e le percentuali cumulate lungo l’asse Y
Utile quando ci sono due o più gruppi da confrontare
Visualizzazione di due variabili numeriche
- grafico di dispersione
- grafico della serie temporale
Diagramma di dispersione
I diagrammi di dispersione sono utilizzati per dati numerici costituiti da osservazioni accoppiate di due variabili numeriche
Una variabile è misurata sull’asse verticale e l’altra sull’asse orizzontale
I diagrammi di dispersione vengono utilizzati per esaminare le possibili relazioni tra due variabili numeriche
Grafico di una serie temporale
Il grafico di una serie temporale viene utilizzato per studiare come una variabile numerica varia nel tempo
Il grafico della serie temporale:
- La variabile numerica viene riportata sull’asse verticale ed il tempo viene rappresentato sull’asse orizzontale
Tabella di contingenza multidimensionale
Una tabella di contingenza multidimensionale viene costruita sommando le risposte di tre o più variabili categoriali.
Tabella pivot
Riassume le variabili in una tabella riassuntiva multidimensionale
Permette di modificare in modo interattivo il livello di riepilogo e la formattazione delle variabili
Consente di “tagliare” i dati in modo interattivo per riassumere sottoinsiemi di dati che soddisfano criteri specifici
Può essere utilizzata per scoprire possibili schemi e relazioni in dati multidimensionali che tabelle e grafici più semplici non riescono ad evidenziare.
Metodi di data discovery
I metodi di ‘data discovery’ consentono di eseguire analisi preliminari manipolando sintesi interattive.
Sono usati per:
- Osservare più da vicino i dati storici o di stato
- Esaminare i dati alla ricerca di valori anomali
- Scoprire nuovi modelli nei dati
- Il drill-down (scavare a fondo) è forse la forma più semplice di data discovery.
Trademark
Un trademark visualizza il confronto di due o più variabili utilizzando la dimensione e il colore dei rettangoli per rappresentare i valori.
- Se utilizzato con una o più variabili categoriali, forma una gerarchia a più livelli o un albero che può evidenziare modelli tra le variabili numeriche
Migliori pratiche per la costruzione di visualizzazioni
Utilizzare la visualizzazione più semplice possibile
Includere un titolo
Etichettare tutti gli assi
Includere una scala per ogni asse se il grafico contiene assi
L’asse verticale deve contenere lo zero
Utilizzare una scala costante
Evitare gli effetti 3D
Evitare grafici spazzatura