2L: Presentazione dei dati Flashcards

1
Q

La tabella riassuntiva

A

Una tabella di riepilogo riporta le frequenze o le percentuali degli elementi in un insieme di categorie, in modo da poter vedere le differenze tra le categorie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Tabella di contingenza

A

Una tabella di contingenza aiuta a organizzare due o più variabili categoriali DCO VA
 Utilizzata per studiare eventuali modelli operanti tra le risposte di due o più variabili categoriali
 Tabulazioni incrociate o totalizzazioni congiunte delle risposte delle variabili categoriali
 Per due variabili, i totali di una variabile si trovano nelle righe e i totali della seconda variabile si trovano nelle colonne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Come organizzare i dati numerici

A
  • vettore ordinato;
  • distribuzioni di frequenza;
  • distribuzioni cumulate;
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vettori ordinati

A

 Un vettore ordinato è una sequenza di dati in ordine crescente, dal valore più piccolo al valore più grande;
 Mostra l’intervallo (dal valore minimo al valore massimo);
 Può aiutare ad identificare gli outlier (osservazioni anomale)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Distribuzione di frequenza

A

 La distribuzione di frequenza è una tabella riassuntiva in cui i dati sono organizzati in classi numericamente ordinate.
 E’ necessario prestare attenzione alla selezione del numero appropriato di raggruppamenti di classi per la tabella, alla determinazione della larghezza adeguata di un raggruppamento di classi e alla definizione dei confine di ciascun raggruppamento di classi per evitare sovrapposizioni.
 Il numero di classi dipende dal numero di valori presenti nei dati. Con un numero maggiore di valori, di solito ci sono più classi. In generale, una distribuzione di frequenza dovrebbe avere almeno 5 classi, ma non più di 15.
 Per determinare l’ampiezza di un intervallo di classi, si divide l’intervallo (valore massimo– valore minimo) dei dati per il numero di raggruppamenti di classi desiderati .

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Visualizzazione dei dati categoriali tramite strumenti grafici

A
  • Tabella riassuntiva per una variabile: grafico a barre, grafico a torta, grafico di Pareto.
  • Tabella di contingenza per due variabili: grafico a barre affiancate
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Grafico a barre e grafico a torta

A

Il grafico a barre visualizza una variabile categoriale come una serie di barre. La lunghezza di ogni barra rappresenta la frequenza o la percentuale di valori per ogni categoria. Ogni barra è separata da uno spazio chiamato “gap”.

Il grafico a torta è un cerchio suddiviso in fette che rappresentano le categorie. La dimensione di ogni fetta della torta varia in base alla percentuale di ciascuna categoria.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Il diagramma di pareto

A

 Utilizzato per rappresentare dati categoriali
 Un grafico a barre verticali, in cui le categorie sono mostrate in ordine decrescente di frequenza
 Nello stesso grafico compare un poligono cumulato
 Utilizzato per separare i “pochi importanti” dai “molti banali”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Grafico a barre affiancate

A

Il grafico a barre affiancate rappresenta i dati di una tabella di contingenza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Visualizzazione di dati numerici mediante grafici

A
  • Vettore ordinato: diagramma ramo-foglia;
  • distribuzioni di frequenza e distribuzioni cumulate: istogramma, poligono, Ogiva.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Diagramma ramo-foglia

A

Un modo semplice per vedere come sono distribuiti i dati e dove esistono concentrazioni di dati.
Il diagramma ramo-foglia organizza i dati in gruppi (ramo) in modo che i valori all’interno di ciascun gruppo (foglia) si diramino verso destra su ogni riga.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Istogramma

A

 Un grafico a barre verticali dei dati in una distribuzione di frequenza è chiamato istogramma
 In un istogramma non ci sono spazi tra barre adiacenti
 I confini delle classi (o i punti medi delle classi) sono indicati sull’asse orizzontale
 L’asse verticale rappresenta la frequenza, la frequenza relativa o la frequenza percentuale
 L’altezza delle barre rappresenta la frequenza, la frequenza relativa o la percentuale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Poligono delle percentuali

A

Un poligono delle percentuali si forma facendo in modo che il punto medio di ogni classe rappresenti i dati di quella classe e collegando poi la sequenza di punti medi alle rispettive percentuali di classe
 Il poligono delle frequenze percentuali cumulate, o ogiva, visualizza la variabile di interesse lungo l’asse X e le percentuali cumulate lungo l’asse Y
 Utile quando ci sono due o più gruppi da confrontare

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Visualizzazione di due variabili numeriche

A
  • grafico di dispersione
  • grafico della serie temporale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Diagramma di dispersione

A

I diagrammi di dispersione sono utilizzati per dati numerici costituiti da osservazioni accoppiate di due variabili numeriche
 Una variabile è misurata sull’asse verticale e l’altra sull’asse orizzontale
 I diagrammi di dispersione vengono utilizzati per esaminare le possibili relazioni tra due variabili numeriche

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Grafico di una serie temporale

A

Il grafico di una serie temporale viene utilizzato per studiare come una variabile numerica varia nel tempo
 Il grafico della serie temporale:
- La variabile numerica viene riportata sull’asse verticale ed il tempo viene rappresentato sull’asse orizzontale

17
Q

Tabella di contingenza multidimensionale

A

Una tabella di contingenza multidimensionale viene costruita sommando le risposte di tre o più variabili categoriali.

18
Q

Tabella pivot

A

 Riassume le variabili in una tabella riassuntiva multidimensionale
 Permette di modificare in modo interattivo il livello di riepilogo e la formattazione delle variabili
 Consente di “tagliare” i dati in modo interattivo per riassumere sottoinsiemi di dati che soddisfano criteri specifici
 Può essere utilizzata per scoprire possibili schemi e relazioni in dati multidimensionali che tabelle e grafici più semplici non riescono ad evidenziare.

19
Q

Metodi di data discovery

A

I metodi di ‘data discovery’ consentono di eseguire analisi preliminari manipolando sintesi interattive.
 Sono usati per:
- Osservare più da vicino i dati storici o di stato
- Esaminare i dati alla ricerca di valori anomali
- Scoprire nuovi modelli nei dati
- Il drill-down (scavare a fondo) è forse la forma più semplice di data discovery.

20
Q

Trademark

A

Un trademark visualizza il confronto di due o più variabili utilizzando la dimensione e il colore dei rettangoli per rappresentare i valori.
- Se utilizzato con una o più variabili categoriali, forma una gerarchia a più livelli o un albero che può evidenziare modelli tra le variabili numeriche

21
Q

Migliori pratiche per la costruzione di visualizzazioni

A

 Utilizzare la visualizzazione più semplice possibile
 Includere un titolo
 Etichettare tutti gli assi
 Includere una scala per ogni asse se il grafico contiene assi
 L’asse verticale deve contenere lo zero
 Utilizzare una scala costante
 Evitare gli effetti 3D
 Evitare grafici spazzatura