3L:La statistica descrittiva: indici di posizione e di variabilità Flashcards
Tendenza centrale
La tendenza centrale è la misura in cui i valori di una variabile numerica si raggruppano intorno a un valore tipico o centrale.
La variabilità
La variabilità è la misura della dispersione o distanza da un valore centrale che caratterizza i valori di una variabile numerica.
La forma
La forma è l’andamento della distribuzione dei valori dal valore più basso a quello più alto.
La moda
Valore che si verifica più spesso
Non influenzato da valori estremi
Utilizzato per dati numerici o categoriali
Potrebbe non esserci una moda
Ci possono essere più mode
Tendenza centrale
- media aritmetica
- mediana: valore intermedio nel vettore ordinato;
- modalità/moda: valore osservato più di frequente.
Misure di variabilità
Esse forniscono informazioni sulla diffusione o variabilità o dispersione dei valori dei dati. Consistono in:
- Gamma
- Varianza
- Deviazione standard
- Coefficiente di variazione
Campo di variazione/Range
La misura più semplice della variabilità; consiste nella differenza tra il valore più grande e quello più piccolo.
Bisogna però sottolineare che:
- non tiene conto della distribuzione dei dati ed è sensibile agli outlier.
La varianza campionaria
Media (circa) degli scarti quadratici dei valori rispetto alla media.
Deviazione standard campionaria
Si tratta della misura di variabilità più comunemente utilizzata.
- mostra una variazione intorno alla media
- è la radice quadrata della varianza
ha la stessa unità di misura dei dati originali
Fasi di calcolo della deviazione standard
Fasi del calcolo della deviazione standard 1. Calcolare la differenza tra ciascun valore e la media. DCOVA
2. Elevare al quadrato ogni differenza.
3. Sommare le differenza al quadrato.
4. Dividere questo totale per n-1 per ottenere la varianza campionaria.
5. Per ottenere la deviazione standard campionaria, prendere la radice quadrata della varianza campionaria.
Caratteristiche di sintesi delle misure di variabilità
Più i dati sono distribuiti, maggiori sono il Range, la varianza e la deviazione standard Più i dati sono concentrati, più piccoli sono il Range, la varianza e la deviazione standard.
Se i valori sono tutti uguali (assenza di variabilità), tutte queste misure sono nulle. Nessuna di queste misure può assumere valori negativi.
Il coefficiente di variazione
Misura la variazione relativa
Sempre in percentuale (%)
Mostra la variabilità rispetto alla media
Può essere utilizzato per confrontare la variabilità di due o più serie di dati misurati in unità di misura diverse
Forma di una distribuzione
Descrizione di come i dati si distribuiscono
Due utili statistiche relative alla forma sono:
- Skewness: Misura della simmetria
- Curtosi:La curtosi descrive quanto la distribuzione sia piatta, oppure appuntita intorno ad un valore centrale
Individuazione dei valori estremi (outliers): z-score
Per calcolare il punteggio Z di un dato, sottrarre la media e dividere per la deviazione standard
Il punteggio Z è il numero di deviazioni standard di un valore di dati rispetto alla media.
Un dato è considerato un outlier se il suo Z-score è minore di 3,0 o maggiore di +3,0. Quanto più grande è il valore assoluto dello Z-score, tanto più il dato è distante dalla media.
Forma di una distribuzione
Essa misura la simmetria della distribuzione dei dati
- media < mediana: distribuzione asimmetrica a sx;
- media=mediana: distribuzione simmetrica;
- media>mediana: distribuzione asimmetrica a dx.
I quartili
I quartili dividono i dati in 4 segmenti con un numero uguale di valori per segmento.
Il primo quartile, Q1, e’ il valore per il quale il 25% delle osservazioni è più piccolo e il 75% è più grande
Q2è uguale alla mediana (il 50% delle osservazioni sono più piccoli e il 50% più grandi)
Solo il 25% delle osservazioni è superiore al terzo quartile
Individuazione dei quartili
Trovare un quartile determinando il valore nella posizione appropriata nei dati classificati, dove:
- posizione del primo quartile: Q1=(n+1)/4
- posizione del secondo quartile: Q2=(n+1)/2
- posizione del terzo quartile: Q3= 3(n+1)/4
dove n è il numero di valori osservati
Regole di calcolo dei quartili
Per il calcolo della posizione in classifica, utilizzare le seguenti regole
- Se il risultato è un numero intero, è quella la posizione da utilizzare
- Se il risultato ha un valore decimale pari a 0,5 (e.g. 2,5, 7,5, 8,5, etc.), si calcola la media dei due valori di dati corrispondenti
- Se il risultato non è un numero intero o una metà frazionaria, esso va arrotondato al numero intero più vicino per trovare la posizione in classifica.
L’intervallo interquartilico (IQR)
- L’IQR è pari a Q3– Q1emisura la variazione nel 50% intermedio dei dati
- L’IQR è anche chiamato midspread perché copre il 50%intermedio dei dati
- L’IQR è una misura della variabilità che non è influenzata da valori anomali o estremi
- Indici come Q1, Q3, e IQR che non vengono influenzati da valori anomali sono chiamati indici robuste
Sintesi mediante cinque numeri
I cinque numeri che aiutano a descrivere il centro, la diffusione e la forma dei dati sono:
Xmin
Primo Quartile (Q1)
Mediana (Q2)
Terzo Quartile (Q3)
Xmax
Boxplot
visualizzazione grafica dei dati basata sul riepilogo a cinque numeri.
- Se i dati sono simmetrici intorno alla mediana, il riquadro e la linea centrale sono centrati tra gli estremi.
- Un boxplot può essere visualizzato sia in verticale che in orizzontale.
Misure descrittive numeriche per una popolazione
Misure sintetiche che descrivono una popolazione, chiamate parametri, sono indicati con lettere greche.
I parametri importanti della popolazione sono la media, la varianza e la deviazione standard della popolazione.
Media della popolazione
Si indica con m greco. La media della popolazione è la somma dei valori presenti nella popolazione divisa per la numerosità della popolazione, N
La varianza di una popolazione
Media degli scarti quadratici dei valori rispetto alla media. Si indica con sigma quadro.