3L:La statistica descrittiva: indici di posizione e di variabilità Flashcards

1
Q

Tendenza centrale

A

La tendenza centrale è la misura in cui i valori di una variabile numerica si raggruppano intorno a un valore tipico o centrale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

La variabilità

A

La variabilità è la misura della dispersione o distanza da un valore centrale che caratterizza i valori di una variabile numerica.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

La forma

A

La forma è l’andamento della distribuzione dei valori dal valore più basso a quello più alto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

La moda

A

 Valore che si verifica più spesso
 Non influenzato da valori estremi
 Utilizzato per dati numerici o categoriali
 Potrebbe non esserci una moda
 Ci possono essere più mode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tendenza centrale

A
  • media aritmetica
  • mediana: valore intermedio nel vettore ordinato;
  • modalità/moda: valore osservato più di frequente.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Misure di variabilità

A

Esse forniscono informazioni sulla diffusione o variabilità o dispersione dei valori dei dati. Consistono in:
- Gamma
- Varianza
- Deviazione standard
- Coefficiente di variazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Campo di variazione/Range

A

La misura più semplice della variabilità; consiste nella differenza tra il valore più grande e quello più piccolo.
Bisogna però sottolineare che:
- non tiene conto della distribuzione dei dati ed è sensibile agli outlier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

La varianza campionaria

A

Media (circa) degli scarti quadratici dei valori rispetto alla media.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Deviazione standard campionaria

A

Si tratta della misura di variabilità più comunemente utilizzata.
- mostra una variazione intorno alla media
- è la radice quadrata della varianza
ha la stessa unità di misura dei dati originali

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Fasi di calcolo della deviazione standard

A

Fasi del calcolo della deviazione standard 1. Calcolare la differenza tra ciascun valore e la media. DCOVA
2. Elevare al quadrato ogni differenza.
3. Sommare le differenza al quadrato.
4. Dividere questo totale per n-1 per ottenere la varianza campionaria.
5. Per ottenere la deviazione standard campionaria, prendere la radice quadrata della varianza campionaria.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Caratteristiche di sintesi delle misure di variabilità

A

 Più i dati sono distribuiti, maggiori sono il Range, la varianza e la deviazione standard  Più i dati sono concentrati, più piccoli sono il Range, la varianza e la deviazione standard.
 Se i valori sono tutti uguali (assenza di variabilità), tutte queste misure sono nulle.  Nessuna di queste misure può assumere valori negativi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Il coefficiente di variazione

A

 Misura la variazione relativa
 Sempre in percentuale (%)
 Mostra la variabilità rispetto alla media
 Può essere utilizzato per confrontare la variabilità di due o più serie di dati misurati in unità di misura diverse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Forma di una distribuzione

A

 Descrizione di come i dati si distribuiscono
 Due utili statistiche relative alla forma sono:
- Skewness: Misura della simmetria
- Curtosi:La curtosi descrive quanto la distribuzione sia piatta, oppure appuntita intorno ad un valore centrale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Individuazione dei valori estremi (outliers): z-score

A

 Per calcolare il punteggio Z di un dato, sottrarre la media e dividere per la deviazione standard
 Il punteggio Z è il numero di deviazioni standard di un valore di dati rispetto alla media.
 Un dato è considerato un outlier se il suo Z-score è minore di 3,0 o maggiore di +3,0.  Quanto più grande è il valore assoluto dello Z-score, tanto più il dato è distante dalla media.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Forma di una distribuzione

A

Essa misura la simmetria della distribuzione dei dati
- media < mediana: distribuzione asimmetrica a sx;
- media=mediana: distribuzione simmetrica;
- media>mediana: distribuzione asimmetrica a dx.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

I quartili

A

I quartili dividono i dati in 4 segmenti con un numero uguale di valori per segmento.
 Il primo quartile, Q1, e’ il valore per il quale il 25% delle osservazioni è più piccolo e il 75% è più grande
 Q2è uguale alla mediana (il 50% delle osservazioni sono più piccoli e il 50% più grandi)
 Solo il 25% delle osservazioni è superiore al terzo quartile

17
Q

Individuazione dei quartili

A

Trovare un quartile determinando il valore nella posizione appropriata nei dati classificati, dove:
- posizione del primo quartile: Q1=(n+1)/4
- posizione del secondo quartile: Q2=(n+1)/2
- posizione del terzo quartile: Q3= 3(n+1)/4
dove n è il numero di valori osservati

18
Q

Regole di calcolo dei quartili

A

 Per il calcolo della posizione in classifica, utilizzare le seguenti regole
- Se il risultato è un numero intero, è quella la posizione da utilizzare
- Se il risultato ha un valore decimale pari a 0,5 (e.g. 2,5, 7,5, 8,5, etc.), si calcola la media dei due valori di dati corrispondenti
- Se il risultato non è un numero intero o una metà frazionaria, esso va arrotondato al numero intero più vicino per trovare la posizione in classifica.

19
Q

L’intervallo interquartilico (IQR)

A
  • L’IQR è pari a Q3– Q1emisura la variazione nel 50% intermedio dei dati
  • L’IQR è anche chiamato midspread perché copre il 50%intermedio dei dati
  • L’IQR è una misura della variabilità che non è influenzata da valori anomali o estremi
  • Indici come Q1, Q3, e IQR che non vengono influenzati da valori anomali sono chiamati indici robuste
20
Q

Sintesi mediante cinque numeri

A

I cinque numeri che aiutano a descrivere il centro, la diffusione e la forma dei dati sono:
Xmin
 Primo Quartile (Q1)
 Mediana (Q2)
 Terzo Quartile (Q3)
 Xmax

21
Q

Boxplot

A

visualizzazione grafica dei dati basata sul riepilogo a cinque numeri.
- Se i dati sono simmetrici intorno alla mediana, il riquadro e la linea centrale sono centrati tra gli estremi.
- Un boxplot può essere visualizzato sia in verticale che in orizzontale.

22
Q

Misure descrittive numeriche per una popolazione

A

Misure sintetiche che descrivono una popolazione, chiamate parametri, sono indicati con lettere greche.

I parametri importanti della popolazione sono la media, la varianza e la deviazione standard della popolazione.

23
Q

Media della popolazione

A

Si indica con m greco. La media della popolazione è la somma dei valori presenti nella popolazione divisa per la numerosità della popolazione, N

24
Q

La varianza di una popolazione

A

Media degli scarti quadratici dei valori rispetto alla media. Si indica con sigma quadro.

25
Deviazione standard di una popolazione
 La misura di variazione più comunemente utilizzata  Mostra la variazione intorno alla media  Radice quadrata della varianza della popolazione  Ha le stesse unità di misura dei dati originali Si indica con sigma
26
La regola empirica
 La regola empirica approssima la variazione dei dati in una distribuzione a campana  Circa il 68% dei dati in una distribuzione a forma di campana si trova all’interno di una deviazione standard della media o μ +- 1sigma  Circa il 95% dei dati in una forma a campana distribuzione si trova all’interno di due deviazioni standard della media, o µ ± 2σ  Circa il 99,7% dei dati in una distribuzione a campana si trova all’interno di tre deviazioni standard della media, o µ± 3σ
27
Utilizzo della regola empirica
 Supponiamo che la variabile punteggi del test SAT di matematica abbia una forma a campana con una media di 500 e una deviazione standard di 90. Allora,  Circa il 68% di tutti i partecipanti al test ha ottenuto un punteggio compreso tra 410 e 590, (500 ± 90).  Circa il 95% di tutti i partecipanti al test ha ottenuto un punteggio tra 320 e 680, (500 ± 180).  Circa il 99,7% di tutti i partecipanti ha ottenuto un punteggio compreso tra 230 e 770, (500 ± 270).
28
La regola di Chebyshev
 Indipendentemente dalla distribuzione dei dati, almeno (1- 1/k2) x 100% dei valori rientreranno in k standard deviazioni della media (for k > 1)
29
La covarianza
 La covarianza misura la forza della relazione lineare tra due variabili numeriche (X & Y)
30
Interpretazione della covarianza
Covarianza tra due variabili: - cov(X,Y) > 0 X e Y tendono a muoversi nella stessa direzione; - cov(X,Y) < 0 X e Y tendono a muoversi in direzioni opposte - cov(X,Y) = 0 X e Y sono indipendenti La covarianza ha un grosso difetto: - Non è possibile determinare la forza relativa della relazione dalla dimensione della covarianza
31
Coefficiente di correlazione
 Misura la forza relativa della relazione lineare tra due variabili numeriche  Coefficiente di correlazione del campione: r = cov(X,Y) /SXSY
32
Caratteristiche del coefficiente di correlazione
 Il coefficiente di correlazione della popolazione è denominato ρ.  Il coefficiente di correlazione del campione è indicato come r.  Sia ρ che r hanno le seguenti caratteristiche: - Numero puro, indipendente dall’unità di misura - Intervallo tra–1 e 1 - Più si avvicina a–1, più è forte la relazione lineare negativa - Quanto più vicino a 1, tanto più è forte la relazione lineare positiva - Quanto più si avvicina a 0, tanto piu’ debole è la relazione lineare
33
Le insidie delle misure descrittive numeriche
 L’analisi dei dati è oggettiva - Riportare le misure di sintesi che meglio descrivono e comunicano gli aspetti importanti del set di dati  L’interpretazione dei dati è soggettiva - Dovrebbe essere fatta in modo equo, neutrale e chiaro