Univariata Flashcards

1
Q

la statistica descrittiva

A

è usata per descrivere le caratteristiche di base dei dati raccolti in un esperimento/studio. Fornisce una sintesi semplice del campione e delle misure raccolte.
(in altre parole la statistica descrittiva vale
per ciò che vedo)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

la statistica inferenziale

A

insieme dei metodi che permettono la stima di una caratteristica di una popolazione basandosi sull’analisi di un campione. In altre parole la statistica inferenziale vale per ciò che ho come punto di riferimento (che è la mia popolazione);
[non potendo misurare l’intera
popolazione ma solo una parte di essa baserò le mie analisi su questo campione ma esso mi
consentirà comunque di descrivere con una certa precisione tutta la mia popolazione di interesse.]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Analisi descrittiva univariata

A

Analizzo una variabile alla volta, il mio obiettivo non è cercare relazioni o cause tra dati (bivariata) ma quello di descrivere le caratteristiche di un campione. E’ usata per ottenere un’immagine di base di come appare un campione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

La distribuzione

A

è una rappresentazione del modo in cui le diverse modalità di un carattere si distribuiscono nelle unità statistiche che compongono il collettivo oggetto di studio.

[Le distribuzioni in statistica vengono anche distinte in semplici se si rileva un solo carattere, multiple se si rilevano più caratteri sullo stesso collettivo]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

La distribuzione di frequenza

A

è lo strumento statistico per dare una rappresentazione sintetica dei valori raccolti per quella singola variabile

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Indicatori di locazione (indici di tendenza centrale)

A

Sono la media, la mediana e i quartili

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Indicatori di variabilità (o dispersione)

A

Misura quanto i valori presenti nella distribuzione distano da un valore centrale scelto come riferimento.
E sono la deviazione standard e la varianza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Indicatori di forma

A

Indicano se abbiamo un’asimmetria (curtosi) o una simmetria

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Frequenza assoluta

A

è un primo livello di sintesi dei dati; è il numero di volte in cui si presenta un certo valore di una certa caratteristica emersa durante la rilevazione statistica.
Viene usata con dati quantitativi, qualitativi ordinali, quantitativi discreti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Frequenza relativa

A

è data dal rapporto tra la freq. assoluta della modalità statistica considerata e il numero di unità statistiche.
ossia è il rapporto tra il numero di volte in cui si presenta un certo valore di una variabile statistica e il numero totale delle persone su cui viene condotta l’indagine.

Viene usata con dati quantitativi, qualitativi ordinali, quantitativi discreti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

I dati qualitativi

A

La raccolta di dati qualitativi è un metodo in cui vengono descritte le caratteristiche, gli attributi, le proprietà, le qualità, ecc. Di un fenomeno o di una cosa. È la descrizione dei dati in una lingua piuttosto che in numeri. Questo metodo non misura le caratteristiche ma le descrive.

Per esempio; Colore preferito = blu.

Si sottocategorizzano in:
nominale=categorizza i dati in modo tale che non sia importante l’ordine dei dati
ordinale= è importante l’ordine dei dati

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

I dati quantitativi

A

La raccolta di dati quantitativi (Quantitative Data) è un metodo in cui vengono raccolti dati che possono essere contati o espressi numericamente. E sono rappresentati da istogrammi, tabelle e grafici Si occupa di misure come altezza, lunghezza, volume, area, umidità, temperatura, ecc.

Ad esempio; Altezza = 2,8 m

Si sottocategorizzano in:
discreti: sono dati numerabili e hanno spazio tra i valori
continui: sono dati misurabili, riguardano una sequenza continua

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Come si rappresentano graficamente le variabili qualitative?

A
  • Diagramma a barre
  • Diagramma a torta
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Come si rappresentano graficamente le variabili quantitative?

A
  • Istogramma
  • Diagramma delle frequenze
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quali sono le misure di tendenza centrale?

A
  • media aritmetica
  • mediana
  • moda
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quali sono le misure di tendenza non centrale?

A
  • Quartili
  • Percentili
17
Q

Quali sono le misure di dispersione?

A
  • Campo di variazione
  • Differenza interquantile
  • Varianza
  • Scarto quadratico medio
  • Coefficiente di variazione
18
Q

Quali sono le misure di forma della distribuzione?

A
  • Skewness
  • Kurtosis

Consentono di misurare se abbiamo forma simmetrica o asimmetrica,
descrivendo come i dati sono distribuiti.

19
Q

La media aritmetica

A

E’ la misura di tendenza centrale più comune. E’ data dalla somma dei valori diviso il numero di valori ed è
influenzata da valori estremi (quindi anche dagli outliers), in quanto la media sintetizza tutti i valori assunti dalla mia distribuzione, quindi tutti i valori contribuiscono al calcolo del valore della media (a differenza della mediana che è insensibile ai valori estremi)

20
Q

La mediana

A

In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto) e ha il vantaggio di non essere
influenzata da valori estremi, tuttavia può esser calcolata solo per quelle variabili che consentono un
ordinamento (variabili qualitative ordinali e variabili quantitative)

21
Q

La moda

A

La moda è la classe più numerosa, il valore che
occorre più frequentemente. Il suo vantaggio (come la mediana) è che non è influenzata da valori estremi
e può esser usata sia per dati numerici che categorici.
Può non esserci una moda come ci può essere più di una moda.

22
Q

I quartili

A

I quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori.

Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso
Q2 coincide con la mediana (50% sono minori, 50% sono maggiori). Solo 25% delle osservazioni sono maggiori del terzo quartile.

23
Q

Cos’è il Boxplot

A

Il boxplot è un grafico statistico che si utilizza per variabili quantitative. E’ molto utile per capire se la distribuzione è simmetrica oppure asimmetrica e per confrontare la forma di più distribuzioni. Ma soprattutto ti permette di identificare in modo rapido e preciso valori anomali e outliers.

24
Q

A cosa servono le misure di variabilità?

A

Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori.

25
Q

Il campo di variazione

A

E’ La più semplice misura di variabilità, data dalla differenza tra il massimo e il minimo dei valori osservati
Inoltre, ignora il modo in cui sono inseriti i dati ed è sensibile agli outlier
campo di variazione= Xmassimo - X minimo

26
Q

La differenza Interquartile

A

Possiamo eliminare il problema degli outlier usando la differenza interquartile: essa elimina i valori
osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati.

differenza interq.= 3° quartile(25%) - 1° quartile (25%)

[rimane il 50%]

27
Q

La varianza

A

La varianza è la media dei quadrati delle differenze fra ciascuna osservazione e la media; è un indicatore di
variabilità espresso in unità di misura diverso dal valor medio.
Per risolvere tale problema bisogna calcolare un indicatore che consenta di ragionare in termini di scostamento con la stessa unità di misura (per capire di quanto mi sto discostando dal valor medio), quindi devo usare il coefficiente di variazione

28
Q

Scarto quadratico medio o deviazione standard
√varianza

A

Lo scarto quadratico medio (o standard deviation) è la misura di variabilità comunemente usata; mostra la variabilità rispetto alla media e ha la stessa unità di misura dei dati originali. Si ottiene facendo la radice quadrata della varianza.

[E’ lo scostamento del singolo caso dal valor medio, preso al quadrato e non come valore assoluto, per enfatizzare le situazioni in cui ho casi estremi (outliers), qualora presenti, in quanto essi possono attrarre a
sé il valor medio, influenzandolo notevolmente.]
Viene calcolato usando tutti i valori nel set di dati. Valori lontani dalla media hanno più peso (poichè si usa il quadrato delle deviazioni dalla media). Le stesse considerazioni valgono anche per il calcolo della Varianza.

29
Q

Cos’è il valor medio? (detto anche valore atteso di X)

A

Il valor medio o valore atteso di X indica attorno a quale valore ci si aspetta che cadano i valori assunti da X; esso rappresenta quindi, una misura di tendenza centrale.

30
Q

Coefficiente di variazione

A

Misura la variabilità rispetto alla media in %. Si usa per confrontare set di dati con unità di misura differenti

31
Q

La forma della distribuzione

A
  • Simmetrica: La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro.
  • Assimetrica: a se le osservazioni non sono distribuite in modo simmetrico rispetto al centro e si articola ulteriormente:
    1. assimetria positiva: (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi.
    1. assimetria negativa: (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi.
32
Q

L’indice di SKEWNESS

A

Indice che informa circa il grado di simmetria o asimmetria di una distribuzione
- Y = 0: distribuzione perfettamente simmetrica
- Y < 0: asimmetria negativa (mediana > media)
- Y > 0: asimmetria positiva (mediana < media)

33
Q

L’indice di KURTOSIS

A

Indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica).
- β = 3 se la distribuzione è “Normale”;
- β < 3 se la distribuzione è iponormale (rispetto alla distribuzione di una Normale ha densità di
frequenza minore per valori molto distanti dalla media);
- β > 3 se la distribuzione è ipernormale (rispetto alla distribuzione di una Normale ha densità di
frequenza maggiore per i valori molto distanti dalla media).