Univariata Flashcards
la statistica descrittiva
è usata per descrivere le caratteristiche di base dei dati raccolti in un esperimento/studio. Fornisce una sintesi semplice del campione e delle misure raccolte.
(in altre parole la statistica descrittiva vale
per ciò che vedo)
la statistica inferenziale
insieme dei metodi che permettono la stima di una caratteristica di una popolazione basandosi sull’analisi di un campione. In altre parole la statistica inferenziale vale per ciò che ho come punto di riferimento (che è la mia popolazione);
[non potendo misurare l’intera
popolazione ma solo una parte di essa baserò le mie analisi su questo campione ma esso mi
consentirà comunque di descrivere con una certa precisione tutta la mia popolazione di interesse.]
Analisi descrittiva univariata
Analizzo una variabile alla volta, il mio obiettivo non è cercare relazioni o cause tra dati (bivariata) ma quello di descrivere le caratteristiche di un campione. E’ usata per ottenere un’immagine di base di come appare un campione.
La distribuzione
è una rappresentazione del modo in cui le diverse modalità di un carattere si distribuiscono nelle unità statistiche che compongono il collettivo oggetto di studio.
[Le distribuzioni in statistica vengono anche distinte in semplici se si rileva un solo carattere, multiple se si rilevano più caratteri sullo stesso collettivo]
La distribuzione di frequenza
è lo strumento statistico per dare una rappresentazione sintetica dei valori raccolti per quella singola variabile
Indicatori di locazione (indici di tendenza centrale)
Sono la media, la mediana e i quartili
Indicatori di variabilità (o dispersione)
Misura quanto i valori presenti nella distribuzione distano da un valore centrale scelto come riferimento.
E sono la deviazione standard e la varianza
Indicatori di forma
Indicano se abbiamo un’asimmetria (curtosi) o una simmetria
Frequenza assoluta
è un primo livello di sintesi dei dati; è il numero di volte in cui si presenta un certo valore di una certa caratteristica emersa durante la rilevazione statistica.
Viene usata con dati quantitativi, qualitativi ordinali, quantitativi discreti.
Frequenza relativa
è data dal rapporto tra la freq. assoluta della modalità statistica considerata e il numero di unità statistiche.
ossia è il rapporto tra il numero di volte in cui si presenta un certo valore di una variabile statistica e il numero totale delle persone su cui viene condotta l’indagine.
Viene usata con dati quantitativi, qualitativi ordinali, quantitativi discreti.
I dati qualitativi
La raccolta di dati qualitativi è un metodo in cui vengono descritte le caratteristiche, gli attributi, le proprietà, le qualità, ecc. Di un fenomeno o di una cosa. È la descrizione dei dati in una lingua piuttosto che in numeri. Questo metodo non misura le caratteristiche ma le descrive.
Per esempio; Colore preferito = blu.
Si sottocategorizzano in:
nominale=categorizza i dati in modo tale che non sia importante l’ordine dei dati
ordinale= è importante l’ordine dei dati
I dati quantitativi
La raccolta di dati quantitativi (Quantitative Data) è un metodo in cui vengono raccolti dati che possono essere contati o espressi numericamente. E sono rappresentati da istogrammi, tabelle e grafici Si occupa di misure come altezza, lunghezza, volume, area, umidità, temperatura, ecc.
Ad esempio; Altezza = 2,8 m
Si sottocategorizzano in:
discreti: sono dati numerabili e hanno spazio tra i valori
continui: sono dati misurabili, riguardano una sequenza continua
Come si rappresentano graficamente le variabili qualitative?
- Diagramma a barre
- Diagramma a torta
Come si rappresentano graficamente le variabili quantitative?
- Istogramma
- Diagramma delle frequenze
Quali sono le misure di tendenza centrale?
- media aritmetica
- mediana
- moda
Quali sono le misure di tendenza non centrale?
- Quartili
- Percentili
Quali sono le misure di dispersione?
- Campo di variazione
- Differenza interquantile
- Varianza
- Scarto quadratico medio
- Coefficiente di variazione
Quali sono le misure di forma della distribuzione?
- Skewness
- Kurtosis
Consentono di misurare se abbiamo forma simmetrica o asimmetrica,
descrivendo come i dati sono distribuiti.
La media aritmetica
E’ la misura di tendenza centrale più comune. E’ data dalla somma dei valori diviso il numero di valori ed è
influenzata da valori estremi (quindi anche dagli outliers), in quanto la media sintetizza tutti i valori assunti dalla mia distribuzione, quindi tutti i valori contribuiscono al calcolo del valore della media (a differenza della mediana che è insensibile ai valori estremi)
La mediana
In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto) e ha il vantaggio di non essere
influenzata da valori estremi, tuttavia può esser calcolata solo per quelle variabili che consentono un
ordinamento (variabili qualitative ordinali e variabili quantitative)
La moda
La moda è la classe più numerosa, il valore che
occorre più frequentemente. Il suo vantaggio (come la mediana) è che non è influenzata da valori estremi
e può esser usata sia per dati numerici che categorici.
Può non esserci una moda come ci può essere più di una moda.
I quartili
I quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori.
Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso
Q2 coincide con la mediana (50% sono minori, 50% sono maggiori). Solo 25% delle osservazioni sono maggiori del terzo quartile.
Cos’è il Boxplot
Il boxplot è un grafico statistico che si utilizza per variabili quantitative. E’ molto utile per capire se la distribuzione è simmetrica oppure asimmetrica e per confrontare la forma di più distribuzioni. Ma soprattutto ti permette di identificare in modo rapido e preciso valori anomali e outliers.
A cosa servono le misure di variabilità?
Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori.