Descrizione analitica dei dati Flashcards
Quali sono gli indici di tendenza centralE?
MODA, MEDIANA, MEDIA
Quali sono gli indici di variabilità?
Range
Differenza interquartilica
Varianza
Deviazione standard
Coefficiente di variazione
Cosa è la media?
la media è data dalla somma dei valori, diviso il numero di valori
Cosa è la media geometrica?
è utilizzata per dati che seguono una distribuzione log normale, ossia quando il fenomeno da osservare è di tipo moltiplicativo.
Corrisponde alla radice ennesima del prodotto delle osservazioni.
Cosa è la media armonica?
la media armonica è usata per dati relativi alla misura del tempo ed è pari all’inverso della media dei reciproci
in generale una media è un valore che si trova esattamente al centro di una distribuzione.
Cosa è la mediana ?
è quel valore che in una serie ordinata di valori si trova esattamente a metà.
Cioè che presenta al di sopra e al di sotto il 50% dei valori.
cosa è la moda?
è il valore più frequente nell’insieme dei dati. ad esso non è possibile applicare l’inferenza.
cosa è un percentile?
è un valore al di sotto del quale c’è una certa percentuale di valori.
ad esempio, la mediana corrisponde al 50esimo percentile.
come si calcola il percentile?
si ordina in senso crescente la variabile
si calcola il prodotto fra il numero di osservazioni per il percentile che si vuol calcolare
se il valore è intero allora il percentile è uguale alla media fra un valore e il successivo
se non è intero è pari al valore successivo.
Cosa è il Range interquartilico?
dividendo la distribuzione in 4 quartili, 25% per ognuno, il range interquartilico si definisce come la differenza fra il terzo e il primo quartile, e rappresenta il 50% delle osservazoni. Il 25% sarà al di sotto e il 25% al di sopra.
A cosa serve il box plot?
serve a rappresentare i percentili.
i dati vengono posti in ordine verticale, dal più grande al più piccolo.
è definito come uno scatolo e baffi, la sua latezza è data dalla differenza fra venticinquesimo e settantacinquesimo percentile. Al di sotto della scatola avremo il 25% dei valori così come al di sora della scatola.
la mediana si trova al centro dello scatolo
ci sono poi gli outlier che si trovano al di sopra della differenza interquartilica o al di sotto.
il trattino, chiamato “baffo” indica il valore più estremo ma che comunque rientra nella distribuzione.
la differenza tra il valore massimo e minimo si chiama range, e serve a capire quanta variabilità c’è nel gruppo da descrivere.
Cosa è la Varianza ?
è l’indice di variabilità per eccellenza, ed eè indicata come la sommatoria degli scostamenti delle singole osservazioni dalla media. poi dividere la sommatoria per N cioè il numero totale dei dati
Tuttavia bisogna considerare che:
al numeratore la sommatoria della varianza che prende il nome di DEVIANZA, ha il difetto di tendere a zero perchè la media non è altro che il valore che sostituito alle singole osservazioni, non ne altera la somma.
per evitare ciò allora si usano due stratagemmi: si può elevare ogni scostamento al quadrato, oppure considerare la somma dei valori assoluti.
nell’ultimo caso si otterrebbe lo scarto quadratico medio, un altro indice di variabilità.
Per quanto riguarda il denominatore, biosgna considerare i gradi di libertà, cioè N-1 perchè 1 è l’ultimo valore che può essere determinato dalla differenza del totale meno tutti gli altri valori, quindi non è libero.
tuttavia, elevando al quadrato si potrebbero ottenere diverse unità di misura che non permetterebbero il confronto dei dati, ecco perchè, si definisce DEVIAZIONE STANDARD, la radice quadrata della varianza,
essenzialmente sono la stessa cosa, con la differenza che la varianza potrebbe avere una unità di misura diversa, mentre la deviazione standard no.
Cosa è il coefficiente di variazione?
è dato dalla deviazione standard fratto la media e quindi è pari ad indice di variabilità diviso indice medio.
poichè hanno la stessa unità di misura, il coefficiente è adimensionale.
essendo adimensionale permette di confrontare fenomeni diversi fra loro.
L’errore standard
è pari alla deviazione standard diviso la radice di N
le lettere greche
indicano parametri della popolazione, quelle latine invece sono utilizzate per le stime sul campione, cioè quando non si conoscono i valori nella popolazione.
La distribuzione di probabilità
è simile alla distribuzione di frequenza.
se la variabile è discreta allora ci sarà una distribuzione di probabilità per ogni valore della variabile.
se in questa distribuzione, le probabilità sono tutte uguali come nel lancio di un dado, si parla di distribuzione uniforme.
Se la variabile è continua, non si può associare ad ogni risultato una probabilità, infatti le variabili continue si analizzano in classi.
in questo caso allora si calcola la probabilità per un intervallo di valori non per un singolo valore.
più grande è il campione, più la distribuzione teorica tende a quella empirica
X grande indica tutti i risultati di un esperimento
x piccolo è un valore assunto da X grande
P(X=x) è la probabilità che X grande assuma il valore x piccolo.
se f(x) è la funzione di probabilità, la sommatoria di tutte le probabilità successive è detta distribuzione di probabilità cumulata.
Se la variabile Xgrande è continua, si calcolerà la probabilità di un evento in un intervallo.
per calcolare la probabilità cumulata in un intervallo sarebbe necessario risolvere un integrale.
se risolvessimo l’integrale tra meno e più infinito il risultato sarebbe 1.