Descrizione analitica dei dati Flashcards
Quali sono gli indici di tendenza centralE?
MODA, MEDIANA, MEDIA
Quali sono gli indici di variabilità?
Range
Differenza interquartilica
Varianza
Deviazione standard
Coefficiente di variazione
Cosa è la media?
la media è data dalla somma dei valori, diviso il numero di valori
Cosa è la media geometrica?
è utilizzata per dati che seguono una distribuzione log normale, ossia quando il fenomeno da osservare è di tipo moltiplicativo.
Corrisponde alla radice ennesima del prodotto delle osservazioni.
Cosa è la media armonica?
la media armonica è usata per dati relativi alla misura del tempo ed è pari all’inverso della media dei reciproci
in generale una media è un valore che si trova esattamente al centro di una distribuzione.
Cosa è la mediana ?
è quel valore che in una serie ordinata di valori si trova esattamente a metà.
Cioè che presenta al di sopra e al di sotto il 50% dei valori.
cosa è la moda?
è il valore più frequente nell’insieme dei dati. ad esso non è possibile applicare l’inferenza.
cosa è un percentile?
è un valore al di sotto del quale c’è una certa percentuale di valori.
ad esempio, la mediana corrisponde al 50esimo percentile.
come si calcola il percentile?
si ordina in senso crescente la variabile
si calcola il prodotto fra il numero di osservazioni per il percentile che si vuol calcolare
se il valore è intero allora il percentile è uguale alla media fra un valore e il successivo
se non è intero è pari al valore successivo.
Cosa è il Range interquartilico?
dividendo la distribuzione in 4 quartili, 25% per ognuno, il range interquartilico si definisce come la differenza fra il terzo e il primo quartile, e rappresenta il 50% delle osservazoni. Il 25% sarà al di sotto e il 25% al di sopra.
A cosa serve il box plot?
serve a rappresentare i percentili.
i dati vengono posti in ordine verticale, dal più grande al più piccolo.
è definito come uno scatolo e baffi, la sua latezza è data dalla differenza fra venticinquesimo e settantacinquesimo percentile. Al di sotto della scatola avremo il 25% dei valori così come al di sora della scatola.
la mediana si trova al centro dello scatolo
ci sono poi gli outlier che si trovano al di sopra della differenza interquartilica o al di sotto.
il trattino, chiamato “baffo” indica il valore più estremo ma che comunque rientra nella distribuzione.
la differenza tra il valore massimo e minimo si chiama range, e serve a capire quanta variabilità c’è nel gruppo da descrivere.
Cosa è la Varianza ?
è l’indice di variabilità per eccellenza, ed eè indicata come la sommatoria degli scostamenti delle singole osservazioni dalla media. poi dividere la sommatoria per N cioè il numero totale dei dati
Tuttavia bisogna considerare che:
al numeratore la sommatoria della varianza che prende il nome di DEVIANZA, ha il difetto di tendere a zero perchè la media non è altro che il valore che sostituito alle singole osservazioni, non ne altera la somma.
per evitare ciò allora si usano due stratagemmi: si può elevare ogni scostamento al quadrato, oppure considerare la somma dei valori assoluti.
nell’ultimo caso si otterrebbe lo scarto quadratico medio, un altro indice di variabilità.
Per quanto riguarda il denominatore, biosgna considerare i gradi di libertà, cioè N-1 perchè 1 è l’ultimo valore che può essere determinato dalla differenza del totale meno tutti gli altri valori, quindi non è libero.
tuttavia, elevando al quadrato si potrebbero ottenere diverse unità di misura che non permetterebbero il confronto dei dati, ecco perchè, si definisce DEVIAZIONE STANDARD, la radice quadrata della varianza,
essenzialmente sono la stessa cosa, con la differenza che la varianza potrebbe avere una unità di misura diversa, mentre la deviazione standard no.
Cosa è il coefficiente di variazione?
è dato dalla deviazione standard fratto la media e quindi è pari ad indice di variabilità diviso indice medio.
poichè hanno la stessa unità di misura, il coefficiente è adimensionale.
essendo adimensionale permette di confrontare fenomeni diversi fra loro.
L’errore standard
è pari alla deviazione standard diviso la radice di N
le lettere greche
indicano parametri della popolazione, quelle latine invece sono utilizzate per le stime sul campione, cioè quando non si conoscono i valori nella popolazione.
La distribuzione di probabilità
è simile alla distribuzione di frequenza.
se la variabile è discreta allora ci sarà una distribuzione di probabilità per ogni valore della variabile.
se in questa distribuzione, le probabilità sono tutte uguali come nel lancio di un dado, si parla di distribuzione uniforme.
Se la variabile è continua, non si può associare ad ogni risultato una probabilità, infatti le variabili continue si analizzano in classi.
in questo caso allora si calcola la probabilità per un intervallo di valori non per un singolo valore.
più grande è il campione, più la distribuzione teorica tende a quella empirica
X grande indica tutti i risultati di un esperimento
x piccolo è un valore assunto da X grande
P(X=x) è la probabilità che X grande assuma il valore x piccolo.
se f(x) è la funzione di probabilità, la sommatoria di tutte le probabilità successive è detta distribuzione di probabilità cumulata.
Se la variabile Xgrande è continua, si calcolerà la probabilità di un evento in un intervallo.
per calcolare la probabilità cumulata in un intervallo sarebbe necessario risolvere un integrale.
se risolvessimo l’integrale tra meno e più infinito il risultato sarebbe 1.
La distribuzione Binomiale
è una distribuzione discreta, assume solo valori interi.
ad esempo ci possono essere 2 risultati: vivo o morto, una sequenza di prove di bernoulli costituiscono un processo di bernoulli.
Ogni prova può assumere solo uno dei 2 risultati che sono mutualmente esclusivi, uno definito successo, l’altro fallimento.
la probabilità di successo, è costante per ogni prova, la probabilità di fallimento è invece 1-p
ogni prova è indipendente, cioè il risultato di una prova non influenza le altre.
ad esempio, se voglio calcolare la probabilità di una certa sequenza di nascite, cioè 5 femmine su 8 nascite si usa la regola del prodotto ovvero se la probabilità che nasca una femmina è p allora la probabilità di questa sequenza sarà p ^5 per q^3.
tuttavia ci sono tante combinazioni possibili perchè può cambiare l’ordine con cui i bambini nascono, allora si usa il calcolo combinatorio, dove (nx) che sillegge n su x nonostante non sia una frazione dove
n è la numerosità totale quindi 8 fattoriale
diviso x fattoriale cioè il numero di successi per 3 fattoriale cioè il numero di fallimenti
di conseguenza si ottiene 56 che va moltiplicato per p^5 e Q^3
questa è la distribuzione binomiale, indicata con B(n,p)
essa avrà una media chiamata valore atteso che si indica con E(X) dove E sta per expected
la media sarà pari ad np cioè numero di soggetti per probabilità di successo
la varianza sarà il prodotto npq
La distribuzione di poisson
viene utilizzata per variabili discrete anche quando gli eventi sono distribuiti casualmente nello spazio. è molto usata in ambito biologico per fare una conta dei batteri sulle piastre ad esempio.
per far si che degli eventi seguano la distribuzione di poisson, è necessario che:
in un determinato intervallo gli eventi accadono indipendentemente
più grande è l’intervallo di tempo, maggiore è la probabilità che si verifichi l’evento.
in una parte dell’intervallo, la probabilità che si verifichi più di un evento è trascurabile.
Indicando con X una certa variabile, la distribuzione di poisson si indica come f(x) = e ^-lambda per lambda elevato ad x, tutto diviso x fattoriale.
Dove x ha valoi discreti quindi 1,2 ,3
f(x) in un punto è pari a 0
lambda corrisponde alla media nella distribuzione di poisson.
nella distribuzione di poisson, media e varianza coincidono.
la distribuzioen binomiale può essere approssimata alla poisson se n tende ad infinito, quindi il numero di prove n è molto grande, e la probabilità di successo tende a 0.
se invece p=0.5 e ed n tende ad infinito la binomiale si approssima alla gauss.
La distribuzione normale o di gauss
è una distribuzione continua
viene rappresentata con un istogramma
sulle ascisse pongo i valori della variabile divisa in classi, sulle ordinate ci sono le frequenze.
la frequenza dei valori è pari all’area della curva.
se si uniscono i punti medi, si ottiene un poligono di frequenza, una spezzata che unisce i punti medi.
man mano che gli intervalli diventano sempre più piccoli, si ottiene una linea continua.
si ottiene una distribuzione a campana, dove i valori più frequenti sono nella parte centrale
è anche definita la distribuzione degli errori, perchè le code della campana sono dovuti a misurazioni errate.
ad esempio la media segue la distribuzione di Gauss, vale a dire che conoscere questa distribuzione, ci permette di conoscere le probabilità associate a tutti gli intervalli possibili.
f(x) = 1/sigma per radice di 2 pi greco per esponenziale di meno 1/2 per valore meno media diviso deviazione standard elevato al quadrato.
i parametri della gaussiana sono la media e la deviazione standard
la media è il valore che si trova esattamente al centro della distribuzione, e coincide in questo caso con mediana e moda.
la deviazione standard invece, coincide con il punto in cui la curva cambia direzione, ed è un indice di dispersione, infatti rappresenta l’ampiezza della curva.
Quali sono le caratteristiche principali della curva gaussiana?
è simmetrica attorno alla media
media mediana mda coincidono
l’area sotto la curva corrisponde ad 1
l’area compresa sotto linervallo media ad 1 deviazione standard racchiude il 68%
2 deviazioni standard 95%
3 deviazioni standard 99.7%
la media con 1 deviazione standard ad esempio, rappresenta il 68 % probabilita di avere un valore che cada nell’intervallo.
quindi conoscendo media e deviazione standard, è possibile capire la probabilità che un valore cada in un certo intervallo
l’indice di asimmetria pari a 0 indica una curva normale
maggiore di zero ha la coda destra allungata
minore di 0 coda ha sinistra allungata
L’INDICE DI CURTOSI
se è pari a 3 la curva è normale
minore di 3 è molto appuntita
maggiore di 3 sarà più bassa
esistono dei grafici che servono a valutare se la distribuzione è assimilabile ad una gaussiana.
AL FINE DI NON USARE GLI INTEGRALI si fa una operazione chiamata standardizzazione, cioè si pone la media uguale a 0 e la deviazione standard pari a 1
di questa curva sono già stati calcolati tutti gli integrali, quindi ad un valore di z possiamo associare una certa probabilità.
la funzione di questo tipo diventa: F(z)= 1/ radice di due pigreco esponenziale di meno zeta al quadrato mezzi.
z sarà uguale a variabile meno media diviso deviazione standard