Descrizione analitica dei dati Flashcards

1
Q

Quali sono gli indici di tendenza centralE?

A

MODA, MEDIANA, MEDIA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quali sono gli indici di variabilità?

A

Range

Differenza interquartilica

Varianza

Deviazione standard

Coefficiente di variazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cosa è la media?

A

la media è data dalla somma dei valori, diviso il numero di valori

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cosa è la media geometrica?

A

è utilizzata per dati che seguono una distribuzione log normale, ossia quando il fenomeno da osservare è di tipo moltiplicativo.

Corrisponde alla radice ennesima del prodotto delle osservazioni.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cosa è la media armonica?

A

la media armonica è usata per dati relativi alla misura del tempo ed è pari all’inverso della media dei reciproci

in generale una media è un valore che si trova esattamente al centro di una distribuzione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cosa è la mediana ?

A

è quel valore che in una serie ordinata di valori si trova esattamente a metà.

Cioè che presenta al di sopra e al di sotto il 50% dei valori.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

cosa è la moda?

A

è il valore più frequente nell’insieme dei dati. ad esso non è possibile applicare l’inferenza.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

cosa è un percentile?

A

è un valore al di sotto del quale c’è una certa percentuale di valori.

ad esempio, la mediana corrisponde al 50esimo percentile.

come si calcola il percentile?

si ordina in senso crescente la variabile

si calcola il prodotto fra il numero di osservazioni per il percentile che si vuol calcolare

se il valore è intero allora il percentile è uguale alla media fra un valore e il successivo

se non è intero è pari al valore successivo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cosa è il Range interquartilico?

A

dividendo la distribuzione in 4 quartili, 25% per ognuno, il range interquartilico si definisce come la differenza fra il terzo e il primo quartile, e rappresenta il 50% delle osservazoni. Il 25% sarà al di sotto e il 25% al di sopra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

A cosa serve il box plot?

A

serve a rappresentare i percentili.

i dati vengono posti in ordine verticale, dal più grande al più piccolo.

è definito come uno scatolo e baffi, la sua latezza è data dalla differenza fra venticinquesimo e settantacinquesimo percentile. Al di sotto della scatola avremo il 25% dei valori così come al di sora della scatola.

la mediana si trova al centro dello scatolo

ci sono poi gli outlier che si trovano al di sopra della differenza interquartilica o al di sotto.

il trattino, chiamato “baffo” indica il valore più estremo ma che comunque rientra nella distribuzione.

la differenza tra il valore massimo e minimo si chiama range, e serve a capire quanta variabilità c’è nel gruppo da descrivere.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Cosa è la Varianza ?

A

è l’indice di variabilità per eccellenza, ed eè indicata come la sommatoria degli scostamenti delle singole osservazioni dalla media. poi dividere la sommatoria per N cioè il numero totale dei dati

Tuttavia bisogna considerare che:

al numeratore la sommatoria della varianza che prende il nome di DEVIANZA, ha il difetto di tendere a zero perchè la media non è altro che il valore che sostituito alle singole osservazioni, non ne altera la somma.

per evitare ciò allora si usano due stratagemmi: si può elevare ogni scostamento al quadrato, oppure considerare la somma dei valori assoluti.

nell’ultimo caso si otterrebbe lo scarto quadratico medio, un altro indice di variabilità.

Per quanto riguarda il denominatore, biosgna considerare i gradi di libertà, cioè N-1 perchè 1 è l’ultimo valore che può essere determinato dalla differenza del totale meno tutti gli altri valori, quindi non è libero.

tuttavia, elevando al quadrato si potrebbero ottenere diverse unità di misura che non permetterebbero il confronto dei dati, ecco perchè, si definisce DEVIAZIONE STANDARD, la radice quadrata della varianza,

essenzialmente sono la stessa cosa, con la differenza che la varianza potrebbe avere una unità di misura diversa, mentre la deviazione standard no.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Cosa è il coefficiente di variazione?

A

è dato dalla deviazione standard fratto la media e quindi è pari ad indice di variabilità diviso indice medio.

poichè hanno la stessa unità di misura, il coefficiente è adimensionale.

essendo adimensionale permette di confrontare fenomeni diversi fra loro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

L’errore standard

A

è pari alla deviazione standard diviso la radice di N

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

le lettere greche

A

indicano parametri della popolazione, quelle latine invece sono utilizzate per le stime sul campione, cioè quando non si conoscono i valori nella popolazione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

La distribuzione di probabilità

A

è simile alla distribuzione di frequenza.

se la variabile è discreta allora ci sarà una distribuzione di probabilità per ogni valore della variabile.

se in questa distribuzione, le probabilità sono tutte uguali come nel lancio di un dado, si parla di distribuzione uniforme.

Se la variabile è continua, non si può associare ad ogni risultato una probabilità, infatti le variabili continue si analizzano in classi.

in questo caso allora si calcola la probabilità per un intervallo di valori non per un singolo valore.

più grande è il campione, più la distribuzione teorica tende a quella empirica

X grande indica tutti i risultati di un esperimento

x piccolo è un valore assunto da X grande

P(X=x) è la probabilità che X grande assuma il valore x piccolo.

se f(x) è la funzione di probabilità, la sommatoria di tutte le probabilità successive è detta distribuzione di probabilità cumulata.

Se la variabile Xgrande è continua, si calcolerà la probabilità di un evento in un intervallo.

per calcolare la probabilità cumulata in un intervallo sarebbe necessario risolvere un integrale.

se risolvessimo l’integrale tra meno e più infinito il risultato sarebbe 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

La distribuzione Binomiale

A

è una distribuzione discreta, assume solo valori interi.

ad esempo ci possono essere 2 risultati: vivo o morto, una sequenza di prove di bernoulli costituiscono un processo di bernoulli.

Ogni prova può assumere solo uno dei 2 risultati che sono mutualmente esclusivi, uno definito successo, l’altro fallimento.

la probabilità di successo, è costante per ogni prova, la probabilità di fallimento è invece 1-p

ogni prova è indipendente, cioè il risultato di una prova non influenza le altre.

ad esempio, se voglio calcolare la probabilità di una certa sequenza di nascite, cioè 5 femmine su 8 nascite si usa la regola del prodotto ovvero se la probabilità che nasca una femmina è p allora la probabilità di questa sequenza sarà p ^5 per q^3.

tuttavia ci sono tante combinazioni possibili perchè può cambiare l’ordine con cui i bambini nascono, allora si usa il calcolo combinatorio, dove (nx) che sillegge n su x nonostante non sia una frazione dove

n è la numerosità totale quindi 8 fattoriale

diviso x fattoriale cioè il numero di successi per 3 fattoriale cioè il numero di fallimenti

di conseguenza si ottiene 56 che va moltiplicato per p^5 e Q^3

questa è la distribuzione binomiale, indicata con B(n,p)

essa avrà una media chiamata valore atteso che si indica con E(X) dove E sta per expected

la media sarà pari ad np cioè numero di soggetti per probabilità di successo

la varianza sarà il prodotto npq

17
Q

La distribuzione di poisson

A

viene utilizzata per variabili discrete anche quando gli eventi sono distribuiti casualmente nello spazio. è molto usata in ambito biologico per fare una conta dei batteri sulle piastre ad esempio.

per far si che degli eventi seguano la distribuzione di poisson, è necessario che:

in un determinato intervallo gli eventi accadono indipendentemente

più grande è l’intervallo di tempo, maggiore è la probabilità che si verifichi l’evento.

in una parte dell’intervallo, la probabilità che si verifichi più di un evento è trascurabile.

Indicando con X una certa variabile, la distribuzione di poisson si indica come f(x) = e ^-lambda per lambda elevato ad x, tutto diviso x fattoriale.

Dove x ha valoi discreti quindi 1,2 ,3

f(x) in un punto è pari a 0

lambda corrisponde alla media nella distribuzione di poisson.

nella distribuzione di poisson, media e varianza coincidono.

la distribuzioen binomiale può essere approssimata alla poisson se n tende ad infinito, quindi il numero di prove n è molto grande, e la probabilità di successo tende a 0.

se invece p=0.5 e ed n tende ad infinito la binomiale si approssima alla gauss.

18
Q

La distribuzione normale o di gauss

A

è una distribuzione continua

viene rappresentata con un istogramma

sulle ascisse pongo i valori della variabile divisa in classi, sulle ordinate ci sono le frequenze.

la frequenza dei valori è pari all’area della curva.

se si uniscono i punti medi, si ottiene un poligono di frequenza, una spezzata che unisce i punti medi.

man mano che gli intervalli diventano sempre più piccoli, si ottiene una linea continua.

si ottiene una distribuzione a campana, dove i valori più frequenti sono nella parte centrale

è anche definita la distribuzione degli errori, perchè le code della campana sono dovuti a misurazioni errate.

ad esempio la media segue la distribuzione di Gauss, vale a dire che conoscere questa distribuzione, ci permette di conoscere le probabilità associate a tutti gli intervalli possibili.

f(x) = 1/sigma per radice di 2 pi greco per esponenziale di meno 1/2 per valore meno media diviso deviazione standard elevato al quadrato.

i parametri della gaussiana sono la media e la deviazione standard

la media è il valore che si trova esattamente al centro della distribuzione, e coincide in questo caso con mediana e moda.

la deviazione standard invece, coincide con il punto in cui la curva cambia direzione, ed è un indice di dispersione, infatti rappresenta l’ampiezza della curva.

19
Q

Quali sono le caratteristiche principali della curva gaussiana?

A

è simmetrica attorno alla media

media mediana mda coincidono

l’area sotto la curva corrisponde ad 1

l’area compresa sotto linervallo media ad 1 deviazione standard racchiude il 68%

2 deviazioni standard 95%

3 deviazioni standard 99.7%

la media con 1 deviazione standard ad esempio, rappresenta il 68 % probabilita di avere un valore che cada nell’intervallo.

quindi conoscendo media e deviazione standard, è possibile capire la probabilità che un valore cada in un certo intervallo

l’indice di asimmetria pari a 0 indica una curva normale
maggiore di zero ha la coda destra allungata

minore di 0 coda ha sinistra allungata

L’INDICE DI CURTOSI

se è pari a 3 la curva è normale
minore di 3 è molto appuntita
maggiore di 3 sarà più bassa

esistono dei grafici che servono a valutare se la distribuzione è assimilabile ad una gaussiana.

AL FINE DI NON USARE GLI INTEGRALI si fa una operazione chiamata standardizzazione, cioè si pone la media uguale a 0 e la deviazione standard pari a 1

di questa curva sono già stati calcolati tutti gli integrali, quindi ad un valore di z possiamo associare una certa probabilità.

la funzione di questo tipo diventa: F(z)= 1/ radice di due pigreco esponenziale di meno zeta al quadrato mezzi.

z sarà uguale a variabile meno media diviso deviazione standard

20
Q
A