Statistica Flashcards
Dimmi cos’è la statistica (scienza dello stato)
insieme dei principi e dei metodi per la raccolta, elaborazione, utilizzazione e interpretazione di informazioni riguardanti fenomeni collettivi.
Dimmi cosa sono le unità statistiche
le entità elementari a cui si riferiscono le informazioni di interesse
Dimmi cos’è una variabile
Una variabile è l’informazione di interesse di un’indagine
Dimmi cosa fa la statistica descrittiva
Fornisce gli strumenti per rappresentare, sintetizzare ed interpretare il modo in cui un fenomeno di interesse si è manifestato nel collettivo osservato
Dimmi cosa fa la statistica inferenziale
Ha l’obiettivo di generalizzare i risultati osservati sul campione all’intera popolazione (rappresentata dal campione). Per fare questo si basa sulla teoria della probabilità
Dimmi cos’è la popolazione
La popolazione è l’insieme di tutte le unità che costituiscono il gruppo che si è interessati ad analizzare
Dimmi cos’è il campione
Il campione è l’insieme delle unità statistiche omogenee rispetto a qualche circostanza di interesse
Dimmi come si dividono le variabili
- categoriche/qualitative (nominali: sì/no e ordinali: presentano un grado o livello)
- numeriche/quantitative (discrete: ottenute tramite conteggio e continue: hanno unità di misura)
Dimmi come si rappresentano le variabili categoriche
- Distribuzione di frequenze
- Diagramma a barre
- Diagramma a torta
Dimmi come si rappresentano le variabili numeriche
- Distribuzione di frequenze
- Istogramma
- Ogiva
- Box-plot
Dimmi cos’è una distribuzione di frequenza
è una tabella contenente le categorie (o intervallo di valori) che si osservano nei dati e le corrispondenti frequenze con cui i dati appartengono alle categorie (o intervallo di valori)
Dimmi cos’è la frequenza assoluta (ni)
Il numero di volte in cui in una categoria di n unità statistiche è osservata la variabile di indagine
Dimmi cos’è la frequenza relativa
Frequenza relativa(pi) = Frequenza assoluta (ni) / n. totale di osservazioni (n)
Dimmi 3 cose sui diagrammi a barre
- Ciascuna barra è associata ad una categoria della variabile considerata
- Tutte le barre hanno la stessa larghezza
- L’altezza delle barre è proporzionale alle frequenze
delle categorie
Dimmi 2 cose sui diagrammi a torta
- La torta è divisa in tante fette quante sono le categorie della variabile categorica considerata
- L’ampiezza di ciascuna fetta è proporzionale alla frequenza della categoria corrispondente
Dimmi cosa sono le classi e quando sono necessarie
intervalli disgiunti e che coprono l’intero intervallo di valori. Per le variabili numeriche le osservazioni possono assumere molti valori diversi tra loro. In questi casi si suddivide l’insieme dei valori che la variabile può assumere in intervalli, detti classi
Dimmi come si determina l’ampiezza di ciascuna classe
Ampiezza dell’intervallo = valore massimo−valore minimo / numero di classi
Dimmi com’è la notazione degli intervalli per i valori numerici
a ⊣ b indica tutti i valori da a (escluso) a b (incluso),
a ⊢ b indica tutti i valori da a (incluso) a b (escluso),
a ⊢⊣ b indica tutti i valori da a (incluso) a b (incluso).
Dimmi 3 cose sull’istogramma
- Un grafico dei dati contenuti in una distribuzione di frequenze per dati numerici suddivisi in classi è chiamato istogramma
- Gli estremi degli intervalli sono rappresentati sull’asse orizzontale.
- L’asse verticale rappresenta la frequenza delle classi. L’altezza delle barre rappresentare il numero di osservazioni in ciascuna classe (o la frequenza relativa di ciascuna classe).
Dimmi cos’è la frequenza relativa cumulativa
La frequenza cumulativa per ogni classe, è la frequenza relativa fino alla classe considerata inclusa
Dimmi cos’è un’Ogiva
Linea che rappresenta le frequenze cumulative. Graficamente si presenta come una spezzata che unisce i punti che hanno per ascisse gli estremi degli intervalli e per ordinate le corrispondenti frequenze relative cumulative
Dimmi quando la forma della distribuzione è simmetrica o asimmetrica
La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro.
La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro. (Con coda a sx o a dx)
Dimmi quali sono gli obiettivi per una presentazione efficace dei dati
• Presentare i dati in modo da mostrare le informazioni essenziali.
•Comunicare idee complesse chiaramente ed in modo accurato.
• Evitare distorsioni che possono comunicare il messaggio sbagliato.
Dimmi quali sono degli errori nella presentazione dei dati
•Diversa ampiezza delle classi di intervallo in un istogramma che rappresenta le frequenze/freq. relative
• Compressione o distorsione dell’asse verticale
• Omissione dello zero sull’asse verticale
• Non fornire una base di riferimento per il confronto di
dati di diversi gruppi.
Dimmi come si descrivono numericamente i dati (2)
- tendenza centrale
- variabilità
Dimmi quali sono le misure di tendenza centrale (centralità)/ indici di posizione (3)
- media
- mediana
- moda
Dimmi 4 cose sulla media
- è la misura di tendenza centrale più comune
- somma dei valori diviso il numero di valori
- Può essere calcolata solo per variabili quantitative
- è influenzata dai valori estremi (outlier)
Dimmi qual è la prima proprietà della media
- la somma degli scarti delle osservazioni (i valori xi) dalla relativa media è uguale a zero
Dimmi qual è la seconda proprietà della media
- la media è un operatore lineare
Dimmi 5 cose sulla mediana
- In una lista di numeri ordinati in ordine crescente, la mediana è il valore “centrale” (50% prima, 50% dopo)
- Non influenzata da valori estremi
- posizione centrale = (n+1)/2
- Se n è dispari, la mediana è l’osservazione al centro della lista ordinata
- Se n è pari la mediana è la media delle due osservazioni che hanno la posizione attorno a quella centrale.
N.B. (n+1)/2 non è il valore della mediana, ma la posizione della mediana nella sequenza ordinata.
Dimmi 3 cose sulla moda
- Valore che ricorre più frequentemente
- non influenzata da valori estremi
- può non esserci una moda (quando tutti i valori hanno la stessa frequenza)
- ci può essere più di una moda (quando più di un valore ha la frequenza massima) (distribuzione plurimodale)
Dimmi come individuare asimmetrie nella forma di distribuzione
- se mediana < media si ha un’asimmetria con coda a destra
- Se si osserva che mediana > media la distribuzione è asimmetrica con coda a sinistra
Dimmi quali sono le misure di variabilità (5)
- campo di variazione
- differenza interquartile
- varianza
- deviazione standard
- coefficiente di variazione
Dimmi cosa fanno le misure di variabilità
Misurano grado con cui le variabili si dispongono intorno a un indice di centralità. Forniscono informazioni sulla dispersione o variabilità dei valori
Dimmi 2 cose sul campo di variazione
- Il campo di variazione (o Range) è la più semplice misura di variabilità
- È la differenza tra il massimo e il minimo dei valori osservati
Dimmi quali sono gli svantaggi del campo di variazione
- Ignora il modo in cui i dati sono distribuiti
- Sensibile agli outlier
Dimmi cosa sono i quartili
I quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori
Dimmi 1 cosa per ogni quartile
• Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso.
• Q2 coincide con la mediana (50% sono minori, 50% sono maggiori).
• Solo 25% delle osservazioni sono maggiori del terzo quartile, Q3
Dimmi come si calcolano i quartili
Un quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, dove
Posizione primo quartile (Q1) = n+1/4 = 0.25(n+1)
Posizione secondo quartile (Q2) = 2(n+1)/4= 0.50(n+1) (la posizione della mediana)
Posizione terzo quartile (Q3) = 3(n+1)/4= 0.75(n+1)
dove n è il numero di valori osservati
Dimmi 4 cose sul boxplot
- Il boxplot visualizza minimo, massimo e quartili di una variabile numerica
- È costruito in maniera tale che la scatola (che si estende da Q1 a Q3) contenga il 50% delle osservazioni
- La mediana è rappresentata da una linea che attraversa la scatola centrale.
- Le linee che si estendono a partire dalla scatola sono chiamate baffi e vanno fino al massimo e fino al minimo.
Dimmi 4 cose sulla differenza interquartile
- Diversamente dal campo di variazione, la differenza interquartile non risente della presenza di outlier
• Considera solo l’intervallo che contiene il 50% dei dati centrali e rappresenta l’ampiezza di questo intervallo.
• Differenza Interquartile (IQR) = 3° quartile – 1° quartile IQR=Q3 –Q1 - Si può valutare la % di IQR rispetto al campo di variazione: IQR/Range (%). Più IQR/Range (%) si avvicina ad 1 maggiore è la dispersione.
Dimmi cos’è la varianza
- Si basa sulla differenze tra ciascuna osservazione e la loro media (scarto)
- VARIANZA = media degli scarti al quadrato
Dimmi la formula ridotta della varianza
Dimmi quali sono le proprietà della varianza
- la varianza di una costante è pari a zero
- la varianza è un operatore quadratico
Dimmi 3 cose sulla deviazione standard
- Misura di variabilità comunemente usata
- Mostra la variabilità rispetto alla media
- Ha la stessa unità di misura dei dati originali
Dimmi 2 cose sulla deviazione standard (pt 2)
- sensibile agli outlier
Dimmi 3 cose sul coefficiente di variazione
- Misura la variabilità relativa rispetto alla media
- È espresso in percentuale (%)
- Può essere usato per confrontare due o più variabili misurate con unità di misura diversa o con un diverso ordine di grandezza delle misurazioni
Dimmi cos’è lo Z-score o valore standardizzato e come si trova
- è il numero di deviazioni standard di cui un dato valore x è sopra o sotto la media
- si trova traducendo un dato in una scala standardizzata
Dimmi quali sono media e varianza dello Z-score
- M= 0
- s^2= 1
Dimmi a cosa serve l’analisi bivariata
- L’analisi bivariata ci consente di valutare se esiste una relazione tra due variabili. In particolare, le due variabili sono indipendenti oppure dipendenti?
- Vogliamo sapere se la distribuzione di una delle due variabili (Y) varia in base ai diversi valori dell’altra variabile (X).
Dimmi perché dipende da non vuol dire causalità
l’esistenza di un’associazione tra X e Y non significa dimostrare che tra X e Y c’è un rapporto di causa-effetto …
… potrebbe esserci anche una variabile Z (latente o non nota) da cui dipendono sia X che Y che mette in relazione le due variabili
Dimmi come si valuta relazione tra due variabili quantitative (4)
- diagramma a dispersione
- covarianza
- coefficiente di correlazione lineare di Pearson
- regressione lineare e R^2
Dimmi cosa si intende con il termine correlazione
Ciò che analizza se esiste una relazione tra due variabili (come e quanto due variabili variano insieme, studio della co-variazione)
- relazione simmetrica
Dimmi cosa si intende con il termine regressione
Ciò che analizza la forma della relazione tra variabili, assumendo il ruolo delle variabili (i valori di una variabile dipendono dai valori dell’altra variabile)
- relazione asimmetrica
Dimmi 3 cose sul diagramma a dispersione o scatterplot
- fornisce una rappresentazione grafica dell’andamento congiunto delle due variabili quantitative
- Gli assi cartesiani del diagramma a dispersione rappresentano i valori delle due variabili (una ascissa, una ordinata)
- L’insieme dei punti nel diagramma a dispersione si chiama nuvola di punti
Dimmi 3 cose sul diagramma a dispersione (pt 2)
• Se le due variabili sono statisticamente indipendenti, i punti si presentano sparpagliati sul diagramma, senza alcuna struttura
• Se tra le due variabili c’è una relazione statistica, la nuvola di punti si presenta strutturata. Questa struttura ci dà informazioni sul tipo di relazione esistente
• Osservando la nuvola di punti possiamo dedurre informazioni sulla forma, sulla forza e sulla direzione della relazione fra due variabili quantitative
Dimmi 2 cose sulla sommatoria
- il simbolo di sommatoria viene utilizzato per indicare in maniera compatta la somma di più elementi
- il parametro i è un intero e rappresenta l’indice della sommatoria
Dimmi la prima proprietà della sommatoria
- Se tutti i termini della sommatoria hanno lo stesso valore c che non dipende dall’indice (ossia
x1 = c, x2 = c, . . .), allora
Dimmi la seconda proprietà della sommatoria
- la sommatoria può essere scomposta
Dimmi la terza proprietà della sommatoria
- la sommatoria è un operatore lineare
Dimmi quali sono gli indici di dispersione (2)
- varianza
- deviazione standard
Dimmi 3 cose sulla covarianza
- indica come varia X al variare di Y
- misura il segno della relazione lineare tra 2 variabili (se diretta o inversa)
- misura come le 2 variabili si discostano dai loro valori medi
Dimmi quali sono i 3 scenari in base al valore della covarianza
- positiva: al crescere di X, Y cresce (direttamente correlate)
- negativa: al crescere di X, Y decresce (inversamente correlate)
- uguale a 0: X e Y non sono linearmente correlate
Dimmi 4 cose sul coefficiente di Pearson
- si calcola sulla base dei valori della covarianza
- fornisce indicazione se relazione lineare è diretta o inversa tra 2 variabili e quanto è forte la relazione
- non ha unità di misura
- varia tra -1 e 1
Dimmi i 3 scenari in base al valore del coefficiente di Pearson
- positivo: al crescere di X, cresce anche Y. Quanto più è vicino a 1 tanto è più forte la relazione lineare
- negativo: al crescere di X, Y decresce. Quanto è più vicino a -1, tanto è più forte la relazione lineare negativa
= uguale a 0: X e Y non sono linearmente correlate
Dimmi se il coefficiente di Pearson è influenzato dagli outliers
Si fortemente
Dimmi qual è l’obiettivo dell’analisi di regressione
Esprimere la relazione tra due o più variabili in forma matematica (equazione)
Y= f(X)
Y= variabile di risposta / dipendente
X= variabile esplicativa / indipendente
Dimmi qual è lo scopo della statistica
La conoscenza quantitativa dei fenomeni collettivi
Dimmi cosa è necessario per estendere un indagine campionaria a tutta la popolazione
Un campione casuale
Dimmi cosa si intende per campionamento stratificato
Campionamento su popolazione di riferimento su cui si possiedono già alcune informazioni a priori
Dimmi il modo principale per acquisizione dati
Intervista
Dimmi quali sono i principali obiettivi di un’analisi statistica (2)
- sintetizzare dati
- minimizzare perdita di informazione
Dimmi tra cosa sono compresi i valori della frequenza assoluta
Tra 0 e il numero totale di osservazioni