INDIPENDENZA STATISTICA Flashcards
come possono essere le variabili?
dipendente (risposta): è la variabile che misura un fenomeno e che ci interessa studiare.
indipendente (esplicativa): è la variabile che può spiegare la variabilità della variabile risposta
quando esiste associazione o dipendenza tra due variabili?
esiste associazione o dipendenza tra due variabili se la distribuzione della variabile risposta cambia al variare della variabile esplicativa
cosa sono le distribuzioni condizionate?
le distribuzioni condizionate consentono di osservare la distribuzione di una delle variabili condizionatamente alle modalità dell’altra variabile
qual è la definizione di frequenza condizionata o vincolata?
le frequenze condizionate fj|i sono il rapporto tra la numerosità congiunta nij e la numerosità marginale di riga corrispondente ni* / sono il rapporto tra la frequenza congiunta fij e la frequenza marginale di riga corrispondente fi*.
si possono calcolare per riga o per colonna
formula frequenza condizionata (numerosità)
f j|i = nij/ni*
formula frequenza condizionata (frequenza)
f j|i = fij/fi*
qual è la condizione di quadro delle frequenze condizionate?
1, per riga o per colonna
quando c’è indipendenza stocastica / statistica?
c’è indipendenza statistica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionate di X.
formula indipendenza statistica
f j|i = fj per ogni i,j
f i|j = fi per ogni i,j
qual è la condizione necessaria e sufficiente dell’indipendenza statistica?
se c’è indipendenza, allora le frequenze sono fattorizzabili.
se le frequenze sono fattorizzabili, allora c’è indipendenza statistica
cos’è la fattorizzazione delle frequenze?
la fattorizzazione delle frequenze consente di dire che, data una tabella a doppia entrata, l’unico caso in cui sono sicura che ci sia indipendenza statistica è il caso in cui le congiunte devono essere uguali al rapporto tra le due marginali corrispondenti diviso N
formula fattorizzazione delle frequenze
f j|i = fj per ogni i,j se nij=nije=(ni* nj)/N
f i|j = fi per ogni i,j se fij* = fije = fi* f*j
cosa sono le numerosità congiunte teoriche /expected
è il valore in un caso teorico. nij*o nije
nijo sono le numerosità osservare realmente, dalla tabella iniziale
qual è l’indice sentinella dell’indipendenza statistica?
è l’indice chi quadrato di Pearson.
misura il grado di connessione (dipendenza) tra 2 v.s.
formula chi ^2
X^2 = Sommatoria per i che va da 1 a r Sommatoria per j che va da 1 a s di (cij)^2 / nije
cosa sono le contingenze?
la contingenza (nijo-nije) racconta lo scostamento tra una numerosità osservata e quella teorica.
come si fa a misurare il grado di scostamento della distribuzione congiunta globalmente?
si devono calcolare le singole contingenze, poi farne una media e metterla al quadrato. poi riportarle all’odg dividendo per nije.
quali sono le caratteristiche di chi quadrato?
- è sempre >0 perchè sono numeri alla ^2
- =0 in caso di indipendenza stocastica
- =1 se massima connessione.
formula operativa chi quadrato
X^2 = N [sommatoria per i,j da 1 a r,s di ((nijo)^2/ni+ nj )-1]
formula chi quadrato massimo
X^2max = N [min (r, s) - 1]
massimo = (minore tra il numero di r o s, -1 ) per N
quando chi quadrato è massimo?
quando c’è massima connessione. tabella quadrata
formula chi quadrato normalizzato
X^2* = X2 / X^2max
come si vede se c’è indipendenza statistica?
- distribuzioni condizionate f i|j e f j|i. se le condizionate non cambiano, allora c’è indipendenza f i|j = f*j per ogni i,j
- verifica della fattorizzazione delle frequenze nij = nij*
in caso di indipendenza statistica, chi ^2*=0
come si vede se c’è massima dipendenza?
- distribuzioni condizionate f i|j e f j|i. se le condizionate sono tutte diverse tra loro e diverse dalla marginale di colonna, allora c’è massima connessione f i|j =/ f*j per ogni i,j
- chi ^2 * =1
qual è la definizione di massima o perfetta dipendenza funzionale?
una variabile Y dipende funzionalmente da una variabile X se ad ogni modalità osservata di X corrisponde una e una sola modalità osservata di Y.
- non implica che ci sia una relazione quantitativa monotona.
- non implica che le v.s. coinvolte siano quantitative
quando la dipendenza funzionale è massima?
cosa misura chi quadrato?
il grado di connessione