inferenza Flashcards
distribuzione campio degli stimatori - univariato
se x1,..,xn è un c.c.s di dim n da una normale univariata
- xi distr N1(µ, σ^2)
- xbar distrib N1(µ, σ^2/n)
- (n-1)Su^2/σ^2 distrib Chiquadro^2 (n-1)
- xbar e Su^2 indip
distribuzione campio degli stimatori - multivariato
se x1,..,xn (xi v) è un c.c.s di dim n con xi (v) distrib Np(µ, Σ):
- xbar (v) distrib Np(µ, Σ/n)
- (n-1)Su (m) distrib Wishart (n-1) con matr di scala Σ
- xbar e Su indip
distribuzione di Wishart
Q distrib W(Σ, m)
con Σ e m gdl
se la quantità Q= somm a m di xi*t(xi)
= somma di prodotti di vett casuali normali multivar xi (v) distrib Np(0,Σ)
E(Q) = somm a m di E(xi*t(xi)) = mΣ
proprietà distrib di Wishart
- se A1 distrib W(Σ,m) indip A2 distriv W(Σ,n)
allora A1 + A2 distrib W(Σ, m+n) - se A distrib W(Σ, m)
allora CAt(C) distriv W(CΣt(C), m)
distribuzione T2 di Hotelling
se x distr Nq(µ, Σ) indip M distrib W (Σ, m)
τ = t(x - µ) %% solve(M/n) %% (x - µ)
τ distrib T2(q,m)
con q parametri (dim(x)) e m gld di M
Verifica ipotesi caso multi H0: µ = µo
allora sqrt(n)(xbar - µo) distr Np(0,Σ)
statistica test: T2
T2 = nt(xbar - µo) %% solve(Su) %% (xbar - µo)
con Su <- var(x)(n/(n-1))
T2 distrib (p, n-1)
distrib (((n-1)p)/(n-p))*F p,n-p
relazione T2 di Hotelling e Fisher
In generale T2(q,m) = (m*q/m-q+1)Fq,m-q+1
con Fq,m-q+1 distrivuzione di Fisher risalata
proprietà dustribuzione di Hotelling
Invarianza rispetto a trasfo lineari
y=CX + d
con C matr singolare e X distrib Np(µ, Σ)
c.c.s. x1, …, xn (v)
y distirb (Cxbar+d, CSx*t(C))
H0: µx = µxo == µy = µyo
T2 = nt(xbar - µxo)%%solve(Sx)%%(xbar - µxo)
= nt(ybar - µyo)%%solve(Sy)%%(ybar - µyo)
assenza di assunzione di oss provenienti da una variab casuale normale
Risultati per grandi campioni - TLC
se x1, … , xn oss indip da pop con a µ e Σ finita
per n suff grande >=10p
sqrt(n)(xbar - µ) distrib approx Np(0,Σ)
sostitnuendo Σ con Su non modifica molto l’approssimazione
nt(xbar-µ) %% solve(Su) %% (xbar-µ) distr approx Chiquadro^2 p
idc per le medie marginali µi
e conclusione
insieme di valori plausibili
µ = [µ1,µ2,..,µ4]
se le oss sulle p (=4) variabili provenissero da normali indip, costruendo un idc fi livello 1-α, per ciascuna µi basato sul test t si otterebbe
P[Ii<µi<ui, i=1,..,p] =(1-α)**(1-α) = (1-α)^p
con (1-α)^p < (1-α)
si considerano tutte le variabili e si costruisce una regioine di confidenza
Regione di confidenza per µ
per specifici valori di xbar e S si possono definire regioini di condifenza
P[nt(xbar-µo) %% solve(Su) %% (xbar - µo) =< ((n-1)p)/(n-p))Fp,n-p(1-α)] =1-α
Appartengono alla regione di confidenza tutti i vettori µ t.c. nt(xbar-µ) %% solve(Su) %% (xbar - µ) =< ((n-1)p)/(n-p))Fp,n-p(1-α)
le regioni di confidenza sono degli elissoidi
idc simultanei
basati su F
obb: tutte le affermazioni valgono simultaneamente con una predefinita probabilità
x distrib Np(µ, Σ)
combo lineare: z =a1x1,…,apxp distrib N(t(a)µ, t(a)Σa)
se x1,..xm c.c.s x distrib N(t(a)xbar, t(a)Sxa)
con a fissato, idc per µz si basa su
t= sqrt(n)(zbar-µz)/sqrt(Sz)
= sqrt(n)(t(a)xbar-t(a)µ)/sqrt(t(a)Sxa)
estremi che contengono t(a)µ:
t(a)xbar +- tn-1(1-α/2)sqrt((t(a)Sx*a)/n)
idc simultanei problemi con a fissato e soluzione
fissato a, ciascun intervallo è di livello 1-α, ma non vale per tutti gli intervalli simultaneamente
Per trovare la quantità c tale per cui P(n(t(a)xbar-t(a)µ)^2/t(a)Sxa =< c) = 1-α per ogni a; si determina il max rispetto ad a dell’espessione
ossia nt(xbar-µ)%%solve(Sx)%%(xbar-µ) distrib T2 di Hotelling
con c quantile di Hotelling
se x1,..,xn c.c.s. distrib Np(µ, Σ), allora simultanemanete per ogni a l’idc per la media t(a)µ con probabilità 1-α, ha come estremi t(a)xbar +- sqrt(((n-1)p/n(n-p)Fp,n-p(1-α))t(a)%%Sx%*%a)
idc naive - per sulle singole medie
basate sulla distrib t
xbar +-tn-1(1- α/2)*sqrt(Si/n)
idc di Bonferroni
applicare il metodo di Bonferroni per i confronti multipli
aplha <- 1 - 0.99
xbar +- tn-1((1-(aplha/2)/p))*sqrt(Si/n)
con p numero di variabili