INTRO-ANOVA-MOD. LIN-MISSING Flashcards
aiuto
DEF. DI DATA MINING
Il data mining è un approccio statistico computazionale, non analitico, basato su algoritmi che analizza correlazioni, anomalie. Crea modelli per grandi dataset.
OBIETTIVO: estrarre informazioni implicite
ANALITICO: si basa su simulazioni, sperimentale
STATISTICA ROBUSTA
Una statistica si dice robusta quando produce risultati inferenziali relativamente insensibili a modifiche nelle assunzioni del modello.
STIMATORE:
- CORRETTO
- EFFICIENTE
- CONSISTENTE
MODELLO ROBUSTO
Un modello è detto robusto se segue le ipotesi e le inferenze ai dati sono coerenti con esse.
MODELLO LINEARE STANDARD
Il modello cerca di descrivere la variabile dipendente Y in funzione delle covariate X, partendo da un campione casuale (v.c. IID)
SIGNIFICATO DEI COEFFICIENTI PARZIALI
- PATH ANALYSIS: effeto di x1 su y al netto di x2, correlazione
- PARTIAL PLOT: analisi dei residui. regressione di y su x2, x1 su x2. si studia il rapporto sul “quanto non viene spiegato” da x2 sia per y che x1 (tra le due regresse)
STATISTICHE FIT
- SSE
- ASE
- MSE
- RASE
- RMSE
- AIC
- BIC
LM
- lineare nei parametri
- errori normali
- omoschedasticità
- dati continui
GLM
- non nec. lineare nei parametri
- errori flessibili
- eteroschedasticità
- dati continui e discreti
LMG
- Y normale
- lineare nei parametri
- può essere non lineare nelle varibili
DEF. ANOVA
vale per covariate qualitative.
Confronto globale tra le medie delle r popolazioni in analisi
ANOVA ONE WAY
Aj con j modalità e i osservazioni.
Modello: con alfa (mu j - mu).
- Sistema di ipotesi
- Varianza (SST, SSA, SSE)
- Fa TEST
- type I error se rifiuto –> contrasti
ANOVA TWO WAY
due fattori A B. valuta sia effetto dei fattori sia interazione fra i due.
- CON: test di hp x ogni fattore + iterazione (3)
- SENZA: test di hp x ogni fattore (2)
Rifiuto H0 –> il fattore è significativo per lo studio.
CONTRASTI
combinazione lineare delle medie, generalizzano i confronti tra le medie.
Utilizzati per capire quale media sia diversa. Somma = 0.
- POSTERIORI: Bonferroni (T test) confronti medie dei livelli a coppie
- PRIORI: livelli scelti a priori, hp pianificate in anticipo in base alla richiesta della ricerca. Contrasti Indip. e Ort. , no info tra loro
HP MODELLO ROBUSTO
- forma funzionale lineare
- variabili non stocastiche indipendenti - corr(x,e) = 0
- osservazioni indipendenti
- campioni rappresentativi (NO OMISSIONE)
- errori normali
- omogeneità variabilità errori
- assenza distorsione da Outlier
- assenza multicollinearità
- assenza autocorrelazione degli errori
non stocastiche: valore definito, non casuale
ANCOVA
anova + reg. lineare
xij centrata rispetto alla media totale di x
valita le diff. significative tra le medie dei gruppi sulla variabile risposta, tenendo conto degli effetti delle covariate (MISTE).
due interpretazioni:
1. Anova: si studia y al netto di x
2. Reg.Lin. : si studia Y al netto della variabile studiata.
anche con dummy e cov miste.
MISSING VALUES
- MCAR: random–> complete case analysis
- MAR: dip var. oss –> imputazione multipla
- MNAR: dip var. NON oss –> imputazione
IMPUTAZIONE:
- singola: media, moda, mediana. problemi: tempo, varianza,non conta relazione tra cov
- multipla: due tipi:
1. tramite modelli
2. FCS : full conditional methods
TIPI DI IMPUTAZIONE
IMPUTAZIONE:
- singola: media, moda, mediana. problemi: tempo, varianza,non conta relazione tra cov
- multipla: due tipi:
1. tramite modelli
2. FCS : full conditional methods
TIPI GRAFICI
- RESIDUAL vs FITTED: linearità
- QQ PLOT: normalità
- SCALE LOCATION: omoschedasticità
- RESIDUAL vs LEVERAGE: cook
GRAFICI RESIDUI
B :
- non CONSISTENTI: fupri fanno cagare
- non EFFICIENTI: std. err b cap > std. err b reale. ISTO BASSO
- non CORRETTI: media decentrata dalla distribuzione