INTRO-ANOVA-MOD. LIN-MISSING Flashcards

aiuto

1
Q

DEF. DI DATA MINING

A

Il data mining è un approccio statistico computazionale, non analitico, basato su algoritmi che analizza correlazioni, anomalie. Crea modelli per grandi dataset.
OBIETTIVO: estrarre informazioni implicite

ANALITICO: si basa su simulazioni, sperimentale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

STATISTICA ROBUSTA

A

Una statistica si dice robusta quando produce risultati inferenziali relativamente insensibili a modifiche nelle assunzioni del modello.
STIMATORE:
- CORRETTO
- EFFICIENTE
- CONSISTENTE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

MODELLO ROBUSTO

A

Un modello è detto robusto se segue le ipotesi e le inferenze ai dati sono coerenti con esse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

MODELLO LINEARE STANDARD

A

Il modello cerca di descrivere la variabile dipendente Y in funzione delle covariate X, partendo da un campione casuale (v.c. IID)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

SIGNIFICATO DEI COEFFICIENTI PARZIALI

A
  • PATH ANALYSIS: effeto di x1 su y al netto di x2, correlazione
  • PARTIAL PLOT: analisi dei residui. regressione di y su x2, x1 su x2. si studia il rapporto sul “quanto non viene spiegato” da x2 sia per y che x1 (tra le due regresse)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

STATISTICHE FIT

A
  • SSE
  • ASE
  • MSE
  • RASE
  • RMSE
  • AIC
  • BIC
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

LM

A
  • lineare nei parametri
  • errori normali
  • omoschedasticità
  • dati continui
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

GLM

A
  • non nec. lineare nei parametri
  • errori flessibili
  • eteroschedasticità
  • dati continui e discreti
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

LMG

A
  • Y normale
  • lineare nei parametri
  • può essere non lineare nelle varibili
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

DEF. ANOVA

A

vale per covariate qualitative.
Confronto globale tra le medie delle r popolazioni in analisi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

ANOVA ONE WAY

A

Aj con j modalità e i osservazioni.
Modello: con alfa (mu j - mu).
- Sistema di ipotesi
- Varianza (SST, SSA, SSE)
- Fa TEST
- type I error se rifiuto –> contrasti

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

ANOVA TWO WAY

A

due fattori A B. valuta sia effetto dei fattori sia interazione fra i due.
- CON: test di hp x ogni fattore + iterazione (3)
- SENZA: test di hp x ogni fattore (2)

Rifiuto H0 –> il fattore è significativo per lo studio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

CONTRASTI

A

combinazione lineare delle medie, generalizzano i confronti tra le medie.
Utilizzati per capire quale media sia diversa. Somma = 0.
- POSTERIORI: Bonferroni (T test) confronti medie dei livelli a coppie

  • PRIORI: livelli scelti a priori, hp pianificate in anticipo in base alla richiesta della ricerca. Contrasti Indip. e Ort. , no info tra loro
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

HP MODELLO ROBUSTO

A
  1. forma funzionale lineare
  2. variabili non stocastiche indipendenti - corr(x,e) = 0
  3. osservazioni indipendenti
  4. campioni rappresentativi (NO OMISSIONE)
  5. errori normali
  6. omogeneità variabilità errori
  7. assenza distorsione da Outlier
  8. assenza multicollinearità
  9. assenza autocorrelazione degli errori

non stocastiche: valore definito, non casuale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

ANCOVA

A

anova + reg. lineare
xij centrata rispetto alla media totale di x
valita le diff. significative tra le medie dei gruppi sulla variabile risposta, tenendo conto degli effetti delle covariate (MISTE).

due interpretazioni:
1. Anova: si studia y al netto di x
2. Reg.Lin. : si studia Y al netto della variabile studiata.

anche con dummy e cov miste.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

MISSING VALUES

A
  • MCAR: random–> complete case analysis
  • MAR: dip var. oss –> imputazione multipla
  • MNAR: dip var. NON oss –> imputazione

IMPUTAZIONE:
- singola: media, moda, mediana. problemi: tempo, varianza,non conta relazione tra cov
- multipla: due tipi:
1. tramite modelli
2. FCS : full conditional methods

17
Q

TIPI DI IMPUTAZIONE

A

IMPUTAZIONE:
- singola: media, moda, mediana. problemi: tempo, varianza,non conta relazione tra cov
- multipla: due tipi:
1. tramite modelli
2. FCS : full conditional methods

18
Q

TIPI GRAFICI

A
  • RESIDUAL vs FITTED: linearità
  • QQ PLOT: normalità
  • SCALE LOCATION: omoschedasticità
  • RESIDUAL vs LEVERAGE: cook
19
Q

GRAFICI RESIDUI

A

B :
- non CONSISTENTI: fupri fanno cagare
- non EFFICIENTI: std. err b cap > std. err b reale. ISTO BASSO
- non CORRETTI: media decentrata dalla distribuzione