State-of-the-art methods for identifying statistical outliers Flashcards

(44 cards)

1
Q

Mikä on SD menetelmän kaava?

A

x<ka-lambdakeskihajonta tai x>ka+lambdakeskihajonta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Mikä on GMM kaava?

A

x<ka-lambdakeskihajonta tai
x>ka+lambda
keskihajonta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

rSD kaava?

A

x>ka+lambdakeskihajonta tai
x>ka-lambda
keskihajonta

tätä jatketaan n kertaa niin kauan kuin löytyy outliereitä

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

IQR kaava?

A

x<md-lambdaiqr
tai
x>md+lambda
iqr

-alakvartiili P25 ja yläkvartiili P75

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

prctile kaava?

A

x>𝑷(alaviite 𝝀)
x<𝑷(alaviite 𝟏−𝝀)

Esimerkki lasku:
0,10⋅ (12+1) =1,3
0,90⋅ (12+1) =11,7
𝑃 (alaviite10)=1,5 𝑃 (alaviite90)=10

Jossa 12 on otokoko ja nyt hylättäisiin ensimmäinen ja viimeinen arvo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tukeyn kaava?

A

𝒙 > (𝑷 (alaviite𝟕𝟓) +𝝀𝒊𝒒𝒓)
tai
𝒙 < (𝑷 (alaviite𝟐𝟓) −𝝀𝒊𝒒𝒓)

P(alaviite75) on aineiston 75% kohdalle osuva numero

P(alaviite25) on aineiston 25% kohdalle osuva numero

IQR=P(alaviite75) miinus P(alaviite25)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Miten MAD lasketaan MAD kaavassa?

A
  1. Miinustetaan jokainen haviantoarvo aineiston mediaanista
  2. Muutetaan jokainen saatu luku positiiviseksi
  3. Asetetaan saadut luvut suuruusjärjestykseen ja katsotaan näistä luvuista mediaani
  4. MAD
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Miten lopullinen MAD arvo lasketaan?

A
  1. Miinustetaan aineiston jokainen arvo aineiston mediaanilla ja muutetaan positiiviseksi
  2. Jaetaan jokainen luku MAD-arvolla
  3. Katsotaan mitkä saadut arvot ovat yli lambda-arvon = outlierit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Miten Sn kaavaa käytetään?

A
  1. Miinustetaan jokainen aineiston arvo aineiston jokaisella muulla arvolla (ei itsellään)
  2. Otetaan jokaiselta riviltä saatujen lukuarvojen mediaanit
  3. Otetaan mediaaneista niiden mediaani
  4. Mediaani kerrotaan c-kertoimella = saadaan Sn
  5. Nyt jokaiselle riville saatu oma mediaani jaetaan Sn-luvulla
  6. Katsotaan onko mikään arvo yli lambda arvon
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Mitkä testit ovat parametrisiä(keskihajontapohjaisia) testejä?

A

SD, GMM, rSD

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Mitkä testi ovat epäparametrisiä (mediaani/kvartiilipohjaisia) testejä?

A

IQR, prctile, Tukey, MADn, Sn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Miksi on SD menetelmää kutsutaan?

A

Keskihajonta menetelmäksi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Mitkä ovat SD:n puutteet?

A

Keskiarvo ja keskihajonta helposti vääristyvät hyvin poikkeavien arvojen seurauksena
→ masking = suuret outlierit saattavat piilottaa pienempiä

Jos aineisto on normaalijakautunut ja 𝜆 = 2 johtaa siihen että 5% aineistosta hylätään outliereina. Jos data ei noudata normaalijakaumaa, osuus voi pahimmillaan olla 25%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

GMM menetelmässä kumpi 𝑁(𝜇1 , 𝜎 1) ja 𝑁(𝜇2 , 𝜎2 ) on peräisin oikeasta jakaumasta ja kumpi väärästä?

A

𝑁(𝜇1 , 𝜎 1) oikeasta
𝑁(𝜇2 , 𝜎2 ) väärästä

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Mikä idea on GMM menetelmässä?

A

Tunnistaa tietokoneella kaksi erilaista jakaumaa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Mikä idea on kahden eri jakauman tunnistamissa GMM-mentelmässä?

A

Tunnistamalla kaksi eri jakaumaa pyritään estämään se, että poikkeavat havainnot vaikuttavat aineiston keskiarvoon ja hajontaan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Mikä on Gaussin komponentti?

A

Normaalijakauma

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Mikä on Gaussin komponentin tehtävä?

A

Tunnistaa tilastollisia poikkeavuuksia

19
Q

Mitä GMM:ssä voidaan lisätä?

A

Kolmas tai neljäs normaaljakauma

20
Q

rSD:n nimitys?

A

Rekursiivinen keskihajontamenetelmä

21
Q

Mikä ero on rSD:llä ja SD:llä

A

rSD:tä toistetaan niin kauan kun kaikista poikkeavuuksista on päästy eroon

22
Q

Mikä ongelma rSD:llä?

A

Ei toimi jakaumiin jotka eivät ole symmetrisiä/normaalijakautuneita

23
Q

Mitä tapahtuu rSD:lle jos otokset on harvoja ja vinoutuneita? Miten tätä kompensoidaan?

A

Testi saattaa poistaa agressiivisesti suuria määriä aitoa dataa.

Kompensoidaan käyttämällä korkeaa lambda-arvoa (kuten 2)
ja/tai
rajoittamalla iterointien (toistojen) määrää esim. kolmeen

24
Q

IQR nimitys?

A

Kvartiililivälimenetelmä

25
Millä IQR:ssä korvataan keskihajonta ja keskiarvo
Keskiarvo korvataan mediaanilla Keskihajonta korvataan iqr:llä
26
Mitkä ovat alakvartiili ja yläkvartiili IQR:ssä?
alakvartiili=25 yläkvartiili=75
27
Miksi IQR on robustimpi kuin keskihajontamenetelmät?
Mediaani ja kvartiilivälin pituus ovat robustimpeja
28
Kuinka paljon poikkeavia havaintoarvoja IQR sietää ennen kuin sillä on vaikutusta IQR:ään
jopa 25%
29
Mikä ongelmana IQR:ssä?
Vaatii jakauman jakautuvan keskeltä --> ongelmana epäsymmetriset jakaumat
30
prctile nimitys?
persentiilimentelmä
31
Mikä idea on prctilessä?
Valitaan kuinka iso osa aineiston molemmista päistä on outliereita --> rajaa daraa hyläten kaikista äärimmäisimmät arvot (pienimmät ja suurimmat)
32
Mikä on positiivista prctilessä?
Ottaa huomioon epäsymmetrian eli toimii aikaisempia menetelmiä paremmin vinoille jakaumille
33
Miksi prctile on epätarkka?
Se jättää huomioimatta informaation joka on sisällytetty havaintoarvojen hajontaan/leveyteen
34
Millainen oletus prctilessä pitää tehdä etukäteen?
Oletus siitä, kuinka monta poikkeamaa aineistosta halutaan tutkia
35
Miksi lambda kertoimen valinta on tarkkaa prctilessä?
Jos lambda kerroin on asetettu väärin aitoa dataa voi jäädä tutkinnan ulkopuolelle: -Liian iso lambda voi johtaa outliereiden huomaamatta jättämiseen ja - Liian pieni lambda oikeiden havaintojen hylkäämiseen
36
Mitä Tukey menetelmässä yhdistetään?
IQR:n ja prctilen parhaat puolet
37
Toimiiko Tukey vinojen jakaumien kohdalla?
Toimii sillä kvartiiliväli sisältää tietoa aineiston hajonnasta ja yhdistäminen ala- ja yläkvartiiliin on hyödyllistä etenkin vinojen jakaumien kohdalla
38
Mitä MAD käyttää IQR:n kvartiilivälin sijaan hajontaa mitattaessa?
Mediaanin absoluuttista keskipoikkeamaa
39
Millä menetelmällä on paras mahdollinen breaking point?
MAD:illa sillä se hajoaa vasta kun 50% aineistota on poikkeavuuksia
40
Mikä on MAD:n ongelma?
Olettaa symmetriaa --> ei toimi epäsymmetrisissä jakaumissa
41
Mikä on muuttujan c tehtävä Sn kaavassa?
poikkeavuuden korjaamiseen rajoitetuissa otsikoissa
42
Miksi Sn on vakain mittari?
erittäin vastustuskykyinen poikkeamille/ääriarvoille → pystyy kuvaamaan edelleen tarkasti havaintojen hajontaa ja vaihtelua (hajoaa vasta kun 50% aineistosta on outliereita)
43
Ottaako Sn huomioon epäsymmetrian?
Kyllä
44
Mikä on Sn:n huono puoli?
Laskennallinen monimutkaisuus