State-of-the-art methods for identifying statistical outliers Flashcards

1
Q

Mikä on SD menetelmän kaava?

A

x<ka-lambdakeskihajonta tai x>ka+lambdakeskihajonta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Mikä on GMM kaava?

A

x<ka-lambdakeskihajonta tai
x>ka+lambda
keskihajonta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

rSD kaava?

A

x>ka+lambdakeskihajonta tai
x>ka-lambda
keskihajonta

tätä jatketaan n kertaa niin kauan kuin löytyy outliereitä

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

IQR kaava?

A

x<md-lambdaiqr
tai
x>md+lambda
iqr

-alakvartiili P25 ja yläkvartiili P75

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

prctile kaava?

A

x>𝑷(alaviite 𝝀)
x<𝑷(alaviite 𝟏−𝝀)

Esimerkki lasku:
0,10⋅ (12+1) =1,3
0,90⋅ (12+1) =11,7
𝑃 (alaviite10)=1,5 𝑃 (alaviite90)=10

Jossa 12 on otokoko ja nyt hylättäisiin ensimmäinen ja viimeinen arvo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tukeyn kaava?

A

𝒙 > (𝑷 (alaviite𝟕𝟓) +𝝀𝒊𝒒𝒓)
tai
𝒙 < (𝑷 (alaviite𝟐𝟓) −𝝀𝒊𝒒𝒓)

P(alaviite75) on aineiston 75% kohdalle osuva numero

P(alaviite25) on aineiston 25% kohdalle osuva numero

IQR=P(alaviite75) miinus P(alaviite25)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Miten MAD lasketaan MAD kaavassa?

A
  1. Miinustetaan jokainen haviantoarvo aineiston mediaanista
  2. Muutetaan jokainen saatu luku positiiviseksi
  3. Asetetaan saadut luvut suuruusjärjestykseen ja katsotaan näistä luvuista mediaani
  4. MAD
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Miten lopullinen MAD arvo lasketaan?

A
  1. Miinustetaan aineiston jokainen arvo aineiston mediaanilla ja muutetaan positiiviseksi
  2. Jaetaan jokainen luku MAD-arvolla
  3. Katsotaan mitkä saadut arvot ovat yli lambda-arvon = outlierit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Miten Sn kaavaa käytetään?

A
  1. Miinustetaan jokainen aineiston arvo aineiston jokaisella muulla arvolla (ei itsellään)
  2. Otetaan jokaiselta riviltä saatujen lukuarvojen mediaanit
  3. Otetaan mediaaneista niiden mediaani
  4. Mediaani kerrotaan c-kertoimella = saadaan Sn
  5. Nyt jokaiselle riville saatu oma mediaani jaetaan Sn-luvulla
  6. Katsotaan onko mikään arvo yli lambda arvon
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Mitkä testit ovat parametrisiä(keskihajontapohjaisia) testejä?

A

SD, GMM, rSD

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Mitkä testi ovat epäparametrisiä (mediaani/kvartiilipohjaisia) testejä?

A

IQR, prctile, Tukey, MADn, Sn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Miksi on SD menetelmää kutsutaan?

A

Keskihajonta menetelmäksi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Mitkä ovat SD:n puutteet?

A

Keskiarvo ja keskihajonta helposti vääristyvät hyvin poikkeavien arvojen seurauksena
→ masking = suuret outlierit saattavat piilottaa pienempiä

Jos aineisto on normaalijakautunut ja 𝜆 = 2 johtaa siihen että 5% aineistosta hylätään outliereina. Jos data ei noudata normaalijakaumaa, osuus voi pahimmillaan olla 25%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

GMM menetelmässä kumpi 𝑁(𝜇1 , 𝜎 1) ja 𝑁(𝜇2 , 𝜎2 ) on peräisin oikeasta jakaumasta ja kumpi väärästä?

A

𝑁(𝜇1 , 𝜎 1) oikeasta
𝑁(𝜇2 , 𝜎2 ) väärästä

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Mikä idea on GMM menetelmässä?

A

Tunnistaa tietokoneella kaksi erilaista jakaumaa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Mikä idea on kahden eri jakauman tunnistamissa GMM-mentelmässä?

A

Tunnistamalla kaksi eri jakaumaa pyritään estämään se, että poikkeavat havainnot vaikuttavat aineiston keskiarvoon ja hajontaan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Mikä on Gaussin komponentti?

A

Normaalijakauma

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Mikä on Gaussin komponentin tehtävä?

A

Tunnistaa tilastollisia poikkeavuuksia

19
Q

Mitä GMM:ssä voidaan lisätä?

A

Kolmas tai neljäs normaaljakauma

20
Q

rSD:n nimitys?

A

Rekursiivinen keskihajontamenetelmä

21
Q

Mikä ero on rSD:llä ja SD:llä

A

rSD:tä toistetaan niin kauan kun kaikista poikkeavuuksista on päästy eroon

22
Q

Mikä ongelma rSD:llä?

A

Ei toimi jakaumiin jotka eivät ole symmetrisiä/normaalijakautuneita

23
Q

Mitä tapahtuu rSD:lle jos otokset on harvoja ja vinoutuneita? Miten tätä kompensoidaan?

A

Testi saattaa poistaa agressiivisesti suuria määriä aitoa dataa.

Kompensoidaan käyttämällä korkeaa lambda-arvoa (kuten 2)
ja/tai
rajoittamalla iterointien (toistojen) määrää esim. kolmeen

24
Q

IQR nimitys?

A

Kvartiililivälimenetelmä

25
Q

Millä IQR:ssä korvataan keskihajonta ja keskiarvo

A

Keskiarvo korvataan mediaanilla

Keskihajonta korvataan iqr:llä

26
Q

Mitkä ovat alakvartiili ja yläkvartiili IQR:ssä?

A

alakvartiili=25
yläkvartiili=75

27
Q

Miksi IQR on robustimpi kuin keskihajontamenetelmät?

A

Mediaani ja kvartiilivälin pituus ovat robustimpeja

28
Q

Kuinka paljon poikkeavia havaintoarvoja IQR sietää ennen kuin sillä on vaikutusta IQR:ään

A

jopa 25%

29
Q

Mikä ongelmana IQR:ssä?

A

Vaatii jakauman jakautuvan keskeltä –> ongelmana epäsymmetriset jakaumat

30
Q

prctile nimitys?

A

persentiilimentelmä

31
Q

Mikä idea on prctilessä?

A

Valitaan kuinka iso osa aineiston molemmista päistä on outliereita
–> rajaa daraa hyläten kaikista äärimmäisimmät arvot (pienimmät ja suurimmat)

32
Q

Mikä on positiivista prctilessä?

A

Ottaa huomioon epäsymmetrian eli toimii aikaisempia menetelmiä paremmin vinoille jakaumille

33
Q

Miksi prctile on epätarkka?

A

Se jättää huomioimatta informaation joka on sisällytetty havaintoarvojen hajontaan/leveyteen

34
Q

Millainen oletus prctilessä pitää tehdä etukäteen?

A

Oletus siitä, kuinka monta poikkeamaa aineistosta halutaan tutkia

35
Q

Miksi lambda kertoimen valinta on tarkkaa prctilessä?

A

Jos lambda kerroin on asetettu väärin aitoa dataa voi jäädä tutkinnan ulkopuolelle:

-Liian iso lambda voi johtaa outliereiden huomaamatta jättämiseen ja
- Liian pieni lambda oikeiden havaintojen hylkäämiseen

36
Q

Mitä Tukey menetelmässä yhdistetään?

A

IQR:n ja prctilen parhaat puolet

37
Q

Toimiiko Tukey vinojen jakaumien kohdalla?

A

Toimii sillä kvartiiliväli sisältää tietoa aineiston hajonnasta ja yhdistäminen ala- ja yläkvartiiliin on hyödyllistä etenkin vinojen jakaumien kohdalla

38
Q

Mitä MAD käyttää IQR:n kvartiilivälin sijaan hajontaa mitattaessa?

A

Mediaanin absoluuttista keskipoikkeamaa

39
Q

Millä menetelmällä on paras mahdollinen breaking point?

A

MAD:illa sillä se hajoaa vasta kun 50% aineistota on poikkeavuuksia

40
Q

Mikä on MAD:n ongelma?

A

Olettaa symmetriaa –> ei toimi epäsymmetrisissä jakaumissa

41
Q

Mikä on muuttujan c tehtävä Sn kaavassa?

A

poikkeavuuden korjaamiseen rajoitetuissa otsikoissa

42
Q

Miksi Sn on vakain mittari?

A

erittäin vastustuskykyinen poikkeamille/ääriarvoille
→ pystyy kuvaamaan edelleen tarkasti havaintojen hajontaa ja vaihtelua (hajoaa vasta kun 50% aineistosta on outliereita)

43
Q

Ottaako Sn huomioon epäsymmetrian?

A

Kyllä

44
Q

Mikä on Sn:n huono puoli?

A

Laskennallinen monimutkaisuus