State-of-the-art methods for identifying statistical outliers Flashcards
Mikä on SD menetelmän kaava?
x<ka-lambdakeskihajonta tai x>ka+lambdakeskihajonta
Mikä on GMM kaava?
x<ka-lambdakeskihajonta tai
x>ka+lambdakeskihajonta
rSD kaava?
x>ka+lambdakeskihajonta tai
x>ka-lambdakeskihajonta
tätä jatketaan n kertaa niin kauan kuin löytyy outliereitä
IQR kaava?
x<md-lambdaiqr
tai
x>md+lambdaiqr
-alakvartiili P25 ja yläkvartiili P75
prctile kaava?
x>𝑷(alaviite 𝝀)
x<𝑷(alaviite 𝟏−𝝀)
Esimerkki lasku:
0,10⋅ (12+1) =1,3
0,90⋅ (12+1) =11,7
𝑃 (alaviite10)=1,5 𝑃 (alaviite90)=10
Jossa 12 on otokoko ja nyt hylättäisiin ensimmäinen ja viimeinen arvo
Tukeyn kaava?
𝒙 > (𝑷 (alaviite𝟕𝟓) +𝝀𝒊𝒒𝒓)
tai
𝒙 < (𝑷 (alaviite𝟐𝟓) −𝝀𝒊𝒒𝒓)
P(alaviite75) on aineiston 75% kohdalle osuva numero
P(alaviite25) on aineiston 25% kohdalle osuva numero
IQR=P(alaviite75) miinus P(alaviite25)
Miten MAD lasketaan MAD kaavassa?
- Miinustetaan jokainen haviantoarvo aineiston mediaanista
- Muutetaan jokainen saatu luku positiiviseksi
- Asetetaan saadut luvut suuruusjärjestykseen ja katsotaan näistä luvuista mediaani
- MAD
Miten lopullinen MAD arvo lasketaan?
- Miinustetaan aineiston jokainen arvo aineiston mediaanilla ja muutetaan positiiviseksi
- Jaetaan jokainen luku MAD-arvolla
- Katsotaan mitkä saadut arvot ovat yli lambda-arvon = outlierit
Miten Sn kaavaa käytetään?
- Miinustetaan jokainen aineiston arvo aineiston jokaisella muulla arvolla (ei itsellään)
- Otetaan jokaiselta riviltä saatujen lukuarvojen mediaanit
- Otetaan mediaaneista niiden mediaani
- Mediaani kerrotaan c-kertoimella = saadaan Sn
- Nyt jokaiselle riville saatu oma mediaani jaetaan Sn-luvulla
- Katsotaan onko mikään arvo yli lambda arvon
Mitkä testit ovat parametrisiä(keskihajontapohjaisia) testejä?
SD, GMM, rSD
Mitkä testi ovat epäparametrisiä (mediaani/kvartiilipohjaisia) testejä?
IQR, prctile, Tukey, MADn, Sn
Miksi on SD menetelmää kutsutaan?
Keskihajonta menetelmäksi
Mitkä ovat SD:n puutteet?
Keskiarvo ja keskihajonta helposti vääristyvät hyvin poikkeavien arvojen seurauksena
→ masking = suuret outlierit saattavat piilottaa pienempiä
Jos aineisto on normaalijakautunut ja 𝜆 = 2 johtaa siihen että 5% aineistosta hylätään outliereina. Jos data ei noudata normaalijakaumaa, osuus voi pahimmillaan olla 25%
GMM menetelmässä kumpi 𝑁(𝜇1 , 𝜎 1) ja 𝑁(𝜇2 , 𝜎2 ) on peräisin oikeasta jakaumasta ja kumpi väärästä?
𝑁(𝜇1 , 𝜎 1) oikeasta
𝑁(𝜇2 , 𝜎2 ) väärästä
Mikä idea on GMM menetelmässä?
Tunnistaa tietokoneella kaksi erilaista jakaumaa
Mikä idea on kahden eri jakauman tunnistamissa GMM-mentelmässä?
Tunnistamalla kaksi eri jakaumaa pyritään estämään se, että poikkeavat havainnot vaikuttavat aineiston keskiarvoon ja hajontaan
Mikä on Gaussin komponentti?
Normaalijakauma
Mikä on Gaussin komponentin tehtävä?
Tunnistaa tilastollisia poikkeavuuksia
Mitä GMM:ssä voidaan lisätä?
Kolmas tai neljäs normaaljakauma
rSD:n nimitys?
Rekursiivinen keskihajontamenetelmä
Mikä ero on rSD:llä ja SD:llä
rSD:tä toistetaan niin kauan kun kaikista poikkeavuuksista on päästy eroon
Mikä ongelma rSD:llä?
Ei toimi jakaumiin jotka eivät ole symmetrisiä/normaalijakautuneita
Mitä tapahtuu rSD:lle jos otokset on harvoja ja vinoutuneita? Miten tätä kompensoidaan?
Testi saattaa poistaa agressiivisesti suuria määriä aitoa dataa.
Kompensoidaan käyttämällä korkeaa lambda-arvoa (kuten 2)
ja/tai
rajoittamalla iterointien (toistojen) määrää esim. kolmeen
IQR nimitys?
Kvartiililivälimenetelmä
Millä IQR:ssä korvataan keskihajonta ja keskiarvo
Keskiarvo korvataan mediaanilla
Keskihajonta korvataan iqr:llä
Mitkä ovat alakvartiili ja yläkvartiili IQR:ssä?
alakvartiili=25
yläkvartiili=75
Miksi IQR on robustimpi kuin keskihajontamenetelmät?
Mediaani ja kvartiilivälin pituus ovat robustimpeja
Kuinka paljon poikkeavia havaintoarvoja IQR sietää ennen kuin sillä on vaikutusta IQR:ään
jopa 25%
Mikä ongelmana IQR:ssä?
Vaatii jakauman jakautuvan keskeltä –> ongelmana epäsymmetriset jakaumat
prctile nimitys?
persentiilimentelmä
Mikä idea on prctilessä?
Valitaan kuinka iso osa aineiston molemmista päistä on outliereita
–> rajaa daraa hyläten kaikista äärimmäisimmät arvot (pienimmät ja suurimmat)
Mikä on positiivista prctilessä?
Ottaa huomioon epäsymmetrian eli toimii aikaisempia menetelmiä paremmin vinoille jakaumille
Miksi prctile on epätarkka?
Se jättää huomioimatta informaation joka on sisällytetty havaintoarvojen hajontaan/leveyteen
Millainen oletus prctilessä pitää tehdä etukäteen?
Oletus siitä, kuinka monta poikkeamaa aineistosta halutaan tutkia
Miksi lambda kertoimen valinta on tarkkaa prctilessä?
Jos lambda kerroin on asetettu väärin aitoa dataa voi jäädä tutkinnan ulkopuolelle:
-Liian iso lambda voi johtaa outliereiden huomaamatta jättämiseen ja
- Liian pieni lambda oikeiden havaintojen hylkäämiseen
Mitä Tukey menetelmässä yhdistetään?
IQR:n ja prctilen parhaat puolet
Toimiiko Tukey vinojen jakaumien kohdalla?
Toimii sillä kvartiiliväli sisältää tietoa aineiston hajonnasta ja yhdistäminen ala- ja yläkvartiiliin on hyödyllistä etenkin vinojen jakaumien kohdalla
Mitä MAD käyttää IQR:n kvartiilivälin sijaan hajontaa mitattaessa?
Mediaanin absoluuttista keskipoikkeamaa
Millä menetelmällä on paras mahdollinen breaking point?
MAD:illa sillä se hajoaa vasta kun 50% aineistota on poikkeavuuksia
Mikä on MAD:n ongelma?
Olettaa symmetriaa –> ei toimi epäsymmetrisissä jakaumissa
Mikä on muuttujan c tehtävä Sn kaavassa?
poikkeavuuden korjaamiseen rajoitetuissa otsikoissa
Miksi Sn on vakain mittari?
erittäin vastustuskykyinen poikkeamille/ääriarvoille
→ pystyy kuvaamaan edelleen tarkasti havaintojen hajontaa ja vaihtelua (hajoaa vasta kun 50% aineistosta on outliereita)
Ottaako Sn huomioon epäsymmetrian?
Kyllä
Mikä on Sn:n huono puoli?
Laskennallinen monimutkaisuus