State-of-the-art methods for identifying statistical outliers Flashcards
Mikä on SD menetelmän kaava?
x<ka-lambdakeskihajonta tai x>ka+lambdakeskihajonta
Mikä on GMM kaava?
x<ka-lambdakeskihajonta tai
x>ka+lambdakeskihajonta
rSD kaava?
x>ka+lambdakeskihajonta tai
x>ka-lambdakeskihajonta
tätä jatketaan n kertaa niin kauan kuin löytyy outliereitä
IQR kaava?
x<md-lambdaiqr
tai
x>md+lambdaiqr
-alakvartiili P25 ja yläkvartiili P75
prctile kaava?
x>𝑷(alaviite 𝝀)
x<𝑷(alaviite 𝟏−𝝀)
Esimerkki lasku:
0,10⋅ (12+1) =1,3
0,90⋅ (12+1) =11,7
𝑃 (alaviite10)=1,5 𝑃 (alaviite90)=10
Jossa 12 on otokoko ja nyt hylättäisiin ensimmäinen ja viimeinen arvo
Tukeyn kaava?
𝒙 > (𝑷 (alaviite𝟕𝟓) +𝝀𝒊𝒒𝒓)
tai
𝒙 < (𝑷 (alaviite𝟐𝟓) −𝝀𝒊𝒒𝒓)
P(alaviite75) on aineiston 75% kohdalle osuva numero
P(alaviite25) on aineiston 25% kohdalle osuva numero
IQR=P(alaviite75) miinus P(alaviite25)
Miten MAD lasketaan MAD kaavassa?
- Miinustetaan jokainen haviantoarvo aineiston mediaanista
- Muutetaan jokainen saatu luku positiiviseksi
- Asetetaan saadut luvut suuruusjärjestykseen ja katsotaan näistä luvuista mediaani
- MAD
Miten lopullinen MAD arvo lasketaan?
- Miinustetaan aineiston jokainen arvo aineiston mediaanilla ja muutetaan positiiviseksi
- Jaetaan jokainen luku MAD-arvolla
- Katsotaan mitkä saadut arvot ovat yli lambda-arvon = outlierit
Miten Sn kaavaa käytetään?
- Miinustetaan jokainen aineiston arvo aineiston jokaisella muulla arvolla (ei itsellään)
- Otetaan jokaiselta riviltä saatujen lukuarvojen mediaanit
- Otetaan mediaaneista niiden mediaani
- Mediaani kerrotaan c-kertoimella = saadaan Sn
- Nyt jokaiselle riville saatu oma mediaani jaetaan Sn-luvulla
- Katsotaan onko mikään arvo yli lambda arvon
Mitkä testit ovat parametrisiä(keskihajontapohjaisia) testejä?
SD, GMM, rSD
Mitkä testi ovat epäparametrisiä (mediaani/kvartiilipohjaisia) testejä?
IQR, prctile, Tukey, MADn, Sn
Miksi on SD menetelmää kutsutaan?
Keskihajonta menetelmäksi
Mitkä ovat SD:n puutteet?
Keskiarvo ja keskihajonta helposti vääristyvät hyvin poikkeavien arvojen seurauksena
→ masking = suuret outlierit saattavat piilottaa pienempiä
Jos aineisto on normaalijakautunut ja 𝜆 = 2 johtaa siihen että 5% aineistosta hylätään outliereina. Jos data ei noudata normaalijakaumaa, osuus voi pahimmillaan olla 25%
GMM menetelmässä kumpi 𝑁(𝜇1 , 𝜎 1) ja 𝑁(𝜇2 , 𝜎2 ) on peräisin oikeasta jakaumasta ja kumpi väärästä?
𝑁(𝜇1 , 𝜎 1) oikeasta
𝑁(𝜇2 , 𝜎2 ) väärästä
Mikä idea on GMM menetelmässä?
Tunnistaa tietokoneella kaksi erilaista jakaumaa
Mikä idea on kahden eri jakauman tunnistamissa GMM-mentelmässä?
Tunnistamalla kaksi eri jakaumaa pyritään estämään se, että poikkeavat havainnot vaikuttavat aineiston keskiarvoon ja hajontaan
Mikä on Gaussin komponentti?
Normaalijakauma