Statistical Outliers in pp data Flashcards
Mitä tutkitaan?
Miten tunnistaa tilastollisia poikkeavuuksia psykofyysisistä tiedoista, joissa taustalla olevia otantajakaumia ei tunneta.
Menetelmät karkeasti
8 menetelmää kuvataan, ja jokainen on arvioitu käyttämällä tyypillisen psykofyysisen kokeen Monte Carlo -simulaatiota.
Mitkä ovat päätulokset?
Parhaan menetelmän on osoitettu perustuvan leviämismittaan (a measure of spread) ’Sn’
>On osoitettu olevan sensitiivisempi kuin suosittu heurestiikka, joka perustuu keskipoikkeamiin
>On osoitettu olevan luotettavampi kuin ei-parametriset menetelmät, jotka perustuvat prosenttipisteisiin tai kvartiiliväliin
muuta?
Mukana on myös MATLAB-koodi Sn laskemiseen
Mitä tarkoittaa ’statistical outliers’?
Tilastolliset poikkeamat ovat havaintoja, jotka poikkeavat epänormaalisti tietojen yleisestä mallista. Ne tuotetaan usein prosesseilla, jotka eroavat laadullisesti päätietojoukosta.
Mitä menetelmien vertailussa arvioitiin?
- osumatarkkuutta
- väärien osumien astetta
- robustisuutta
SD3 tulokset?
SD3-säännöllä menetelmä tunnisti ei-poikkeamat, mutta huonosti poikkeamat (konservatiivisuus) Ongelma korostui kun poikkeamien osuus kasvoi.
Kun poikkeamien osuus oli erittäin pieni, SD3 toimi suhteellisen hyvin, koska se määrittää havainnon helpommin ei-poikkeamaksi verrattuna muihin menetelmiin
SD2 tulokset?
Osumatarkkuus parani, mutta se tunnisti useammin ei-poikkeamat väärin, etenkin silloin, kun poikkeamien osuus oli pieni
GMM tulokset?
Samat ongelmat kuin SD säännöllä, mutta se oli robustimpi, eli ongelmat eivät korostuneet poikkeamien osuuden kasvaessa
rSD tulokset?
Yleisesti korkeat osumatarkkuudet, mutta poikkeamien osuuden ollessa yli 10% siinä oli kuitenkin jyrkkää laskua. Myös väärien osumien aste oli korkea
Parametrittomien sääntöjen tulokset?
Parametrittomat säännöt toimivat pääsääntöisesti parametrisiä paremmin.
Missä tilanteissa parametriset säännöt olivat parametrittomia parempia?
Poikkeuksena:
- tilanteet, joissa poikkeamien osuus oli hyvin pieni
- prctile sääntö (jos hylkäämisalue oli määritelty hyvin)
IQR ja Tukey tulokset?
Sekä IQR että Tukey oli korkea osumatarkkuus, kun poikkeamien osuus oli alle 20% Osumatarkkuus kuitenkin laski korkeammilla poikkeamien osuuksilla
- Tämä oli odotettavissa sillä kvartiilivälin sietopiste on 25%
- Väärien osumien asteet olivat myös Sn sääntöä korkeammat
MADn ja Sn sääntöjen tulokset?
Pärjäsivät yhtä hyvin. Pienillä poikkeamien osuuksilla (<20%) olivat yhtä tarkkoja kuin muutkin säännöt, mutta niillä oli muita sääntöjä korkeampi robustisuus
Miten Sn eroaa MADn säännöstä?
Sn-menetelmällä oli hieman pienempi väärien osumien aste verrattuna MADn-sääntöön, ja sen toiminta ei vaadi jakauman symmetrisyyttä
Mikä aiheuttaa poikkeamia aineistoon?
- tekniset virheet
- virheet aineiston tallennuksessa
- koehenkilöt joko tahallaan tai tahattomasti ovat toimineet ohjeistuksen vastaisesti
Mitkä ovat kolme lähestymistapaa poikkeamien tunnistamisessa?
- Poikkeamia ei huomioida
- Etsitään manuaalisesti poikkeamat aineistosta omaa harkintakykyään käyttäen
- Poikkeamat määritellään numeerisesti jotain tilastollista heurestiikkaa eli sääntöä käyttäen
Mitkä ovat parametrisiä menetelmiä?
- SD
- GMM
- rSD
- (toimivat parhaiten normaalijakaumalla)
Mitkä ovat parametrittomia menetelmiä?
- IQR
- prctile
- Tukey
- MADn
- Sn
SD-menetelmän toimivuus?
Yksi käytetyimpiä tapoja, mutta
1. Keskiarvo ja -hajonta ovat sellaisia tunnuslukuja, joita poikkeamat vääristävät helposti
2. Säännön käyttö olettaa, että aineisto on symmetrisesti jakautunut (toimii parhaiten normaalijakaumalla)
Mikä on gaussilaisen sekamallin tehtävä?
Primäärin komponentin avulla lasketaan otokselle keskiarvo ja -hajonta
Sekundääri komponentti estää, etteivät poikkeamat vääristä primäärin komponentin otoskeskiarvoa ja -hajontaa
(Voi olla enemmän kuin 2 komponenttia)
rDS-sääntö toimivuus?
Vaatii toimiakseen symmetrisesti jakautuneen aineiston ja toimii parhaiten normaalijakaumalla
IQR-sääntö toimivuus?
- Sietää paremmin isoja määriä poikkeamia, koska mediaani ja kvartiilivälin pituus ovat robusteja tunnuslukuja
- Toimii parhaiten symmetrisesti jakautuneelle aineistolle, vaikkei tarvitsekaan olla normaalijakautunut
prctile-sääntö toimivuus?
- Havaintojen määrittelyssä ei hyödynnetä mitenkään aineiston hajonnasta saatua informaatiota :(
- Se, kuinka suuri prosenttiosuus havainnoista määritetään poikkeamiksi on tutkijan valittavissa :(
Tukey-sääntö toimivuus?
- Hyödyntää hajonnasta saatua informaatiota :)
- Ja näiden käyttö lisää jonkin verran toimivuutta ei-symmetrisesti jakautuneiden aineistojen kanssa :)
MADn-sääntö toimivuus?
- IQR:ää robustimpi -> MADn-hajontaluku vääristyy vasta, kun 50% havainnoista on poikkeamia :)
- Toimii parhaiten symmetrisesti jakautuneilla muuttujilla :(
Sn-sääntö toimivuus?
- Sn-tunnusluku on hyvin robusti :)
- Toimiva myös ei-symmetrisesti jakautuneilla aineistoilla :)
- Haastava laskea :(, tietokonelaskennan kehittyessä ei välttämättä enää ongelma:)
Mitkä olivat tulokset otoskoon vertailun osalta? (keskikokoinen ja suuri)
Sääntöjen toimivuudessa ei ollut kauheasti eroa verrattaessa keskikokoista (32) ja suurta (128) otosta
- mutta rSD-säännön väärien osumien osuus kasvoi suurilla otoksilla.
- Sn toimi parhaiten paitsi tilanteissa joissa poikkeamien osuus otoksessa oli erityisen pieni
Mitkä olivat tulokset otoskoon vertailun osalta? (pieni)
Pienillä (8) otoksilla suurin osa säännöistä ei pystynyt tunnistamaan enempää kuin yhden poikkeaman
- rSD ja prctile olivat täysin toimintakyvyttömiä
- Sn ja MADn säilyttivät hyvin robustisuutensa
- GMM sääntö toimi hyvin suhteessa muihin: sen osumatarkkuus oli korkeampi kuin Sn ja MADn, kun poikkeamien osuus oli yli 33%
Johtopäätökset sääntöjen toimivuudesta?
- Sn paras toimivuudeltaan, kun vertailtiin osumatarkkutta, väärien osumien astetta ja robustisuutta
- Sn:n käyttöä pitäisi suosia ellei ole erityistä syytä sen välttämiseksi
- MADn ja Sn välillä ei ollut paljon eroa > MADn käyttöä voi harkita (tarvitsee kuitenkin symmetrisen jakauman toimiakseen, toisin kuin Sn)
- SD ja sen johdannaiset olivat huonoja melkein kaikissa tilanteissa ja niiden käytölle pitäisi olla erittäin hyvät perustelut
Mitä haittoja poikkeamien poistamisella on?
Yleisesti pidetään huonona ratkaisuna, koska harvoin voidaan olla täysin varmoja, että tunnistetut poikkeamat ovat oikeasti poikkeamia, eivätkä esim. vinon jakauman ei-poikkeavia ääriviivoja
Tunnistettujen poikkeamien poistaminen voi tässä tapauksessa johtaa mahdollisesti mielenkiintoisten havaintojen poistamiseen
Poikkeamien poistolla voidaan pahimmassa tapauksessa myös manipuloida tuloksia tukemaan virheellisiä johtopäätöksiä
Mitä hyötyjä poikkeamien poistamisesta on ja mitä ohjeita niiden poistoon annetaan?
- tietyissä tilanteissa niiden pitäminen aineistossa vääristää tuloksia merkittävällä tavalla
- Pitäisi tilastollisia sääntöjä käyttäessä hyödyntää myös maalaisjärkeä
- Raportoidessa: poikkeavat havainnot pitäisi merkitä mukaan aineiston esittelyyn ja pitäisi kertoa, jos poikkeamien poisto voi mahdollisesti vaikuttaa jotenkin tutkimuksessa tehtyihin johtopäätöksiin