Statistical Outliers in pp data Flashcards
Mitä tutkitaan?
Miten tunnistaa tilastollisia poikkeavuuksia psykofyysisistä tiedoista, joissa taustalla olevia otantajakaumia ei tunneta.
Menetelmät karkeasti
8 menetelmää kuvataan, ja jokainen on arvioitu käyttämällä tyypillisen psykofyysisen kokeen Monte Carlo -simulaatiota.
Mitkä ovat päätulokset?
Parhaan menetelmän on osoitettu perustuvan leviämismittaan (a measure of spread) ’Sn’
>On osoitettu olevan sensitiivisempi kuin suosittu heurestiikka, joka perustuu keskipoikkeamiin
>On osoitettu olevan luotettavampi kuin ei-parametriset menetelmät, jotka perustuvat prosenttipisteisiin tai kvartiiliväliin
muuta?
Mukana on myös MATLAB-koodi Sn laskemiseen
Mitä tarkoittaa ’statistical outliers’?
Tilastolliset poikkeamat ovat havaintoja, jotka poikkeavat epänormaalisti tietojen yleisestä mallista. Ne tuotetaan usein prosesseilla, jotka eroavat laadullisesti päätietojoukosta.
Mitä menetelmien vertailussa arvioitiin?
- osumatarkkuutta
- väärien osumien astetta
- robustisuutta
SD3 tulokset?
SD3-säännöllä menetelmä tunnisti ei-poikkeamat, mutta huonosti poikkeamat (konservatiivisuus) Ongelma korostui kun poikkeamien osuus kasvoi.
Kun poikkeamien osuus oli erittäin pieni, SD3 toimi suhteellisen hyvin, koska se määrittää havainnon helpommin ei-poikkeamaksi verrattuna muihin menetelmiin
SD2 tulokset?
Osumatarkkuus parani, mutta se tunnisti useammin ei-poikkeamat väärin, etenkin silloin, kun poikkeamien osuus oli pieni
GMM tulokset?
Samat ongelmat kuin SD säännöllä, mutta se oli robustimpi, eli ongelmat eivät korostuneet poikkeamien osuuden kasvaessa
rSD tulokset?
Yleisesti korkeat osumatarkkuudet, mutta poikkeamien osuuden ollessa yli 10% siinä oli kuitenkin jyrkkää laskua. Myös väärien osumien aste oli korkea
Parametrittomien sääntöjen tulokset?
Parametrittomat säännöt toimivat pääsääntöisesti parametrisiä paremmin.
Missä tilanteissa parametriset säännöt olivat parametrittomia parempia?
Poikkeuksena:
- tilanteet, joissa poikkeamien osuus oli hyvin pieni
- prctile sääntö (jos hylkäämisalue oli määritelty hyvin)
IQR ja Tukey tulokset?
Sekä IQR että Tukey oli korkea osumatarkkuus, kun poikkeamien osuus oli alle 20% Osumatarkkuus kuitenkin laski korkeammilla poikkeamien osuuksilla
- Tämä oli odotettavissa sillä kvartiilivälin sietopiste on 25%
- Väärien osumien asteet olivat myös Sn sääntöä korkeammat
MADn ja Sn sääntöjen tulokset?
Pärjäsivät yhtä hyvin. Pienillä poikkeamien osuuksilla (<20%) olivat yhtä tarkkoja kuin muutkin säännöt, mutta niillä oli muita sääntöjä korkeampi robustisuus
Miten Sn eroaa MADn säännöstä?
Sn-menetelmällä oli hieman pienempi väärien osumien aste verrattuna MADn-sääntöön, ja sen toiminta ei vaadi jakauman symmetrisyyttä
Mikä aiheuttaa poikkeamia aineistoon?
- tekniset virheet
- virheet aineiston tallennuksessa
- koehenkilöt joko tahallaan tai tahattomasti ovat toimineet ohjeistuksen vastaisesti
Mitkä ovat kolme lähestymistapaa poikkeamien tunnistamisessa?
- Poikkeamia ei huomioida
- Etsitään manuaalisesti poikkeamat aineistosta omaa harkintakykyään käyttäen
- Poikkeamat määritellään numeerisesti jotain tilastollista heurestiikkaa eli sääntöä käyttäen
Mitkä ovat parametrisiä menetelmiä?
- SD
- GMM
- rSD
- (toimivat parhaiten normaalijakaumalla)
Mitkä ovat parametrittomia menetelmiä?
- IQR
- prctile
- Tukey
- MADn
- Sn
SD-menetelmän toimivuus?
Yksi käytetyimpiä tapoja, mutta
1. Keskiarvo ja -hajonta ovat sellaisia tunnuslukuja, joita poikkeamat vääristävät helposti
2. Säännön käyttö olettaa, että aineisto on symmetrisesti jakautunut (toimii parhaiten normaalijakaumalla)
Mikä on gaussilaisen sekamallin tehtävä?
Primäärin komponentin avulla lasketaan otokselle keskiarvo ja -hajonta
Sekundääri komponentti estää, etteivät poikkeamat vääristä primäärin komponentin otoskeskiarvoa ja -hajontaa
(Voi olla enemmän kuin 2 komponenttia)
rDS-sääntö toimivuus?
Vaatii toimiakseen symmetrisesti jakautuneen aineiston ja toimii parhaiten normaalijakaumalla
IQR-sääntö toimivuus?
- Sietää paremmin isoja määriä poikkeamia, koska mediaani ja kvartiilivälin pituus ovat robusteja tunnuslukuja
- Toimii parhaiten symmetrisesti jakautuneelle aineistolle, vaikkei tarvitsekaan olla normaalijakautunut
prctile-sääntö toimivuus?
- Havaintojen määrittelyssä ei hyödynnetä mitenkään aineiston hajonnasta saatua informaatiota :(
- Se, kuinka suuri prosenttiosuus havainnoista määritetään poikkeamiksi on tutkijan valittavissa :(