Statistical Outliers in pp data Flashcards

1
Q

Mitä tutkitaan?

A

Miten tunnistaa tilastollisia poikkeavuuksia psykofyysisistä tiedoista, joissa taustalla olevia otantajakaumia ei tunneta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Menetelmät karkeasti

A

8 menetelmää kuvataan, ja jokainen on arvioitu käyttämällä tyypillisen psykofyysisen kokeen Monte Carlo -simulaatiota.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Mitkä ovat päätulokset?

A

Parhaan menetelmän on osoitettu perustuvan leviämismittaan (a measure of spread) ’Sn’
>On osoitettu olevan sensitiivisempi kuin suosittu heurestiikka, joka perustuu keskipoikkeamiin
>On osoitettu olevan luotettavampi kuin ei-parametriset menetelmät, jotka perustuvat prosenttipisteisiin tai kvartiiliväliin

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

muuta?

A

Mukana on myös MATLAB-koodi Sn laskemiseen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Mitä tarkoittaa ’statistical outliers’?

A

Tilastolliset poikkeamat ovat havaintoja, jotka poikkeavat epänormaalisti tietojen yleisestä mallista. Ne tuotetaan usein prosesseilla, jotka eroavat laadullisesti päätietojoukosta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Mitä menetelmien vertailussa arvioitiin?

A
  • osumatarkkuutta
  • väärien osumien astetta
  • robustisuutta
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

SD3 tulokset?

A

SD3-säännöllä menetelmä tunnisti ei-poikkeamat, mutta huonosti poikkeamat (konservatiivisuus) Ongelma korostui kun poikkeamien osuus kasvoi.

Kun poikkeamien osuus oli erittäin pieni, SD3 toimi suhteellisen hyvin, koska se määrittää havainnon helpommin ei-poikkeamaksi verrattuna muihin menetelmiin

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

SD2 tulokset?

A

Osumatarkkuus parani, mutta se tunnisti useammin ei-poikkeamat väärin, etenkin silloin, kun poikkeamien osuus oli pieni

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

GMM tulokset?

A

Samat ongelmat kuin SD säännöllä, mutta se oli robustimpi, eli ongelmat eivät korostuneet poikkeamien osuuden kasvaessa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

rSD tulokset?

A

Yleisesti korkeat osumatarkkuudet, mutta poikkeamien osuuden ollessa yli 10% siinä oli kuitenkin jyrkkää laskua. Myös väärien osumien aste oli korkea

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Parametrittomien sääntöjen tulokset?

A

Parametrittomat säännöt toimivat pääsääntöisesti parametrisiä paremmin.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Missä tilanteissa parametriset säännöt olivat parametrittomia parempia?

A

Poikkeuksena:
- tilanteet, joissa poikkeamien osuus oli hyvin pieni
- prctile sääntö (jos hylkäämisalue oli määritelty hyvin)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

IQR ja Tukey tulokset?

A

Sekä IQR että Tukey oli korkea osumatarkkuus, kun poikkeamien osuus oli alle 20% Osumatarkkuus kuitenkin laski korkeammilla poikkeamien osuuksilla
- Tämä oli odotettavissa sillä kvartiilivälin sietopiste on 25%
- Väärien osumien asteet olivat myös Sn sääntöä korkeammat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

MADn ja Sn sääntöjen tulokset?

A

Pärjäsivät yhtä hyvin. Pienillä poikkeamien osuuksilla (<20%) olivat yhtä tarkkoja kuin muutkin säännöt, mutta niillä oli muita sääntöjä korkeampi robustisuus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Miten Sn eroaa MADn säännöstä?

A

Sn-menetelmällä oli hieman pienempi väärien osumien aste verrattuna MADn-sääntöön, ja sen toiminta ei vaadi jakauman symmetrisyyttä

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Mikä aiheuttaa poikkeamia aineistoon?

A
  • tekniset virheet
  • virheet aineiston tallennuksessa
  • koehenkilöt joko tahallaan tai tahattomasti ovat toimineet ohjeistuksen vastaisesti
17
Q

Mitkä ovat kolme lähestymistapaa poikkeamien tunnistamisessa?

A
  1. Poikkeamia ei huomioida
  2. Etsitään manuaalisesti poikkeamat aineistosta omaa harkintakykyään käyttäen
  3. Poikkeamat määritellään numeerisesti jotain tilastollista heurestiikkaa eli sääntöä käyttäen
18
Q

Mitkä ovat parametrisiä menetelmiä?

A
  • SD
  • GMM
  • rSD
  • (toimivat parhaiten normaalijakaumalla)
19
Q

Mitkä ovat parametrittomia menetelmiä?

A
  • IQR
  • prctile
  • Tukey
  • MADn
  • Sn
20
Q

SD-menetelmän toimivuus?

A

Yksi käytetyimpiä tapoja, mutta
1. Keskiarvo ja -hajonta ovat sellaisia tunnuslukuja, joita poikkeamat vääristävät helposti
2. Säännön käyttö olettaa, että aineisto on symmetrisesti jakautunut (toimii parhaiten normaalijakaumalla)

21
Q

Mikä on gaussilaisen sekamallin tehtävä?

A

Primäärin komponentin avulla lasketaan otokselle keskiarvo ja -hajonta

Sekundääri komponentti estää, etteivät poikkeamat vääristä primäärin komponentin otoskeskiarvoa ja -hajontaa

(Voi olla enemmän kuin 2 komponenttia)

22
Q

rDS-sääntö toimivuus?

A

Vaatii toimiakseen symmetrisesti jakautuneen aineiston ja toimii parhaiten normaalijakaumalla

23
Q

IQR-sääntö toimivuus?

A
  1. Sietää paremmin isoja määriä poikkeamia, koska mediaani ja kvartiilivälin pituus ovat robusteja tunnuslukuja
  2. Toimii parhaiten symmetrisesti jakautuneelle aineistolle, vaikkei tarvitsekaan olla normaalijakautunut
24
Q

prctile-sääntö toimivuus?

A
  1. Havaintojen määrittelyssä ei hyödynnetä mitenkään aineiston hajonnasta saatua informaatiota :(
  2. Se, kuinka suuri prosenttiosuus havainnoista määritetään poikkeamiksi on tutkijan valittavissa :(
25
Tukey-sääntö toimivuus?
- Hyödyntää hajonnasta saatua informaatiota :) - Ja näiden käyttö lisää jonkin verran toimivuutta ei-symmetrisesti jakautuneiden aineistojen kanssa :)
26
MADn-sääntö toimivuus?
1. IQR:ää robustimpi -> MADn-hajontaluku vääristyy vasta, kun 50% havainnoista on poikkeamia :) 2. Toimii parhaiten symmetrisesti jakautuneilla muuttujilla :(
27
Sn-sääntö toimivuus?
1. Sn-tunnusluku on hyvin robusti :) 2. Toimiva myös ei-symmetrisesti jakautuneilla aineistoilla :) 3. Haastava laskea :(, tietokonelaskennan kehittyessä ei välttämättä enää ongelma:)
28
Mitkä olivat tulokset otoskoon vertailun osalta? (keskikokoinen ja suuri)
Sääntöjen toimivuudessa ei ollut kauheasti eroa verrattaessa keskikokoista (32) ja suurta (128) otosta - mutta rSD-säännön väärien osumien osuus kasvoi suurilla otoksilla. - Sn toimi parhaiten paitsi tilanteissa joissa poikkeamien osuus otoksessa oli erityisen pieni
29
Mitkä olivat tulokset otoskoon vertailun osalta? (pieni)
Pienillä (8) otoksilla suurin osa säännöistä ei pystynyt tunnistamaan enempää kuin yhden poikkeaman - rSD ja prctile olivat täysin toimintakyvyttömiä - Sn ja MADn säilyttivät hyvin robustisuutensa - GMM sääntö toimi hyvin suhteessa muihin: sen osumatarkkuus oli korkeampi kuin Sn ja MADn, kun poikkeamien osuus oli yli 33%
30
Johtopäätökset sääntöjen toimivuudesta?
- Sn paras toimivuudeltaan, kun vertailtiin osumatarkkutta, väärien osumien astetta ja robustisuutta - Sn:n käyttöä pitäisi suosia ellei ole erityistä syytä sen välttämiseksi - MADn ja Sn välillä ei ollut paljon eroa > MADn käyttöä voi harkita (tarvitsee kuitenkin symmetrisen jakauman toimiakseen, toisin kuin Sn) - SD ja sen johdannaiset olivat huonoja melkein kaikissa tilanteissa ja niiden käytölle pitäisi olla erittäin hyvät perustelut
31
Mitä haittoja poikkeamien poistamisella on?
Yleisesti pidetään huonona ratkaisuna, koska harvoin voidaan olla täysin varmoja, että tunnistetut poikkeamat ovat oikeasti poikkeamia, eivätkä esim. vinon jakauman ei-poikkeavia ääriviivoja Tunnistettujen poikkeamien poistaminen voi tässä tapauksessa johtaa mahdollisesti mielenkiintoisten havaintojen poistamiseen Poikkeamien poistolla voidaan pahimmassa tapauksessa myös manipuloida tuloksia tukemaan virheellisiä johtopäätöksiä
32
Mitä hyötyjä poikkeamien poistamisesta on ja mitä ohjeita niiden poistoon annetaan?
- tietyissä tilanteissa niiden pitäminen aineistossa vääristää tuloksia merkittävällä tavalla - Pitäisi tilastollisia sääntöjä käyttäessä hyödyntää myös maalaisjärkeä - Raportoidessa: poikkeavat havainnot pitäisi merkitä mukaan aineiston esittelyyn ja pitäisi kertoa, jos poikkeamien poisto voi mahdollisesti vaikuttaa jotenkin tutkimuksessa tehtyihin johtopäätöksiin