Statistical Outliers in pp data Flashcards

1
Q

Mitä tutkitaan?

A

Miten tunnistaa tilastollisia poikkeavuuksia psykofyysisistä tiedoista, joissa taustalla olevia otantajakaumia ei tunneta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Menetelmät karkeasti

A

8 menetelmää kuvataan, ja jokainen on arvioitu käyttämällä tyypillisen psykofyysisen kokeen Monte Carlo -simulaatiota.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Mitkä ovat päätulokset?

A

Parhaan menetelmän on osoitettu perustuvan leviämismittaan (a measure of spread) ’Sn’
>On osoitettu olevan sensitiivisempi kuin suosittu heurestiikka, joka perustuu keskipoikkeamiin
>On osoitettu olevan luotettavampi kuin ei-parametriset menetelmät, jotka perustuvat prosenttipisteisiin tai kvartiiliväliin

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

muuta?

A

Mukana on myös MATLAB-koodi Sn laskemiseen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Mitä tarkoittaa ’statistical outliers’?

A

Tilastolliset poikkeamat ovat havaintoja, jotka poikkeavat epänormaalisti tietojen yleisestä mallista. Ne tuotetaan usein prosesseilla, jotka eroavat laadullisesti päätietojoukosta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Mitä menetelmien vertailussa arvioitiin?

A
  • osumatarkkuutta
  • väärien osumien astetta
  • robustisuutta
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

SD3 tulokset?

A

SD3-säännöllä menetelmä tunnisti ei-poikkeamat, mutta huonosti poikkeamat (konservatiivisuus) Ongelma korostui kun poikkeamien osuus kasvoi.

Kun poikkeamien osuus oli erittäin pieni, SD3 toimi suhteellisen hyvin, koska se määrittää havainnon helpommin ei-poikkeamaksi verrattuna muihin menetelmiin

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

SD2 tulokset?

A

Osumatarkkuus parani, mutta se tunnisti useammin ei-poikkeamat väärin, etenkin silloin, kun poikkeamien osuus oli pieni

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

GMM tulokset?

A

Samat ongelmat kuin SD säännöllä, mutta se oli robustimpi, eli ongelmat eivät korostuneet poikkeamien osuuden kasvaessa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

rSD tulokset?

A

Yleisesti korkeat osumatarkkuudet, mutta poikkeamien osuuden ollessa yli 10% siinä oli kuitenkin jyrkkää laskua. Myös väärien osumien aste oli korkea

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Parametrittomien sääntöjen tulokset?

A

Parametrittomat säännöt toimivat pääsääntöisesti parametrisiä paremmin.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Missä tilanteissa parametriset säännöt olivat parametrittomia parempia?

A

Poikkeuksena:
- tilanteet, joissa poikkeamien osuus oli hyvin pieni
- prctile sääntö (jos hylkäämisalue oli määritelty hyvin)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

IQR ja Tukey tulokset?

A

Sekä IQR että Tukey oli korkea osumatarkkuus, kun poikkeamien osuus oli alle 20% Osumatarkkuus kuitenkin laski korkeammilla poikkeamien osuuksilla
- Tämä oli odotettavissa sillä kvartiilivälin sietopiste on 25%
- Väärien osumien asteet olivat myös Sn sääntöä korkeammat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

MADn ja Sn sääntöjen tulokset?

A

Pärjäsivät yhtä hyvin. Pienillä poikkeamien osuuksilla (<20%) olivat yhtä tarkkoja kuin muutkin säännöt, mutta niillä oli muita sääntöjä korkeampi robustisuus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Miten Sn eroaa MADn säännöstä?

A

Sn-menetelmällä oli hieman pienempi väärien osumien aste verrattuna MADn-sääntöön, ja sen toiminta ei vaadi jakauman symmetrisyyttä

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Mikä aiheuttaa poikkeamia aineistoon?

A
  • tekniset virheet
  • virheet aineiston tallennuksessa
  • koehenkilöt joko tahallaan tai tahattomasti ovat toimineet ohjeistuksen vastaisesti
17
Q

Mitkä ovat kolme lähestymistapaa poikkeamien tunnistamisessa?

A
  1. Poikkeamia ei huomioida
  2. Etsitään manuaalisesti poikkeamat aineistosta omaa harkintakykyään käyttäen
  3. Poikkeamat määritellään numeerisesti jotain tilastollista heurestiikkaa eli sääntöä käyttäen
18
Q

Mitkä ovat parametrisiä menetelmiä?

A
  • SD
  • GMM
  • rSD
  • (toimivat parhaiten normaalijakaumalla)
19
Q

Mitkä ovat parametrittomia menetelmiä?

A
  • IQR
  • prctile
  • Tukey
  • MADn
  • Sn
20
Q

SD-menetelmän toimivuus?

A

Yksi käytetyimpiä tapoja, mutta
1. Keskiarvo ja -hajonta ovat sellaisia tunnuslukuja, joita poikkeamat vääristävät helposti
2. Säännön käyttö olettaa, että aineisto on symmetrisesti jakautunut (toimii parhaiten normaalijakaumalla)

21
Q

Mikä on gaussilaisen sekamallin tehtävä?

A

Primäärin komponentin avulla lasketaan otokselle keskiarvo ja -hajonta

Sekundääri komponentti estää, etteivät poikkeamat vääristä primäärin komponentin otoskeskiarvoa ja -hajontaa

(Voi olla enemmän kuin 2 komponenttia)

22
Q

rDS-sääntö toimivuus?

A

Vaatii toimiakseen symmetrisesti jakautuneen aineiston ja toimii parhaiten normaalijakaumalla

23
Q

IQR-sääntö toimivuus?

A
  1. Sietää paremmin isoja määriä poikkeamia, koska mediaani ja kvartiilivälin pituus ovat robusteja tunnuslukuja
  2. Toimii parhaiten symmetrisesti jakautuneelle aineistolle, vaikkei tarvitsekaan olla normaalijakautunut
24
Q

prctile-sääntö toimivuus?

A
  1. Havaintojen määrittelyssä ei hyödynnetä mitenkään aineiston hajonnasta saatua informaatiota :(
  2. Se, kuinka suuri prosenttiosuus havainnoista määritetään poikkeamiksi on tutkijan valittavissa :(
25
Q

Tukey-sääntö toimivuus?

A
  • Hyödyntää hajonnasta saatua informaatiota :)
  • Ja näiden käyttö lisää jonkin verran toimivuutta ei-symmetrisesti jakautuneiden aineistojen kanssa :)
26
Q

MADn-sääntö toimivuus?

A
  1. IQR:ää robustimpi -> MADn-hajontaluku vääristyy vasta, kun 50% havainnoista on poikkeamia :)
  2. Toimii parhaiten symmetrisesti jakautuneilla muuttujilla :(
27
Q

Sn-sääntö toimivuus?

A
  1. Sn-tunnusluku on hyvin robusti :)
  2. Toimiva myös ei-symmetrisesti jakautuneilla aineistoilla :)
  3. Haastava laskea :(, tietokonelaskennan kehittyessä ei välttämättä enää ongelma:)
28
Q

Mitkä olivat tulokset otoskoon vertailun osalta? (keskikokoinen ja suuri)

A

Sääntöjen toimivuudessa ei ollut kauheasti eroa verrattaessa keskikokoista (32) ja suurta (128) otosta
- mutta rSD-säännön väärien osumien osuus kasvoi suurilla otoksilla.
- Sn toimi parhaiten paitsi tilanteissa joissa poikkeamien osuus otoksessa oli erityisen pieni

29
Q

Mitkä olivat tulokset otoskoon vertailun osalta? (pieni)

A

Pienillä (8) otoksilla suurin osa säännöistä ei pystynyt tunnistamaan enempää kuin yhden poikkeaman
- rSD ja prctile olivat täysin toimintakyvyttömiä
- Sn ja MADn säilyttivät hyvin robustisuutensa
- GMM sääntö toimi hyvin suhteessa muihin: sen osumatarkkuus oli korkeampi kuin Sn ja MADn, kun poikkeamien osuus oli yli 33%

30
Q

Johtopäätökset sääntöjen toimivuudesta?

A
  • Sn paras toimivuudeltaan, kun vertailtiin osumatarkkutta, väärien osumien astetta ja robustisuutta
  • Sn:n käyttöä pitäisi suosia ellei ole erityistä syytä sen välttämiseksi
  • MADn ja Sn välillä ei ollut paljon eroa > MADn käyttöä voi harkita (tarvitsee kuitenkin symmetrisen jakauman toimiakseen, toisin kuin Sn)
  • SD ja sen johdannaiset olivat huonoja melkein kaikissa tilanteissa ja niiden käytölle pitäisi olla erittäin hyvät perustelut
31
Q

Mitä haittoja poikkeamien poistamisella on?

A

Yleisesti pidetään huonona ratkaisuna, koska harvoin voidaan olla täysin varmoja, että tunnistetut poikkeamat ovat oikeasti poikkeamia, eivätkä esim. vinon jakauman ei-poikkeavia ääriviivoja

Tunnistettujen poikkeamien poistaminen voi tässä tapauksessa johtaa mahdollisesti mielenkiintoisten havaintojen poistamiseen

Poikkeamien poistolla voidaan pahimmassa tapauksessa myös manipuloida tuloksia tukemaan virheellisiä johtopäätöksiä

32
Q

Mitä hyötyjä poikkeamien poistamisesta on ja mitä ohjeita niiden poistoon annetaan?

A
  • tietyissä tilanteissa niiden pitäminen aineistossa vääristää tuloksia merkittävällä tavalla
  • Pitäisi tilastollisia sääntöjä käyttäessä hyödyntää myös maalaisjärkeä
  • Raportoidessa: poikkeavat havainnot pitäisi merkitä mukaan aineiston esittelyyn ja pitäisi kertoa, jos poikkeamien poisto voi mahdollisesti vaikuttaa jotenkin tutkimuksessa tehtyihin johtopäätöksiin