Abstract/The Problem of outliers/General approaches and outstanding questions Flashcards
Mitä tämä tutkimus tutkii?
Miten tilastolliset poikkeavat havaintoarvot voidaan löytää psykofyysisissä aineistoissa, joissa aiheiston jakauma on tuntematon
Mitä tässä tutkimuksessa esitellään?
8 eri laskukaavaa poikkeavien havaintoarvojen tunnistamiseen
Mikä oli tutkimuksen mukaan paras metodi?
Sn
Miksi Sn oli paras tapa tunnistaa poikkeavuudet?
→ herkempi kuin suositummat testit jotka on yleensä laskettu keskiarvosta keskihajonnan perusteella
→ robustimpi kuin ei-parametriset testit jotka on laskettu prosenttipisteiden ja kvartaalivälien perusteella
Mitä tarkoittaa robustisuus?
robusti/vakaa. Tilastollisen menetelmän kykyyn sietää poikkeavuuksia aineistossa (esim mediaani ja keskiarvo verrattuna, mediaani robustimpi koska ei reagoi paljoakaan poikkeaviin havaintoarvoihin)
Mitä korkeampi breaking point (hajoamispiste) sitä parempi on..?
robustisuus
Sensitiivisyys / hit rate ?
Kyky tunnistaa OIKEIN poikkeava arvo (outlier)
Spesifisyys
Menetelmän kyky tunnistaa OIKEIN todellinen havaintoarvo
False Alarm rate / 1-spesifisyys
“väärä hälytys”
VÄÄRIN tunnistettu todellinen havaintoarvo
Tunnistetaan siis oikein mitattu arvo virhearvoksi
Mitä ovat poikkeavat arvot (=outliers)?
Tilastolliset poikkeavuudet ovat virheen seurauksena syntyneitä, kokonaisdatasta selvästi eroavia lukuarvoja
Mistä tilastolliset poikkeavuudet voivat johtua?
Teknisestä virheestä
Viallisesta litteroinnista (=puhtaaksi kirjoittamisesta)
(usein tämä on syynä) Osallistuja (koehenkilö) ei ole kykenevä tai halukas suorittamaan annettu tehtävä halutulla tavalla
→ esim. tylsyyden, väsymyksen, huonojen ohjeiden tai feikkaamisen takia
Miten poikkeavat havaintoarvot vaikuttavat tutkimuksen tuloksiin? (Kaksi esimerkkiä)
a) Tekemällä samankaltaiset populaation näyttämään erilaisilta
b) Tekemällä erilaiset populaatiot näyttämään samanlaisilta
Miksi tilastolliset poikkeavuudet ovat ongelma?
Ne voivat vaikuttaa voimakkaasti tilastollisen testin tuloksiin
Mitä parametriset testit vaativat?
Normaalijakauman
Mitkä on epäparametristen testien hyvät puolet?
- Korkea breaking point eli menetelmä hajoaa vasta kuin x määrä aineistosta on outliereita (esim. x=50%)
- ei yleisesti vaikuta äärimmäiset tilastolliset poikkeavuudet
Epäparametristen testien huonot puolet?
- Eivät ole yhtä herkkiä kuin parametriset testit
- käyttöä ja ominaisuuksia ei tunneta hyvin
- eivät ole yhtä tarkkoja verrattuna parametrisiin testeihin
Mitä jotkut tutkijat tekevät tilastollisille poikkeavuuksille?
He poistavat ne manuaalisesti
Mikä on tilastollisten poikkeavuuksien manuaalisesti poistamisen ongelma?
- altis vääristymille ja tutkijoiden virheille
- estää muita toistamasta tutkimusta tarkasti ja arvioimasta sitä
- prosessi ei ole perusteltu tai tarkkaan määritelty
Missä tilanteessa on helppo tunnistaa poikkeama?
Jos tunnetaan aineiston jakauma –> voidaan asettaa tietty kynnysarvo siihen, mikä on poikkeama koska osataan ennustaa jokaisen arvon todennäköisyys aineistossa
Mikä tekee outlierien tunnistamisesta hankalaa?
Se että aineiston todellinen jakauma harvoin tunnetaan
Mitä tutkijoiden on tehtävä jos aineiston jakaumaa ei tunneta etukäteen?
Tutkijat joutuvat käyttämään erilaisia menetelmiä tilastollisten poikkeavuuksien paikannukseen
Mikä ongelma on eri kaavoissa kun etsitään poikkeavuuksia?
Jotkut kaavat johtavat erilaisiin tuloksiin
Millaista dataa tässä tutkimuksessa on käytetty?
Simuloitua, eli data ei ole oikeaa
Mihin muuttujaan perustuvat menetelemät toimivat heikosti?
Keskihajontaan
Mihin muututjaan perustuvat menetelmät toimivat hyvin?
Mediaaneihin
Mitkä asiat ovat haluttuja mittarissa joka tunnistaa hyvin poikkeavuudet aineistossa?
- Korkea hit rate (sensitiivisyys)
- Matala false alarm rate (1-spesifisyys)
- Robustisuus poikkeavien lukuarvojen ja aineiston lukumäärän vaihtelua kohtaan
Tutkimuksen tavoitteet?
- Kuvailla tällä hetkellä saatavilla olevia eri metodeja, joilla on mahdollista paikantaa tilastollisia poikkeavuuksia (datassa jossa otosjakauma on tuntematon)
- Käyttää simulaatioita (esimerkkitilanteita) arvioidakseen miten hyvin eri metodi suoriutuu tyypillisessä psykofyysisessä kontekstissa