H1 Inleiding Flashcards
Beschrijvende statistiek
Samenvatten van data
- Data: numerieke gegevens van populatie of steekproef
2 manieren om data samen te vatten
- verdeling maken
- steekproefgrootheden
Populatie
- alle leden van een gedefinieerde groep
- parameters zijn maten voor eigenschappen van de scores in de populatie
- Griekse letters geven de parameters weer (mu en sigma)
Steekproef
- deelverzameling van leden van een groep
- steekproefgrootheden zijn maten voor eigenschappen van de scores in de steekproef
- Latijnse letters geven steekproefgrootheden weer (X en s)
Verdeling
- data samenvatten door groeperen van data met dezelfde score
- dit kan onder andere door middel van een frequentieverdeling of histogram
Steekproefgrootheden
- Data samenvatten door kenmerkende eigenschappen van de verdeling van de data
- wat zijn deze kenmerkende eigenschappen:
–> centrale tendenties en spreiding
Centrale tendenties
Gemiddelde, mediaan en modus
- mediaan is middelste getal
- modus is getal met hoogste frequentie
Spreiding
Range (max en min), variantie en standaarddeviatie
Variantie
s^2 = ss/N-1
–> ss = som vam alle (X-gem)^2 (deviatiescore in het kwadraat) –> sum of squares
- gebruik N bij populatie en N-1 bij steekproef
Standaarddeviatie
Wortel van s^2
Inferentiële statistiek
- beschijvende statistiek volstaat als we data hebben van de gehele populatie
- bijna altijd hebben we alleen data van een steekproef en niet van de hele populatie want: te duur, te lang en soms onmogelijk
3 procedures van de inferentiële statistiek
- hypothese toetsen
- puntschatten
- intervalschatten –> betrouwbaarheidsinterval
Hypothese testen
- Formuleren van hypothesen
- Beslissingsregels bepalen voor een significant resultaat p<a
- P-waarde bepalen uit SPSS
- Beslissing over significantie en inhoudelijke conclusie –> p<a
Logica van hypothesetoetsen
- je maakt een aanname over de waarde van een parameter
- gegeven dat de waarde juist is, bepaal je de verdeling van de mogelijke waarden die de steekproefgrootheid kan aannemen bij een enkelvoudige toevallige steekproef van N cases
–> p-waarde: de kans dat de waarde van gemiddelde of extremer optreedt
Als p-waarde kleiner is dan a
‘als mijn H0 waar is, dan is de kans dat ik deze waarde voor X vind of nog extremer, kleiner dan a. Deze kans is zo klein, dat ik geen vertrouwen meer heb in mijn nulhypothese. Ik verwerp H0.’
Als p-waarde groter is dan a
‘Als mijn H0 waar is, dan is de kans dat ik deze waarde voor X vind of nog extremer best groot. Ik heb dus niet genoeg redenen om te twijfelen aan de juistheid van H0. Ik verwerp H0 dus niet.’
Puntschatten
Wat is de beste gok voor de parameters
- dus welke waarde ligt het dichtste bij de waarde in de populatie
–> voor gemiddelden en variantie van de populatie zijn de gemiddelden en vatiantie van de steekproef de beste gok
Intervalschatten
Betrouwbaarheidsinterval: Wat is het interval waarbinnen de waarde van de parameter met …% zekerheid ligt
–> in …% van de keren dat ik een steekproef trek van N=# zal het betrouwbaarheidsinterval mu bevatten
Hypothesetoetsen met betrouwbaarheidsintervallen
Tweezijdig hypothesetoetsen
- ligt het gemiddelde van H0 in het interval dan mag je H0 niet verwerpen
- ligt het gemiddelde van H0 niet in het interval, dan mag je H0 wel verwerpen
Stel H0 is waar
- betrouwbaarheidsinterval
- 95% van alle mogelijke steekproeven levert een interval op waar het gemiddelde van H0 in ligt (terecht H0 aanhouden)
- 5% van alle mogelijke steekproeven levert een interval op waar het gemiddelde van H0 niet in ligt (ten onrechte H0 wél verwerpen = type I fout)
Verschillende soorten toetsen
- twee populaties
- H0: mu1 = mu2 en s1 = s2 en onbekend, onafhankelijke steekproefen –> t-toets
- H0: mu1 = mu2 s1 =/= s2 en onbekend, onafhankelijke steekproeven –> t-toets
- H0: delta = mu1-mu2 = 0 sigma van delta is onbekend, afhankelijke steekproeven –> t-toets
Toetsgrootheid
(Steekproefgrootheid X - parameter mu) / standaardfout
Levene’s test in SPSS
Bekijk of de varianties significant gelijk zijn. Als dit niet zo is dan bekijk je de equal variances assumed. Zijn de varianties wel significant gelijk, dan gebruik je equal variances not assumed