boek Groningen Flashcards
onderzoekseenheden
objecten of personen waar je iets over zegt
kenmerken van onderzoekseenheden waar je iets over zegt = variabelen
variabele zonder vaststaande numerieke waarde
categorieën toch numerieke waarde geven om dataverwerking te vergemakkelijken
bv. vrouw = 1, man = 2
datamatrix
manier om kenmerken (kolommen) van onderzoekseenheden (rijen) onder te brengen
frequentieverdeling kun je maken om uitspraak te kunnen doen over percentuele verdeling over variabele
termen in datamatrix
variabelenaam = naam boven kolom
wat wordt bedoeld met variabelenaam zet je bij ‘variabelelabel’
waarde/value = getallen in cellen
valuelabel = aangeven wat wordt bedoeld met de waarden
deze info toevoegen bij tabblad ‘Variable view’
absolute en percentages in frequentietabel
absolute frequentie: aantal eenheden
percentage
cumulative percent = percentages van elke volgende waarde erbij opgeteld
frequentietabel opvragen
analyze > descriptive statistics > frequencies
daar variabelen selecteren
valid percent
de missing values worden niet meegerekend en daardoor kun je qua percentages beter daar kijken.
grafiek
Geen extra info, maar visueel snel duidelijk
taart-/cirkeldiagram meestal bij percentages (relatief)
staafdiagram meestal bij absolute aantallen
niet gebruikt bij heel veel verschillende waarden
grafiek maken in spss:
analyze> descriptive statistics > frequencies
>charts
benoemen aantal onderzoekseenheden
n = ….
meetbaar maken van variabelen
operationaliseren
latente variabele
variabele die je niet direct met één variabele kunt meten
bv. seksisme in tijdschrift
Dan vaak samengestelde schaal, op intervalniveau gemeten.
onafhankelijke variabele
oefent invloed uit
meestal: x
afhankelijke wordt beïnvloed
meestal: y
4 meetniveaus
nominaal, ordinaal, interval, ratio
nominaal meetniveau:
nummers hebben geen betekenis als getal
geen rangordening
alleen bepalen: zelfde waarde of niet
bv. woonplaats, geslacht
ordinaal meetniveau:
wel rangordening
intervallen hebben geen betekenis, afstanden tussen waarden zijn betekenisloos
bv. opleidingsniveau, schaal helemaal oneens tot helemaal eens
nominaal en ordinaal: categorisch, kan niet mee gerekend worden.
interval meetniveau:
wel gelijke afstand waarden, daardoor hebben intervallen betekenis
rangorde
geen absoluut nulpunt
bij geen absoluut nulpunt (bv temp.) kun je niet zeggen 20 gr is 2x warmer dan 10 gr.
bv. temperatuur
ook geboortejaar, want chinezen rekenen anders. Het is iets dat is afgesproken, arbitrair
ratio meetniveau:
gelijke intervallen
absoluut nulpunt
rangorde
bv. lengte in cm, aantal vrienden
interval en ratio = numeriek
kun je mee rekenen
in spss: Scale
continue en discrete
continue: alle waarden zijn mogelijk
discrete: beperkt tot telbaar aantal waarden (tussenliggende waarden geen betekenis, bv. 1,5 tv)
continu verschijnsel vaak wel discrete meetschaal, bv leeftijd
hercoderen (recode)
waarden herverdelen in verschillende klassen
bv kijktijd in minuten naar 3 categorieën (keuze onderbouwen)
daarmee van ratio naar ordinaal
minder analyses mogelijk
compute? blz122
in spss:
transform > record into different variables (oorspronkelijke variabelen worden daarmee bewaard!)
variabele > numeric variable > output variable
nieuwe naam
change
old and new values
range toevoegen door minimum en maximum-waarde toe te voegen + add (niet mogelijk bij nominale waarden, daar geen rangorde)
kan ook: Lowest through value (laagste waarde t/m bepaalde waarde) en value through highest (vanaf bepaalde waarde t/m hoogst mogelijke waarde)
nieuwe variabelen is laatste/onderste variabele.
Via data zelf labels typen
centrummaten 1.7
Rond welke (centrale) waarde de uitkomst ligt van waarnemingen
modus
waarde die het meest voor komt
hoogst in frequentie, bepalen a.d.h.v. frequentiemeting
bij alle meetniveaus te gebruiken, niet altijd zinnig
nominaal niveau: modus het meest geschikt en ook de enig mogelijke centrummaat
mag ook modus van andere meetniveaus
nadeel: modus geeft geen info over de overige waarden (dus soms niet zinvol om modus te berekenen)
modus is nummer van categorie met hoogste waarde.
bv modus is 1: categorie 1 (bier) heeft hoogste frequentie. getalsmatig zegt 1 hier niks.
mediaan
middelste waarneming na rangordening data van laag naar hoog
50% ligt onder deze waarde en 50% boven
niet op nominaal niveau, want daar is geen rangorde
ordinaal niveau of hoger
meest geschikt voor ordinaal
categorieën moeten elkaar uitsluiten!
bij even aantal waarnemingen:
eerst sorteren, middelste twee optellen en delen door 2
Kan zinnig zijn bij interval- of ratio:
> mediaan is ongevoelig voor uitschieters (in tegenstelling tot gemiddelde)
(rekenkundig) gemiddelde
alleen bij interval en ratio
waarnemingen optellen en delen door totaal aantal waarnemingen (n)
ook wel - x (streep boven x) of M (mean)
zie formule blz 41
sigma: neem de som van
n: totaal aantal waarnemingen
i=1, waarneming 1 t/m n, delen door n
spreidingsmaat
geven aan hoe sterk de waarden zich concentreren
vooral van belang bij interval en ratio,
want afstand tussen variabelen staat centraal
iets zeggen over spreiding bij nominaal niveau
bv. aantal mogelijke waarden/ aantal categorieën
(eerst vier verschillende drankjes besteld, later meer)
of:
variatie-ratio, aandeel van onderzoekseenheden dat niet in modale categorie (= modus) valt
spreiding en ordinaal niveau
range: verschil tussen hoogste en laagste variabele (hoogste - laagste= range)
wel moeilijk interpreteren
kan zinvol zijn om te vergelijken met andere range
bv leeftijden, range vriendengroep en range familie verschilt, terwijl het gemiddelde vergelijkbaar kan zijn.
maar: zegt niks over spreiding
kwartielen
25%
Q1: 25% heeft kleinere of gelijke waarde, 75% gelijke of hogere waarde
enz.
interkwartielafstand (IQR): afstand tussen Q1 en Q3 (Q3 - Q1=)
alleen zinvol als minimaal interval niveau is
zie blz 45
waarde van interkwartielafstand beter te interpreteren wanneer je deze vergelijkt met andere interkwartielafstand
boxplot
grafische weergave van kwartielen
> bekijken van zowel centrale tendentie als spreiding in één oogopslag:
laagste waarde, Q1, mediaan, Q3, hoogste waarde