Thema 3 Flashcards

1
Q

Kwantitatieve data

A

Data verkregen uit cross-sectioneel of experimenteel onderzoek

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Datapunt

A

representatie van de uitkomst van een meting

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Datareeks

A

reeks van meerdere datapunten die hetzelfde representeren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Veel variabelen zijn Continu

A

ze zijn meetbaar op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen. Continue variabelen zijn van het hoogste meetniveau.

  • geslacht is een vorobeeld van een variabele van het laagste meetniveau (nominaal); 2 categorieën (m/v) en niet te ordenen, niet mee te rekenen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Ordinale Variabelen

A

de afstand tussen de geordende categorieën is onbekend; we kunnen de categorieën alleen maar ordenen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nominale + ordinale variabelen (= categorische of discrete variabelen)

A

de verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën.
* tegenover categorische variabelen staan continue variabelen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Binnen de continue variabelen worden soms 2 meetniveaus onderscheiden:

A

1) interval niveau
2 ratio niveau

  • het verschil tussen deze twee meetniveaus is het al dan niet bestaan van een zogenaamd “absoluut nulpunt”, waardoor er wel of niet een verhouding tussen 2 getallen uitgedrukt kan worden (lengte= ratio, temperatuur = interval)
  • ER zijn dus continue variabelen, waarbij het onderscheid tussen interval - en ratio variabelen niet relevant is en categorische (of discrete) variabelen, waarbij het onderscheid tussen norminaal en ordinaal wél relevant is
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Variabelen hebben niet altijdd een vast meetniveau

A

het meetniveau is een keuze die de onderzoeker maakt tijdens het operationaliseren. Meet niveaus zijn niet zozeer eigenschappen van variabelen “in de realiteit”, maar kenmerken van operationalisaties, ofwel van meetinstrumenten/manipulaties

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Kiezen voor een categorisch meetniveau, terwijl een variabele op een continu niveau gemeten kan worden, kan schadelijk zijn voor het onderzoek, om 4 redenen:

A

1) er zijn altijd meer delenmers nodig, naarmate het meetniveau van de betreffende variabelen lager is (een verband aantonen tussen 2 continue variabelen vereist minder deelnemers, dan wanneer 1 van de variabelen categorisch is.. laat staan als beide variabelen dat zijn)

2) Veel variabelen die we willen meten in onder8zoek zijn continu. Daar waar mensen categorieën waarnemen, blijkt na onderzoek meestal dat er in feite sprake is van 1 of meer onderliggende continue variabelen, die mensen min of meer arbitrair in groepen indelen (categorische operationalisaties zijn dus niet altijd valide)

3) Het is altijd mogelijk om van een continue variabele terug te gaan naar lagere niveaus, maar niet andersom

4) groepen mensen bestaan vaak niet uit duidelijk onerscheidbare subgroepen. Elke indeling in categorieën geeft dus vaak een vertekening van de werkelijkheid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Er wordt best wat onderzoek gedaan met categorische variabelen:

A

1) manipulaties resulteren in experimenteel onderzoek bijna altijd in categorische variabelen

2) er moet bij de ontwikkeling van meetinstrumenten niet alleen gelet worden op het optimale meetniveau; een operationalisatie moet bovenal valide en betrouwbaar zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

De meest gangbare manier om datapunten samen te vatten, is d.m.v. centrummaten. Centrummaat geeft het centrum aan van een bepaalde datareeks. Meest gebruikte centrum maat is

A

Het Gemiddelde.

  • mediaan
  • middelste datapunt in de datareeks
  • modus (meest voorkomende waarde in de datareeks. Meervoud = modi)
  • modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Outlier (uitschieter/uitbijter)

A

extreem datapunt
- vaak een indicatie dat er een fout in de data zit
- het is aan de onderzoeker om de data op extreme waarden te controleren en te beslissen wat er met outliers moet gebeuren
- modus en mediaan zijn het minst gevoelig voor outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Spreidingsmaat

A

de eenvoudigste is Range(bereik) van een variabele
- verschil tussen minimum en maximum
- zeer gevoelig voor outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Interkwartielafstand (Inter Quartile Range - IQR)

A

is voor spreidingsmaten wat de mediaan is voor centrummaten
- om de IQR te berekenen, wordt de data geordend van laag naar hoog en opgesplitst in 4 kwartielen

  • 3 breekpunten (Q1 - Q2 (mediaan) - Q3)
  • de afstand tussen Q1 en Q3 = IQR
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Variatie (Sum of Squares - SS)

A

de som van de gekwadrateerde afwijkingen van het gemiddelde
- bereken door eerst te bepalen voor elk datapunt hoe ver deze van het gemiddelde afwijkt

(negatieve)getallen x zichzelf = kwadrateren

*nadeel van variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen (maar de spreiding wordt niet noodzakelijk meer)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Variantie (Mean Squares = MS)

A

houdt rekening met het aantal datapunten en is daarom informatiever dan SS.
- bij SS tel je de kwadraten op, voor MS bereken je het gemiddelde van de kwadraten (som gedeeld door aantal observaties)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Vrijheidsgraden (Degrees of Freedom)

A

De noemer van deze formule (N-1) noemen we het aantal vrijheidsgraden van deze datareeks; deze ddrukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert

  • voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden N-1, dwz dat je in een datareeks alledatapunten behalve 1 willekeurige kunt veranderen
  • hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen (ingewikkelde statistische berekeningen vereisen daarom meer observaties)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Standaarddeviatie (SD)

A

meest gebruikte spreidingsmaat
- de SD is de wortel van de variantie (MS) en geeft de gemiddelde afwijking van het gemiddelde weer (the mean distance to the mean)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

De centrum -en spreidingsmaten die te berekenen zijn, hangen af van de schaal waarop variabelen gemeten zijn

A
  • Bij categorische variabelen kan niet echt van een schaal gesproken worden, maar sommige centrummaten zijn bruikbaar
  • de modus, de meest voorkomende meetwaarde, kan ook bepaald worden bij ordinale en zelfs bij nominale variabelen.
  • de mediaan is de meetwaarde van het middelste datapunt, nadat alle punten zijn geordend. De mediaan kan dus ook bij ordinale variabelen bepaald worden.

Toch geven de mediaan/moduus weinig informatie over de verdeling van een categorische variabele.
Juist bij categorische variabelen (want relatief weinig categorieën/meetwaarden) is het eenvoudig te bepalen hoe vaak elke meetwaarde voorkomt –> “frequentie-verdeling”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Frequentie Verdeling

A

bestaat uit de frequenties, ofwel aantallen, voor elke mogelijke meetwaarde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Cumulatieve percentage

A

percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Getransporteerd

A

rijen en kolommen zijn omgedraaid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Absolute frequenties

A

aantal datapunten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Relatieve frequenties (%)

A

aantal datapunten in categorie t.o.v. totaal aantal datapunten

25
Q

Sum of Squares (SS) is de variatie

A

De variatie is de variantie VOORDAT deze is gecorrigeerd voor het aantal datapunten. Variatie is dus GROTER dan variantie. Standaarddeviatie is de wortel van de variantie en dus altijd de kleinste van de 3

26
Q

Datareeksen bestaan vaak uit honderden of duizenden datapunten

A

individuele datapunten zijn vaak ook niet van belang; datareeksen worden meestal verzameld om informatie te krijgen over een populatie (=oneindig groot)
- patronen zijn het belangrijkst

27
Q

Histogram

A

hier correspondeert de horizontale as (x-as) met de schaal van de datareeks
- bij een histogram worden de datapunten altijd samengevoegd in groepen

28
Q

De verdelingsvorm van data wordt meestal bepaald door te kijken naar een grafische weergave van de data

A

Plot/grafiek

  • Puur kijken naar een grafiek zorgt ervoor dat de verdelingsvorm soms open is voor interpretatie, daarom zijn er naast visuele hulpmiddelen, ook kwantitatieve indicatoren voor een verdelingsvorm –> verdelingsmaten
29
Q

3 termen die gebruikt worden om een verdelingsvorm te beschrijven:

A

1) Modaliteit (toppigheid)
2) Scheefheid (Skewness)
3) Spitsheid (kurtosis)

30
Q

Modaliteit (toppigheid)

A
  • beschrijft het aantal toppen van een verdeling
  • “modaliteit” komt van “modus” = de meest voorkomende waarde in een datareeks
  • modus vormt een “top” in de verdeling van de data
31
Q

Verdelingen kunnen één of meerdere toppen hebben

A

Verdeling met 1 top: unimodaal/ééntoppig
Verdeling met meer toppen: multimodaal meertoppig/ bimodaal tweetoppig

32
Q

Hartigan’s Piptest

A

deze test geeft een indicatie van de unimodaliteit van een verdeling. Een perfect unimodale verdeling heeft een diptestwaarde van 0. Naarmate een verdeling “meertoppig” lijkt te zijn, wwordt deze waarde steeds groter

33
Q

Scheefheid (Skewness)

A
  • beschrijft of een verdeling symmetrisch of asymmetrisch is
  • scheve verdeling –> meeste datapunten liggen aan één kant van de schaal
  • een 1toppige verdeling kan symmetrisch, linksschef (negatief scheef) of rechtsscheef (positief scheef) zijn
  • Symmetrische verdeling = bell curve
  • Bij een linksscheve verdeling liggen er minder datapunten aan de linkerkant van het gemiddelde. De meeste datapunten liggen dus aan de rechterkant en er is een staart met datapunten relatief ver weg van het gemiddelde van de linkerkant
  • perfecte symmetrie = 0
  • linksscheef = skewness wordt kleiner/meer negatief
  • rechtsscheef = skewness wordt groter/meer positief
34
Q

Spitsheid (Kurtosis)

A
  • beschrijft hoe spits of hoe lat een verdeling is
  • extreemste voorrbeeld: alle datapunten met dezelfde waarde –> spitzer kan een verdeling niet
  • Platte verdeling: verdeling waarbij alle waarden even vaak voorkomen = uniforme verdeling
  • Leptokurte verdeling: verdeling die heel spits is
  • Platykurte verdeling: verdeling die heel plat is
  • de kurtosis is 0 bij een perfect normale verdeling
  • naarmate verdeling platter is, wordt de kurtosis kleiner/meer negatief
  • naarmate verdeling spitser is wordt de kurtosis steeds groter/meer positief
35
Q

NOrmaal verdeling

A
  • unimodaal –> diptest 0
  • niet scheef (symmetrisch) –> skewness 0
  • niet spits/plat –> kurtosis 0

68% (2/3) van datapunten ligt binnen 1 standaarddeviatie van het gemiddelde

95% van datapunten ligt binnen 2 standaarddeviaties van het gemiddelde

99,7% van datapunten (bijna alle) ligt binnen 3 standaarddeviaties van het gemiddelde

36
Q

Een speciale vorm van de normale verdeling is een normaalverdeling, met een gemiddelde van 0 en een standaardeviatie van 1

A

Dit heet een standaardnormale verdeling, of Z-verdeling

37
Q

Z-verdeling

A

is handig, want van elk datapunt in die verdeling is gelijk duidelijk hoe ver het van het gemiddelde ligt
- datapunten in Z-verdeling = Z-scores
- bij Z-score van 2 betekent dit dat het datapunt 2 standaarddeviaties van het gemiddelde ligt.

38
Q

Datapunten omrekenen in Z-scores

A

= Standaardisering

  • je kunt een waarde standaardiseren door het gemiddelde van deze waarde af te trekken en te delen door de standaarddeviatie
  • standaardisering vertaalt de datareeksen naar dezelfde schaal, waarbij 0 staat voor het gemiddelde en 1 staat voor één standaarddeviatie
  • Door verdeling van steekproefscores te bekijken, ontstaat er een beeld over de populatieverdeling
39
Q

Normaalverdeling - Bell Curve - Density Plot

A

Density plot is handig om de kans op een bepaalde waarde af te lezen. De kans correspondeert namelijk met het deel van de density pot dat links of rechts van die gegeven waarde ligt
- handig om histogram van een steekproef te interpreteren

40
Q

Q-Q plot

A

bruikbare informatiebron om de verdeling van een datareeks te vergelijken met de normale verdeling
- splitst de data in kwartielen (quartiles)
- kwartielen zijn de breekpunten tussen eeven grote delen van de data
- decielen = 9 breekpunten die de datareeks in 10 even grote delen splitsen
- percentielen = 99 breekpunten, 100 delen
- kwartielen uit de data geplot tegen de verwachte kwartielen op basis van een normale verdeling

41
Q

Boxplot

A

hier worden 3 kwartielen geplot (breekpunten die de data in 4 even grote delen splitsen)

42
Q

Staafdiagram

A

categorische variabelen (geen density plot mogelijk ivm ontbreken x-as)
- er kan niet gesproken worden over verdelingsvormen bij categorische variabelen

43
Q

Steekproeffout

A

het kiezen van deelnemers

44
Q

Meetfout

A

het afnemen van metingen

45
Q

Betrouwbaarheidsinterval (confidence interval)

A

geeft een indicatie van de accuraatheid van een maat uit een steekproef

46
Q

Steekproevenverdeling (sampling distribution)

A

theoretische verdeling van een bepaalde maat (bv het gemiddelde) die je krijgt als je een oneindig aantal steekproeven uit een populatie zou trekken

47
Q

Standaarddeviaties zijn een maat voor spreiding:

A

ze geven aan hoe dicht de waarden in de datareeks om de centrummaten heen liggen

48
Q

Een steekproeven verdeling van gemiddelden bevat dus alle mogelijke gemiddelden die met een steekproef van een gegeven omvang gevonden kunnen worden

A

een steekproevenverdeling van standaarddeviaties bevat alle mogelijke standaarddeviaties die met een steekproef van een gegeven omvang gevonden kunnen worden.

49
Q

Proces

A

1) uit een populatie kan een steekproef van een gegeven omvang worden getrookken door willekeurig onderzoekseenheden (bv. deelnemers) te selecteren

2) de resulterende datareeks wordt gekenmerkt door beschrijvingsmaten (centrum - spreidings - verdelings)

3) Voor elk van deze maten kan een theoretische steekproevenverdeling worden opgesteld.

4) Die steekproevenverdeling bevat de desbetreffende maten verkregen uit oneindige herhaling van die steekproeftrekking (met dezelfde omvang)

5) Elke centrum - spreidings - en verdelingsmaat is dus te beschouwen als een willekeurige selectie van één waarde uit de desbetreffende steekproevenverdeling

50
Q

Centrale limietstelling stelt dat naarmate we meer steekproeven trekken

A

de steekproevenverdeling van het gemiddelde steeds meer op de normaalverdeling zal lijken

51
Q

De standaarddeviatie van een steekproevenverdeling wordt de “Standaardfout” genoemd

A

Standard Error
- hoe groter de steekproef, hoe smaller (spitser) de steekproevenverdeling en dus hoe kleiner de standaardfout
- hoe groter de steekproef, hoe minder extreem de gemiddelden

52
Q

Betrouwbaarheidsinterval

A

= het interval om het steekproefgemiddelde heen, dat in 95% van de steekproeven het populatie gemiddelde bevat. Dit interval komt overeen met een afwijking van ongeveer 2 standaardfouten van het gemiddelde

  • betrouwbaarheidsinterval geeeft informatie over hoe accuraat het gemiddelde is dat we in de steekproef hebben gevonden
  • die accuraatheid van het gemiddelde van de steekproef zit in de breedte an het interval: smalle intervallen zijn meer accuraat, brede intervallen minder
  • betrouwbaarheidsintervallen kunnen voor alle mogelijke maten van een steekproef berekend worden, b.v. voor andere beschrijvingsmaten, maar ook voor maten die de samenhang tussen meerdere variabelen weergeven
53
Q

Breedte- index hangt af van 2 dingen:

A

1) de vorm van de steekproeven verdeling van de desbetreffende waarde
2) betrouwbaarheid van het interval (dit getal wordt dus groter naarmate een hogere betrouwbaarheid wordt gewenst)

54
Q

Voor het gemiddelde (en andere waarden waarvan de steekproevenverdeling normaal verdeeld is) geldt;

A

de breedte0index is gelijk aan 1.96 voor een 95% betrouwbaarheidsinterval, 2.58 voor een 99% betrouwbaarheidsinterval en 0.67 voor een 50% betrouwbaarheidsinterval

  • een betrouwbaarheidsinterval van 0 is een puuntschatting en dus geen interval meer
55
Q

Het betrouwbaarheidsinterval is als volgt te interpreteren:

A

stel dat je een steekproef oneindig vaak zou herhalen, dan zou in 95% van de gevallen het populatie gemiddelde in het betrouwbaarheidsinterval vallen

56
Q

Het meetniveau kun je achterhalen door in het databestand te kijken naar de antwoordmogelijkheden en waardes bij alle variabelen:

A
  • variabele zoals leeftijd = continue variabelen, wanneer we veronderstellen dat de afstand tussen de scores gelijk is
  • nulscore = absoluut nullpunt (ratio-niveau-variabele)
  • negatieve score niet mogelijk
  • ander kenmerk van ratio niveau is dat er een verhouding tussen 2 waarden uitgedrukt kan worden (kan niet bij psychologische constructen)
  • psychologische constructen hebben interval meetniveau
  • gender = dichotome nominale variabele
  • ordinale variabele = leeftijd
57
Q

Voor continuee variabelen kunnen verschillende beschrijvingsmaten worden berekend, waaronder 3 centrummaten; gemiddelde/mediaan/modus

A
  • ook de volgende spreidingsmaten: de range, standaarddeviatie, variantie, variatie en de kwartielafstand
  • in alle softwarepakketten wordt alleen de VARIANTIE berekend, niet de variatie. Om deze te berekenen moet je de variantie vermenigvuldingen met N-1.
  • De variantie (MS) is gelijk aan variatie (SS) gedeeld door N-1
58
Q

Voor continue variabelen is het mogelijk om 3 verdelingsmaten te berekenen:

A

scheefheid, spitsheid en toppigheid (diptest). voor nominale en ordinale variabelen kunnen deze maten niet berekend worden