Thema 3 Flashcards
Kwantitatieve data
Data verkregen uit cross-sectioneel of experimenteel onderzoek
Datapunt
representatie van de uitkomst van een meting
Datareeks
reeks van meerdere datapunten die hetzelfde representeren
Veel variabelen zijn Continu
ze zijn meetbaar op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen. Continue variabelen zijn van het hoogste meetniveau.
- geslacht is een vorobeeld van een variabele van het laagste meetniveau (nominaal); 2 categorieën (m/v) en niet te ordenen, niet mee te rekenen
Ordinale Variabelen
de afstand tussen de geordende categorieën is onbekend; we kunnen de categorieën alleen maar ordenen
Nominale + ordinale variabelen (= categorische of discrete variabelen)
de verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën.
* tegenover categorische variabelen staan continue variabelen
Binnen de continue variabelen worden soms 2 meetniveaus onderscheiden:
1) interval niveau
2 ratio niveau
- het verschil tussen deze twee meetniveaus is het al dan niet bestaan van een zogenaamd “absoluut nulpunt”, waardoor er wel of niet een verhouding tussen 2 getallen uitgedrukt kan worden (lengte= ratio, temperatuur = interval)
- ER zijn dus continue variabelen, waarbij het onderscheid tussen interval - en ratio variabelen niet relevant is en categorische (of discrete) variabelen, waarbij het onderscheid tussen norminaal en ordinaal wél relevant is
Variabelen hebben niet altijdd een vast meetniveau
het meetniveau is een keuze die de onderzoeker maakt tijdens het operationaliseren. Meet niveaus zijn niet zozeer eigenschappen van variabelen “in de realiteit”, maar kenmerken van operationalisaties, ofwel van meetinstrumenten/manipulaties
Kiezen voor een categorisch meetniveau, terwijl een variabele op een continu niveau gemeten kan worden, kan schadelijk zijn voor het onderzoek, om 4 redenen:
1) er zijn altijd meer delenmers nodig, naarmate het meetniveau van de betreffende variabelen lager is (een verband aantonen tussen 2 continue variabelen vereist minder deelnemers, dan wanneer 1 van de variabelen categorisch is.. laat staan als beide variabelen dat zijn)
2) Veel variabelen die we willen meten in onder8zoek zijn continu. Daar waar mensen categorieën waarnemen, blijkt na onderzoek meestal dat er in feite sprake is van 1 of meer onderliggende continue variabelen, die mensen min of meer arbitrair in groepen indelen (categorische operationalisaties zijn dus niet altijd valide)
3) Het is altijd mogelijk om van een continue variabele terug te gaan naar lagere niveaus, maar niet andersom
4) groepen mensen bestaan vaak niet uit duidelijk onerscheidbare subgroepen. Elke indeling in categorieën geeft dus vaak een vertekening van de werkelijkheid
Er wordt best wat onderzoek gedaan met categorische variabelen:
1) manipulaties resulteren in experimenteel onderzoek bijna altijd in categorische variabelen
2) er moet bij de ontwikkeling van meetinstrumenten niet alleen gelet worden op het optimale meetniveau; een operationalisatie moet bovenal valide en betrouwbaar zijn
De meest gangbare manier om datapunten samen te vatten, is d.m.v. centrummaten. Centrummaat geeft het centrum aan van een bepaalde datareeks. Meest gebruikte centrum maat is
Het Gemiddelde.
- mediaan
- middelste datapunt in de datareeks
- modus (meest voorkomende waarde in de datareeks. Meervoud = modi)
- modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten
Outlier (uitschieter/uitbijter)
extreem datapunt
- vaak een indicatie dat er een fout in de data zit
- het is aan de onderzoeker om de data op extreme waarden te controleren en te beslissen wat er met outliers moet gebeuren
- modus en mediaan zijn het minst gevoelig voor outliers
Spreidingsmaat
de eenvoudigste is Range(bereik) van een variabele
- verschil tussen minimum en maximum
- zeer gevoelig voor outliers
Interkwartielafstand (Inter Quartile Range - IQR)
is voor spreidingsmaten wat de mediaan is voor centrummaten
- om de IQR te berekenen, wordt de data geordend van laag naar hoog en opgesplitst in 4 kwartielen
- 3 breekpunten (Q1 - Q2 (mediaan) - Q3)
- de afstand tussen Q1 en Q3 = IQR
Variatie (Sum of Squares - SS)
de som van de gekwadrateerde afwijkingen van het gemiddelde
- bereken door eerst te bepalen voor elk datapunt hoe ver deze van het gemiddelde afwijkt
(negatieve)getallen x zichzelf = kwadrateren
*nadeel van variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen (maar de spreiding wordt niet noodzakelijk meer)
Variantie (Mean Squares = MS)
houdt rekening met het aantal datapunten en is daarom informatiever dan SS.
- bij SS tel je de kwadraten op, voor MS bereken je het gemiddelde van de kwadraten (som gedeeld door aantal observaties)
Vrijheidsgraden (Degrees of Freedom)
De noemer van deze formule (N-1) noemen we het aantal vrijheidsgraden van deze datareeks; deze ddrukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert
- voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden N-1, dwz dat je in een datareeks alledatapunten behalve 1 willekeurige kunt veranderen
- hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen (ingewikkelde statistische berekeningen vereisen daarom meer observaties)
Standaarddeviatie (SD)
meest gebruikte spreidingsmaat
- de SD is de wortel van de variantie (MS) en geeft de gemiddelde afwijking van het gemiddelde weer (the mean distance to the mean)
De centrum -en spreidingsmaten die te berekenen zijn, hangen af van de schaal waarop variabelen gemeten zijn
- Bij categorische variabelen kan niet echt van een schaal gesproken worden, maar sommige centrummaten zijn bruikbaar
- de modus, de meest voorkomende meetwaarde, kan ook bepaald worden bij ordinale en zelfs bij nominale variabelen.
- de mediaan is de meetwaarde van het middelste datapunt, nadat alle punten zijn geordend. De mediaan kan dus ook bij ordinale variabelen bepaald worden.
Toch geven de mediaan/moduus weinig informatie over de verdeling van een categorische variabele.
Juist bij categorische variabelen (want relatief weinig categorieën/meetwaarden) is het eenvoudig te bepalen hoe vaak elke meetwaarde voorkomt –> “frequentie-verdeling”
Frequentie Verdeling
bestaat uit de frequenties, ofwel aantallen, voor elke mogelijke meetwaarde
Cumulatieve percentage
percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën)
Getransporteerd
rijen en kolommen zijn omgedraaid
Absolute frequenties
aantal datapunten
Relatieve frequenties (%)
aantal datapunten in categorie t.o.v. totaal aantal datapunten
Sum of Squares (SS) is de variatie
De variatie is de variantie VOORDAT deze is gecorrigeerd voor het aantal datapunten. Variatie is dus GROTER dan variantie. Standaarddeviatie is de wortel van de variantie en dus altijd de kleinste van de 3
Datareeksen bestaan vaak uit honderden of duizenden datapunten
individuele datapunten zijn vaak ook niet van belang; datareeksen worden meestal verzameld om informatie te krijgen over een populatie (=oneindig groot)
- patronen zijn het belangrijkst
Histogram
hier correspondeert de horizontale as (x-as) met de schaal van de datareeks
- bij een histogram worden de datapunten altijd samengevoegd in groepen
De verdelingsvorm van data wordt meestal bepaald door te kijken naar een grafische weergave van de data
Plot/grafiek
- Puur kijken naar een grafiek zorgt ervoor dat de verdelingsvorm soms open is voor interpretatie, daarom zijn er naast visuele hulpmiddelen, ook kwantitatieve indicatoren voor een verdelingsvorm –> verdelingsmaten
3 termen die gebruikt worden om een verdelingsvorm te beschrijven:
1) Modaliteit (toppigheid)
2) Scheefheid (Skewness)
3) Spitsheid (kurtosis)
Modaliteit (toppigheid)
- beschrijft het aantal toppen van een verdeling
- “modaliteit” komt van “modus” = de meest voorkomende waarde in een datareeks
- modus vormt een “top” in de verdeling van de data
Verdelingen kunnen één of meerdere toppen hebben
Verdeling met 1 top: unimodaal/ééntoppig
Verdeling met meer toppen: multimodaal meertoppig/ bimodaal tweetoppig
Hartigan’s Piptest
deze test geeft een indicatie van de unimodaliteit van een verdeling. Een perfect unimodale verdeling heeft een diptestwaarde van 0. Naarmate een verdeling “meertoppig” lijkt te zijn, wwordt deze waarde steeds groter
Scheefheid (Skewness)
- beschrijft of een verdeling symmetrisch of asymmetrisch is
- scheve verdeling –> meeste datapunten liggen aan één kant van de schaal
- een 1toppige verdeling kan symmetrisch, linksschef (negatief scheef) of rechtsscheef (positief scheef) zijn
- Symmetrische verdeling = bell curve
- Bij een linksscheve verdeling liggen er minder datapunten aan de linkerkant van het gemiddelde. De meeste datapunten liggen dus aan de rechterkant en er is een staart met datapunten relatief ver weg van het gemiddelde van de linkerkant
- perfecte symmetrie = 0
- linksscheef = skewness wordt kleiner/meer negatief
- rechtsscheef = skewness wordt groter/meer positief
Spitsheid (Kurtosis)
- beschrijft hoe spits of hoe lat een verdeling is
- extreemste voorrbeeld: alle datapunten met dezelfde waarde –> spitzer kan een verdeling niet
- Platte verdeling: verdeling waarbij alle waarden even vaak voorkomen = uniforme verdeling
- Leptokurte verdeling: verdeling die heel spits is
- Platykurte verdeling: verdeling die heel plat is
- de kurtosis is 0 bij een perfect normale verdeling
- naarmate verdeling platter is, wordt de kurtosis kleiner/meer negatief
- naarmate verdeling spitser is wordt de kurtosis steeds groter/meer positief
NOrmaal verdeling
- unimodaal –> diptest 0
- niet scheef (symmetrisch) –> skewness 0
- niet spits/plat –> kurtosis 0
68% (2/3) van datapunten ligt binnen 1 standaarddeviatie van het gemiddelde
95% van datapunten ligt binnen 2 standaarddeviaties van het gemiddelde
99,7% van datapunten (bijna alle) ligt binnen 3 standaarddeviaties van het gemiddelde
Een speciale vorm van de normale verdeling is een normaalverdeling, met een gemiddelde van 0 en een standaardeviatie van 1
Dit heet een standaardnormale verdeling, of Z-verdeling
Z-verdeling
is handig, want van elk datapunt in die verdeling is gelijk duidelijk hoe ver het van het gemiddelde ligt
- datapunten in Z-verdeling = Z-scores
- bij Z-score van 2 betekent dit dat het datapunt 2 standaarddeviaties van het gemiddelde ligt.
Datapunten omrekenen in Z-scores
= Standaardisering
- je kunt een waarde standaardiseren door het gemiddelde van deze waarde af te trekken en te delen door de standaarddeviatie
- standaardisering vertaalt de datareeksen naar dezelfde schaal, waarbij 0 staat voor het gemiddelde en 1 staat voor één standaarddeviatie
- Door verdeling van steekproefscores te bekijken, ontstaat er een beeld over de populatieverdeling
Normaalverdeling - Bell Curve - Density Plot
Density plot is handig om de kans op een bepaalde waarde af te lezen. De kans correspondeert namelijk met het deel van de density pot dat links of rechts van die gegeven waarde ligt
- handig om histogram van een steekproef te interpreteren
Q-Q plot
bruikbare informatiebron om de verdeling van een datareeks te vergelijken met de normale verdeling
- splitst de data in kwartielen (quartiles)
- kwartielen zijn de breekpunten tussen eeven grote delen van de data
- decielen = 9 breekpunten die de datareeks in 10 even grote delen splitsen
- percentielen = 99 breekpunten, 100 delen
- kwartielen uit de data geplot tegen de verwachte kwartielen op basis van een normale verdeling
Boxplot
hier worden 3 kwartielen geplot (breekpunten die de data in 4 even grote delen splitsen)
Staafdiagram
categorische variabelen (geen density plot mogelijk ivm ontbreken x-as)
- er kan niet gesproken worden over verdelingsvormen bij categorische variabelen
Steekproeffout
het kiezen van deelnemers
Meetfout
het afnemen van metingen
Betrouwbaarheidsinterval (confidence interval)
geeft een indicatie van de accuraatheid van een maat uit een steekproef
Steekproevenverdeling (sampling distribution)
theoretische verdeling van een bepaalde maat (bv het gemiddelde) die je krijgt als je een oneindig aantal steekproeven uit een populatie zou trekken
Standaarddeviaties zijn een maat voor spreiding:
ze geven aan hoe dicht de waarden in de datareeks om de centrummaten heen liggen
Een steekproeven verdeling van gemiddelden bevat dus alle mogelijke gemiddelden die met een steekproef van een gegeven omvang gevonden kunnen worden
een steekproevenverdeling van standaarddeviaties bevat alle mogelijke standaarddeviaties die met een steekproef van een gegeven omvang gevonden kunnen worden.
Proces
1) uit een populatie kan een steekproef van een gegeven omvang worden getrookken door willekeurig onderzoekseenheden (bv. deelnemers) te selecteren
2) de resulterende datareeks wordt gekenmerkt door beschrijvingsmaten (centrum - spreidings - verdelings)
3) Voor elk van deze maten kan een theoretische steekproevenverdeling worden opgesteld.
4) Die steekproevenverdeling bevat de desbetreffende maten verkregen uit oneindige herhaling van die steekproeftrekking (met dezelfde omvang)
5) Elke centrum - spreidings - en verdelingsmaat is dus te beschouwen als een willekeurige selectie van één waarde uit de desbetreffende steekproevenverdeling
Centrale limietstelling stelt dat naarmate we meer steekproeven trekken
de steekproevenverdeling van het gemiddelde steeds meer op de normaalverdeling zal lijken
De standaarddeviatie van een steekproevenverdeling wordt de “Standaardfout” genoemd
Standard Error
- hoe groter de steekproef, hoe smaller (spitser) de steekproevenverdeling en dus hoe kleiner de standaardfout
- hoe groter de steekproef, hoe minder extreem de gemiddelden
Betrouwbaarheidsinterval
= het interval om het steekproefgemiddelde heen, dat in 95% van de steekproeven het populatie gemiddelde bevat. Dit interval komt overeen met een afwijking van ongeveer 2 standaardfouten van het gemiddelde
- betrouwbaarheidsinterval geeeft informatie over hoe accuraat het gemiddelde is dat we in de steekproef hebben gevonden
- die accuraatheid van het gemiddelde van de steekproef zit in de breedte an het interval: smalle intervallen zijn meer accuraat, brede intervallen minder
- betrouwbaarheidsintervallen kunnen voor alle mogelijke maten van een steekproef berekend worden, b.v. voor andere beschrijvingsmaten, maar ook voor maten die de samenhang tussen meerdere variabelen weergeven
Breedte- index hangt af van 2 dingen:
1) de vorm van de steekproeven verdeling van de desbetreffende waarde
2) betrouwbaarheid van het interval (dit getal wordt dus groter naarmate een hogere betrouwbaarheid wordt gewenst)
Voor het gemiddelde (en andere waarden waarvan de steekproevenverdeling normaal verdeeld is) geldt;
de breedte0index is gelijk aan 1.96 voor een 95% betrouwbaarheidsinterval, 2.58 voor een 99% betrouwbaarheidsinterval en 0.67 voor een 50% betrouwbaarheidsinterval
- een betrouwbaarheidsinterval van 0 is een puuntschatting en dus geen interval meer
Het betrouwbaarheidsinterval is als volgt te interpreteren:
stel dat je een steekproef oneindig vaak zou herhalen, dan zou in 95% van de gevallen het populatie gemiddelde in het betrouwbaarheidsinterval vallen
Het meetniveau kun je achterhalen door in het databestand te kijken naar de antwoordmogelijkheden en waardes bij alle variabelen:
- variabele zoals leeftijd = continue variabelen, wanneer we veronderstellen dat de afstand tussen de scores gelijk is
- nulscore = absoluut nullpunt (ratio-niveau-variabele)
- negatieve score niet mogelijk
- ander kenmerk van ratio niveau is dat er een verhouding tussen 2 waarden uitgedrukt kan worden (kan niet bij psychologische constructen)
- psychologische constructen hebben interval meetniveau
- gender = dichotome nominale variabele
- ordinale variabele = leeftijd
Voor continuee variabelen kunnen verschillende beschrijvingsmaten worden berekend, waaronder 3 centrummaten; gemiddelde/mediaan/modus
- ook de volgende spreidingsmaten: de range, standaarddeviatie, variantie, variatie en de kwartielafstand
- in alle softwarepakketten wordt alleen de VARIANTIE berekend, niet de variatie. Om deze te berekenen moet je de variantie vermenigvuldingen met N-1.
- De variantie (MS) is gelijk aan variatie (SS) gedeeld door N-1
Voor continue variabelen is het mogelijk om 3 verdelingsmaten te berekenen:
scheefheid, spitsheid en toppigheid (diptest). voor nominale en ordinale variabelen kunnen deze maten niet berekend worden