Thema 3 Flashcards
Kwantitatieve data
Data verkregen uit cross-sectioneel of experimenteel onderzoek
Datapunt
representatie van de uitkomst van een meting
Datareeks
reeks van meerdere datapunten die hetzelfde representeren
Veel variabelen zijn Continu
ze zijn meetbaar op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen. Continue variabelen zijn van het hoogste meetniveau.
- geslacht is een vorobeeld van een variabele van het laagste meetniveau (nominaal); 2 categorieën (m/v) en niet te ordenen, niet mee te rekenen
Ordinale Variabelen
de afstand tussen de geordende categorieën is onbekend; we kunnen de categorieën alleen maar ordenen
Nominale + ordinale variabelen (= categorische of discrete variabelen)
de verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën.
* tegenover categorische variabelen staan continue variabelen
Binnen de continue variabelen worden soms 2 meetniveaus onderscheiden:
1) interval niveau
2 ratio niveau
- het verschil tussen deze twee meetniveaus is het al dan niet bestaan van een zogenaamd “absoluut nulpunt”, waardoor er wel of niet een verhouding tussen 2 getallen uitgedrukt kan worden (lengte= ratio, temperatuur = interval)
- ER zijn dus continue variabelen, waarbij het onderscheid tussen interval - en ratio variabelen niet relevant is en categorische (of discrete) variabelen, waarbij het onderscheid tussen norminaal en ordinaal wél relevant is
Variabelen hebben niet altijdd een vast meetniveau
het meetniveau is een keuze die de onderzoeker maakt tijdens het operationaliseren. Meet niveaus zijn niet zozeer eigenschappen van variabelen “in de realiteit”, maar kenmerken van operationalisaties, ofwel van meetinstrumenten/manipulaties
Kiezen voor een categorisch meetniveau, terwijl een variabele op een continu niveau gemeten kan worden, kan schadelijk zijn voor het onderzoek, om 4 redenen:
1) er zijn altijd meer delenmers nodig, naarmate het meetniveau van de betreffende variabelen lager is (een verband aantonen tussen 2 continue variabelen vereist minder deelnemers, dan wanneer 1 van de variabelen categorisch is.. laat staan als beide variabelen dat zijn)
2) Veel variabelen die we willen meten in onder8zoek zijn continu. Daar waar mensen categorieën waarnemen, blijkt na onderzoek meestal dat er in feite sprake is van 1 of meer onderliggende continue variabelen, die mensen min of meer arbitrair in groepen indelen (categorische operationalisaties zijn dus niet altijd valide)
3) Het is altijd mogelijk om van een continue variabele terug te gaan naar lagere niveaus, maar niet andersom
4) groepen mensen bestaan vaak niet uit duidelijk onerscheidbare subgroepen. Elke indeling in categorieën geeft dus vaak een vertekening van de werkelijkheid
Er wordt best wat onderzoek gedaan met categorische variabelen:
1) manipulaties resulteren in experimenteel onderzoek bijna altijd in categorische variabelen
2) er moet bij de ontwikkeling van meetinstrumenten niet alleen gelet worden op het optimale meetniveau; een operationalisatie moet bovenal valide en betrouwbaar zijn
De meest gangbare manier om datapunten samen te vatten, is d.m.v. centrummaten. Centrummaat geeft het centrum aan van een bepaalde datareeks. Meest gebruikte centrum maat is
Het Gemiddelde.
- mediaan
- middelste datapunt in de datareeks
- modus (meest voorkomende waarde in de datareeks. Meervoud = modi)
- modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten
Outlier (uitschieter/uitbijter)
extreem datapunt
- vaak een indicatie dat er een fout in de data zit
- het is aan de onderzoeker om de data op extreme waarden te controleren en te beslissen wat er met outliers moet gebeuren
- modus en mediaan zijn het minst gevoelig voor outliers
Spreidingsmaat
de eenvoudigste is Range(bereik) van een variabele
- verschil tussen minimum en maximum
- zeer gevoelig voor outliers
Interkwartielafstand (Inter Quartile Range - IQR)
is voor spreidingsmaten wat de mediaan is voor centrummaten
- om de IQR te berekenen, wordt de data geordend van laag naar hoog en opgesplitst in 4 kwartielen
- 3 breekpunten (Q1 - Q2 (mediaan) - Q3)
- de afstand tussen Q1 en Q3 = IQR
Variatie (Sum of Squares - SS)
de som van de gekwadrateerde afwijkingen van het gemiddelde
- bereken door eerst te bepalen voor elk datapunt hoe ver deze van het gemiddelde afwijkt
(negatieve)getallen x zichzelf = kwadrateren
*nadeel van variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen (maar de spreiding wordt niet noodzakelijk meer)
Variantie (Mean Squares = MS)
houdt rekening met het aantal datapunten en is daarom informatiever dan SS.
- bij SS tel je de kwadraten op, voor MS bereken je het gemiddelde van de kwadraten (som gedeeld door aantal observaties)
Vrijheidsgraden (Degrees of Freedom)
De noemer van deze formule (N-1) noemen we het aantal vrijheidsgraden van deze datareeks; deze ddrukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert
- voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden N-1, dwz dat je in een datareeks alledatapunten behalve 1 willekeurige kunt veranderen
- hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen (ingewikkelde statistische berekeningen vereisen daarom meer observaties)
Standaarddeviatie (SD)
meest gebruikte spreidingsmaat
- de SD is de wortel van de variantie (MS) en geeft de gemiddelde afwijking van het gemiddelde weer (the mean distance to the mean)
De centrum -en spreidingsmaten die te berekenen zijn, hangen af van de schaal waarop variabelen gemeten zijn
- Bij categorische variabelen kan niet echt van een schaal gesproken worden, maar sommige centrummaten zijn bruikbaar
- de modus, de meest voorkomende meetwaarde, kan ook bepaald worden bij ordinale en zelfs bij nominale variabelen.
- de mediaan is de meetwaarde van het middelste datapunt, nadat alle punten zijn geordend. De mediaan kan dus ook bij ordinale variabelen bepaald worden.
Toch geven de mediaan/moduus weinig informatie over de verdeling van een categorische variabele.
Juist bij categorische variabelen (want relatief weinig categorieën/meetwaarden) is het eenvoudig te bepalen hoe vaak elke meetwaarde voorkomt –> “frequentie-verdeling”
Frequentie Verdeling
bestaat uit de frequenties, ofwel aantallen, voor elke mogelijke meetwaarde
Cumulatieve percentage
percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën)
Getransporteerd
rijen en kolommen zijn omgedraaid
Absolute frequenties
aantal datapunten