Thema 3 Flashcards
Wat is een datareeks?
als bij meerdere mensen (of op meerdere momenten) dezelfde operationalisatie wordt afgenomen (bijvoorbeeld een IQ-test), vormt de reeks datapunten die deze operationalisatie oplevert (bijvoorbeeld IQ-scores) een datareeks. Een datareeks is een verzameling van een of meer datapunten van dezelfde operationalisatie.
Wat zijn beschrijvingsmaten?
getallen die kenmerken van een datareeks en dus van een variabele beschrijven: centrummaten, spreidingsmaten en verdelingsmaten.
Wat zijn centrummaten en 3 gangbare manieren?
maten die een indicatie geven van de centrale tendentie van een datareeks, oftewel, waar de meeste datapunten in de datareeks zich bevinden. In deze cursus worden het gemiddelde, de mediaan en de modus besproken.
De meest gangbare manier om datapunten samen te vatten.
- Gemiddelde: Alles optellen en delen
- Mediaan: Middelste datapunt in een datareeks
- Modus: De meest voorkomende
Het gemiddelde
Formeel wordt het gemiddelde berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen
Wat zijn Outliers?
ook wel uitschieter of uitbijter genoemd, is een extreem datapunt.
Vaak is zo een extreme waarde een indicatie dat er een fout in de data zit. Er zijn echter ook outliers die bij de data horen, sommige deelnemers scoren nu eenmaal hoog of laag
Side note: De beslissing om outliers wel of niet mee te nemen in analyses heeft belangrijke gevolgen voor de resultaten. In bovenstaand voorbeeld heb je gezien dat een outlier het gemiddelde erg naar zich toetrekt. Er zijn ook centrummaten die minder gevoelig zijn voor outliers, met name de modus en de mediaan. Deze maten kunnen dus informatief zijn om data te beschrijven die een of meer outliers bevatten.
Wat is de modus?
De modus is gedefinieerd als de meest voorkomende waarde in de datareeks.
De modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten.
Wat is de meidaan?
is simpelweg het middelste datapunt in de datareeks.
Side note: Om een goed beeld van een datareeks te geven is het daarom noodzakelijk om naast een centrummaat ook de spreiding van de datapunten te rapporteren. Om dit te beschrijven zijn spreidingsmaten nodig.
De eenvoudigste spreidingsmaat is de range, wat is dit?
ook wel het bereik, van een variabele.
Dit is simpelweg het verschil tussen het maximum en het minimum.
Maar de range is zeer gevoelig is voor outliers en volstaat daarom vaak niet om een goed beeld van de spreiding van de datapunten te geven.
Wat is de spreidingsmaatI nterkwartielafstand (IQR)?
De interkwartielafstand (in het Engels de interquartile range, oftewel IQR) is eigenlijk voor spreidingsmaten wat de mediaan is voor centrummaten.
Data wordt gesorteerd van laag naar hoog. Daarna in 4 kwartielen verdeeld.
Na 25% = Q1 (eerste kwartiel)
Na 50% = Q2 (Tweede kwartiel)
Na 75%= Q3 (derde kwartiel)
Interkwatielafstand = Q3 - Q1
Hoe bereken je het kwadraat
Getal x getal
Wat is de Variatie, oftewel sum of squares?
- Data punt van het gemiddelde afwijkt. (datepunt - gemiddelde)
- afwijkingen te kwadrateren ( Getal x getal)
- Kwadraten bij elkaar optellen
= de sum of squares
Wat is de Variatie, oftewel sum of squares?
- Data punt van het gemiddelde afwijkt. (datepunt - gemiddelde)
- afwijkingen te kwadrateren ( Getal x getal)
- Kwadraten bij elkaar optellen
= de sum of squares
Wat is de nadeel van de sum of squares (SS)?
Het nadeel van de variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen. Het betreft namelijk een som, waarbij steeds meer waarden bij elkaar opgeteld worden. Dat is onhandig, want de spreiding wordt niet noodzakelijk ook meer. Er kunnen namelijk datapunten bijkomen die heel dicht bij het gemiddelde liggen en toch wordt de variatie dan groter.
Wat is de Variantie oftewel mean squares?
Sum of Squares (afwijking gemiddeld, kwadraat optellen) : (Aantal opservaties - 1) = de mean squares (MS)
Waarom is de mean sSquares (MS) informatiever dan de Sum of Squares (SS)?
De variantie oftewel mean sSquares (MS) houdt rekening met het aantal datapunten en is daarom informatiever dan de Sum of Squares
Wat zijn vrijheidsgraden?
De noemer van deze formule, n−1, noemen we het aantal vrijheidsgraden van deze datareeks. Vrijheidsgraden, oftewel degrees of freedom (df) in het Engels, drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert. Voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden n-1. Dat wil zeggen dat je in een datareeks alle datapunten behalve één willekeurige kunt veranderen. Dit ene datapunt moet een bepaalde waarde hebben om hetzelfde gemiddelde te behouden.
N = Aantal observaties
Side note: Stel je hebt een datareeks van vier observaties met een gemiddelde van 2,5. Dit betekent dat je 4-1 = 3 vrijheidsgraden hebt. Je kunt dus drie observaties willekeurig kiezen, de vierde wordt altijd bepaald. Je kiest voor de eerste drie observaties de waardes 1 2 3. De vierde observatie moet 4 zijn om op een gemiddelde van 2,5 uit te komen.
Stel je kiest voor de eerste drie observaties 0 0 0. De vierde observatie moet dan 10 zijn om het een gemiddelde van 2,5 te behouden. Dit kun je zo vaak herhalen als je wilt. Je kunt bijvoorbeeld de willekeurige waarden kiezen 28, 389 en 964. De vierde observatie moet dan -1371 zijn om op een gemiddelde van 2,5 uit te komen.