Theorie PT3 Flashcards
Polygons
Rechte lijn getrokken door verbonden datapunten met 2 assen
Kan bij Interval en Ratio schalen.
Populatie
Alle individuen waarin een studie geïnteresseerd is. De originele populatie waaruit een sample komt
Probability values:
uitgedrukt in fracties. Kan ook in percentage.
Probability:
de kans op een specifieke uitkomst wanneer meerdere uitkomsten mogelijk zijn. Gegeven als een fractie. Dus de kans van alle opties bij elkaar is altijd 1.
Proportion / Proportie definitie
Relatieve frequentie van een waarde in relatie tot het totale aantal.
Random Sampling:
elk individu uit een populatie heeft een gelijke kans om geselecteerd te worden voor een sample. Resulteert in een simple random sample.
Range:
Verschil tussen hoogste en laagste score.
stap 1 om variability vast te stellen.
Ratio scale
Data met een rangorde, gelijke intervallen én een absoluut nulpunt.
B.v. lengte, gewicht, inkomsten
Real limits
Het bereik waarin de ware waarde van de meting van een interval ligt. B.v. +/- 1.5cm (boven en onder)
Hierbij heb je upper en lower- real limits.
Rekenvolgorde met sommatie
Haakjes
Machten
Keer en delen
Sommatie
Verder optrekken/aftrekken
Relatie Alpha level en Type I error?
Alpha level is de kans dat een experiment in een Type I error resulteert.
Ruwe score (raw)
Onverwerkte score, zoals 40/50 goed. Dus niet omgezet naar cijfer van 1 tot 10.
s =
Sample SD
Sample
Een set van individuen uit een populatie
Sampling error
Verschil tussen waarden berekend in de steekproef en de ware waarden uit de populatie. ontstaat omdat je een DEEL van de populatie meet.
Sampling Error:
natuurlijke meetfout tussen steekproef en populatie.
Scale of measurement
Categorieën die gebruikt worden om een variabele te meten
Score definitie
Score op een test, zoals 85 van de 100. Dit kan verwerkt zijn, b.v. als t-score
Smooth curves worden gebruikt voor …
Populaties
Standaardisatie =
alle ruwe scores omzetten in z-scores. Handig voor hypothese-testing.
Standardized distribution:
een getransformeerde distributie (normale distributie naar z-score) waarbij mu = 0 en SD = 1.
Statistiek
Numerieke waarde die een sample beschrijft, gemeten uit die sample.
Stel je voor dat je toetst of mensen met rode shirts meer complimenten krijgen dan mensen met andere kleuren. Je toetst dit met een sample van N = 200. Wat zijn de 2 hypothesen voor de hypothesetest?
- Nulhypothese N0 = de mensen wie rood dragen krijgen niet meer complimenten dan de andere kleuren.
- Alternatieve hypothese N1 = de mensen wie rood dragen krijgen meer complimenten.
Stem-and-leaf display
Scores opknippen in losse getallen, 1e los.
Dus
1 | 1415
2 | 1266
3 | 87
4 | 55
3 heeft dan: 38 en 37.
Tail of the distribution =
de lage kant in een asymmetrische distributie, waar het naar afzwakt.
Type I en II error
Type I error: wanneer nulhypothese verworpen wordt terwijl de nulhypothese klopt. Dus onterecht aannemen dat er een effect was. De kans hiervoor is gedetermineerd door het Alpha level.
Type II error: wanneer nulhypothese niet wordt verworpen terwijl hij niet klopt. Dus onterecht aannemen dat er geen effect was. Komt vaak voor wanneer het effect klein is.
Undetermined values:
waarden die niet ingevuld zijn bij datapunt, b.v. als de test nooit afgerond is en dus geen tijd voor de test beschikbaar is.
Unimodale verdeling =
Symmetrische smooth curve waarin de piek het midden is
Variability:
Beschrijft distributie, hoeveel afstand we kunnen verwachten tussen individu en gemiddelde. Mate waarin scores verspreid of geclusterd zijn. kwantitatieve meting van verschil tussen scores in een distributie. Meestal uitgedrukt in distance.
SD en Variance.
Variance en standaarddeviatie kunnen gebruikt worden bij … scales.
1. Nominal
2. Ordinal
3. Ratio
4. Interval
Ratio en Interval, omdat ze gemeten worden in numerieke scores in termen van afstand van het gemiddelde. Aangezien alleen Ratio en Interval gelijke numerieke afstanden hebben. Een gemiddelde voor Nominal is onmogelijk en voor Ordinal is het onpasselijk.
Verschil discrete/continuous variabele?
Continuous variables kunnen opgedeeld worden in oneindig delen. B.v. lengte tot cm, tot 1 punt achter komma of 2, etc.
Discrete variabelen zijn categorieën die ongerelateerd en apart zijn.
Verschil simple random sampling en (independent) random sampling?
independent random sampling vereist dat de kans op selectie gelijk blijft naarmate mensen worden geselecteerd. Random sampling verwijst naar independent random sampling, dus de kans blijft gelijk.
Voor de hypothese Mu > 15.8 is het beter om een … te gebruiken. 1) Directionele test 2) Two-tailed test.
Een directionele, want je stelt de alternatieve hypothese dat het effect groter zal zijn dan 15.8.
Voordeel stem & leaf display over frequency distribution table:
stem & leaf geeft je specifieke waarde, frequency distribution geeft je sneller idee van frequentie.
Waarom gebruik je real limits bij het inschatten van z-scores of probability bij een binominal distributie?
Een score van b.v. 6 is gerepresenteerd door een staaf in een histogram, en de volgende is 7. Dus 5,5 – 6,5 is 6.
Waarom is de onbekende populatie (unknown population) hypothetisch?
Deze populatie is hypothetisch omdat de manipulatie nooit aan de hele populatie wordt geadministreerd. Dus het is een hypothese over de populatie op basis van sample data. De hypothese test is slechts een gestandaardiseerde methode om de sample data te testen.
Waarom is er een normal approximation voor binominal distributies, en niet gewoon een normaaldistributie?
Omdat het geen continuous data is (1 of 2, niets tussen). Het komt wel erg dichtbij als je groot genoeg n hebt.
Waarom wordt Variance gebruikt, waarbij je kwadraten gebruikt ipv de ruwe scores van Deviatie?
Omdat de som anders altijd 0 is.
Wanneer gebruik je de Definitional Formula voor SS, en wanneer de Computational Formula?
Wanneer het gemiddelde geen geheel getal is wordt het lastig om alle individuele scores op te tellen met de definitional formula.
Wanneer is een sample statistiek unbiased, en wanneer biased?
Unbiased: sample gemiddelde gelijk aan populatiegemiddelde
Biased: sample gemiddelde boven of onder populatiegemiddelde
Wanneer je … (veel/weinig) scores hebt, is een grafische weergave beter dan een frequentie tabel.
Veel.
Wanneer je bij een continuous variabele veel identieke scores meet, wat kun je dan concluderen?
Er is waarschijnlijk een slechte meting uitgevoerd, aangezien de kans op identieke scores zeer klein is vanwege de oneindigheid van de variatie in continue variabelen.
Wanneer je met een steekproefgemiddelde werkt, gebruik je … Standaarddeviatie/Standaarderror.
Standaarderror
Wanneer n = 1, zal de standaarderror gelijk zijn aan …
De standaarddeviatie van de populatie.
Wat betekent: H1 : Mu met rood shirt =/= 15.9?
De alternatieve hypothese stelt dat met een rood shirt, de behaalde score anders dan 15.9 zal zijn.HHH
Wat geeft de central tendency weer?
(mediaan, modus, gemiddelde)
Het middenpunt
Wat is binominal data?
Data waarbij twee categorieën de opties waren. B.v. winnen of verliezen, coin flips.
Wat is de standaarddeviatie van een z-score distributie?
SD = 1.
Wat is de variantie voor de set: 2,2,2,2,2.?
0.
Deviatie is 0 en 0 squared is 0 * 5 is 0.
Wat is de breedte van het interval 20-24?
- Je telt 20 en 24 mee
Wat is de relatie tussen de modus, de mediaan en het gemiddelde bij een skewed distribution?
Het gemiddelde gaat naar de extreme scores in de staart, en de modus gaat naar het hoogtepunt van de skewed piek. De mediaan is meestal ergens tussen deze twee.