Theorie PT2 Flashcards
Dichotomous variable:
een variabele met slechts 2 variabelen (ja/nee etc)
Discrete variabele
Variabele die bestaat uit aparte, ongerelateerde categorieën.
Bijvoorbeeld de gekozen major, dus geen komma’s etc.
(Psychologie, Wiskunde, Rechten etc..) zijn ongerelateerde categorieën
Distribution of Sample Means:
de collectie van sample gemiddeldes voor alle mogelijke random samples van een bepaalde n die verkregen kunnen worden uit een populatie.
- Representatief: Hoopt op rond μ (populatiegemiddelde)
- Normaalverdeeld: de sample gemiddelden moeten samen een normaalverdeling vormen.
- Des te groter de sample, des te dichterbij μ.
Een distributie heeft altijd 1 … en …, maar kan meerdere … hebben
Modus, Mediaan, Gemiddelde
Altijd 1 mediaan en gemiddelde, maar kan meerdere modes hebben.
De hoogste piek noemen we “major mode” en lagere “minor mode”. Gelijk gewoon modes.
Een makkelijk tentamen veroorzaakt waarschijnlijk een … skew. (Positieve/negative).
Negative skew.
Een sample verkregen door random sampling resulteert in een …
Simple random sample.
Er is een … relatie tussen de steekproefgrootte en de standaarderror.
Een omgekeerde relatie: grotere samples hebben een kleinere standaarderror, en vice versa.
Faculteit:
uitgedrukt als ! (b.v. 4!) betekent * alle getallen eronder. Dus 432*1.
For a binomial distribution with p = 1/4, what is the probability that A will occur more than 18 times in a series of 48 trials?
- Identificeer SD = p = wortel NPQ = wortel 48 * 0,25 * 0,75 = 3. SD = 3
- Normal approximation. Dus gebruik z formule. Z = (X – mu)/SD =
- X = aantal keer dat we toetsen, dus 18 (limit = 18,5) en Mu = verwachte kans, dus 0,25*48 = 12.
- Z = (18.5 – 12) / 3 = 2.17
- Dus kans op A 18 van 48 keer = gelijk aan Z > 2.17
- Z = 2.17 = gelijk aan 0.0150
Frequency distribution (frequentieverdeling)
= smooth curve
Een manier om snel inzicht te zien in een oogblik over de dataset.
Weergave in tabel of grafiek van de frequentie van elke observatie binnen een interval.
Grouped frequency distribution table
Frequentieverdeling met klassen, groepen van waarden, ipv losse waarden.
B.v. 0-10, 11-20, 21-30
H0 : Tips are not increased. (The treatment does not work.) H1 : Tips are increased. (The treatment works as predicted.) Dit is een voorbeeld van een hypothese over een … test.
1. Directionele
2. Two-tailed
Directionele
H0 : μ ≤ 15.8 betekent …
Met de manipulatie, is de waarde niet groter dan 15.8.
H1 : μ >15.8 betekent …
Met de manipulatie is de waarde groter dan 15.8.
Het doel van de central tendency keuze is om…
De waarde te vinden die het meets representatief is voor de hele distributie.
Het gemiddelde is geschikt voor … distributies
Unimodale (één piek in het midden)
Het gemiddelde, de mediaan en de modus zijn gelijk wanneer de distributie …
Unimodaal, symmetrisch en continuous is.
Het vinden van het precieze middenpunt is handig bij … variabelen, maar niet bij … variabelen.
Handig bij continuous, niet logisch bij discrete (b.v. 3.7 kinderen)
Histogram
Een bar chart zonder ruimte tussen balken.
Data kan ook gegroepeerd zijn, b.v. bars van 44-45, 46,47 enz.
Histogrammen en polygonen gebruik je bij … schalen
Ratio en Interval
Hoe … het interval, hoe meer informatie verloren gaat
- Breder
- Nauwer
Breder. Nauwere intervals betekent specifiekere data
Hoe bereken je Range (continuous variables)?
range = URL for Xmas - LRL for Xmin
Dus upper real limit van hoogste score - lower real limit van laagste score
Hoe bereken je Range (discrete variables)?
range = Xmax - Xmin
Grootste getal - (min) Kleinste getal
Hoe vind je de mediaan bij continue variables?
50e percentiel vinden met real limits in gedachten
Hoe vind je de mediaan bij discrete variables?
Ordenen van scores van hoog naar laag en precies het midden pakken
Als het een even aantal scores is pak je de middelste 2 en deel je door 2.
Hoe wordt in onderzoek de hypothese reapporteerd?
1. Een rood shirt had een significant effect, dus de nulhypothese is verworpen.
2. Een rood shirt had een significant effect, een z-score is gebruikt om de data te evalueren, z = 2.25, p <.05.
3. Een rood shirt had een significant effect, z = 2.25, p <.05.
3
Hoe ziet een z-score distributie eruit vergeleken met de originele distributie?
Hetzelfde. Als de originele negatively skewed is, is de z-distributie dat ook.
Hoogste en laagste scores van een variabele kunnen uitgedrukt worden als upper en lower real limits, wanneer …
Het een continuous variabele is. B.v. scores met waarden tussen 1 en 5 wordt: 5.5 – 0.5 = 5.
Hypothese test:
statistische methode die sample data gebruikt om een hypothese uit een populatie te evalueren.
If a frequency distribution graph is drawn as a smooth curve, it is probably showing a ______ distribution.
a. sample b. population c. skewed d. symmetrical
b. population
If you are simply guessing on a true/false test with 36 questions, what is the probability that you will get 20 or more correct?
Z = (X – Mu)/SD = 19,5 – 18 / 3 = Z = 0,5. Gelijk aan P = 0,3085
X = 20, meer dan 20 = 19,5>
Mu = 36 * 0,5 = 18
SD = Wortel NPQ = Wortel 36 * 0,5 * 0,5 = 3
Inferentiële statistiek
Statistiekmethoden om conclusies te trekken over populaties op basis van sample data.
Interpolation =
bepaalde waarden komen niet voor in een frequency distribution table, dus je kunt ze niet aflezen.Maar je kunt ze wel inschatten met interpolation.
B.v. je weet dat 8 uur werk 60 euro is en 0 uur werk 0 euro, dan kun je inschatten op een lineaire manier wat een goede prijs zou zijn voor de tijden tussenin.
Interval scale
Data met een rangorde én gelijke intervallen tussen de waarden, maar geen absoluut nulpunt.
B.v. temperatuur
Interval/ratio: welke central tendency gebruik je?
gemiddelde (meestal), omdat het elke score in de reeks gebruikt in de berekening, waardoor de waarde waarscihjnlijk representatief is in dit geval.
Is de som van deviaties een goede score voor variabiliteit?
Nee, want het is altijd 0.
Dit komt omdat de + en – waarden elkaar altijd tegenwerken.
Law of Large Numbers:
hoe groter n, hoe waarschijnlijker dat sample gemiddelde x̄ dichtbij populatiegemiddelde μ zal zijn.
Manipulatie
Variabele waarvan het niveau verandert wordt
Mensen van 8 vergelijken met mensen van 10 is een vorm van een …
Experimentele/Niet-experimentele
Niet-experimentele studie, want je kunt mensen niet assignen aan een leeftijdsgroep.
Modified Histogram
Histogram balken indelen in opstapelingen van gelijke blokken
Multimodal =
distributie met 2> modi
N =
n =
betekenissen
Use an italicized, uppercase N to refer to a total population. Use an italicized, lowercase n to refer to a sample of the population.
Nominal scale
Categorische data zonder volgorde/rangorde.
Bijvoorbeeld geslacht, haarkleur of nationaliteit.
Normal approximation:
wanneer de kans op succes bij een dichotomous variable van het gewenste resultaat (pn) en de kans op ongewenst resultaat (qn) beide 10 of hoger zijn, kun je ze vergelijken als proportie van elkaar.
Dus stel je wil weten wat de kans is op 2 of meer A’s met 50 pogingen met kans op A = 0,2 en kans op B = 0,8, dan: PN = 10 en QN = 40. Beide zijn hoger. Dus:
- Mean A = 0,2*50 = 10. SD = 8
- Z-score = -1
- -1 in appendix = ~16%
Omgevingsvariabelen
Omgevingskenmerken zoals belichting, tijdstip, weersomstandigheden etc.
Open-ended distributions:
wanneer er geen boven of onder-limiet voor een van de categorieën is. B.v. “5 of meer”
Ordinal scale
Categorische data met een rangorde, maar zonder bekende of consistente verschillen tussen de rangen.
B.v. opleidingsniveau, medailles, klanttevredenheid
p(M > 7) =
betekent wat is de probability (p) van een gemiddelde boven 7? Ofwel, van alle mogelijke sample gemiddelden, welke proportie heeft waarden boven 7? (7 telt niet mee)
Parameter
Numerieke waarde die populatie beschrijft en uit metingen van die populatie komt.
Participant variabelen
Leeftijd, gender, intelligentie etc. Individuele waarden die variëren van persoon tot persoon