STAT II Flashcards

1
Q

Multivariate analysetechnieken

A

Het is een verzamelnaam voor een groep van statistische technieken gericht op de analyse van samenhang tussen 3 of meer variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Probleemkenmerk

A

Een specifiek aspect of eigenschap van een probleem dat helpt bij het analyseren en begrijpen ervan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Probleemrelatie

A

De onderlinge verbanden tussen verschillende aspecten van een probleem, zoals oorzaak-gevolg of correlatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Datareductie

A

Een statistische techniek om de hoeveelheid gegevens te verminderen door irrelevante of redundante informatie te verwijderen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Manifeste variabele

A

Een variabele die direct waarneembaar en meetbaar is, zoals geslacht of leeftijd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Latente variabele

A

Een variabele die niet direct meetbaar is, maar afgeleid wordt uit manifeste variabelen, zoals intelligentie of tevredenheid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Symmetrische samenhang

A

Een verband tussen 2 variabelen waarbij geen onderscheid wordt gemaakt tussen de te verklaren (afhankelijke) en verklarende (onafhankelijke) variabelen. Er wordt vastgesteld dat de 2 samenhangen, maar men laat in het midden of er een causaliteit tussen zit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Causaal effect

A

Het effect van een onafhankelijke variabele op een afhankelijke variabele, waarbij een oorzaak-gevolgrelatie wordt verondersteld.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Lineair effect

A

Het effect waarbij een verandering in de onafhankelijke variabele altijd een zelfde verandering in de afhankelijke variabele teweeg brengt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Additiviteit

A

Het idee dat de effecten van verschillende onafhankelijke variabelen op de afhankelijke variabele afzonderlijk optellen, zonder onderlinge interacties.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Niet-lineair effect

A

Hierbij wordt verandering in afhankelijke variabele ten gevolge van eenzelfde verandering in onafhankelijke variabele gradueel groter of kleiner.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Interactie-effect

A

Een asymmetrische samenhang waarbij de combinatie van twee of meer onafhankelijke variabelen een causaal effect uitoefent op de afhankelijke variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Bivariate causale structuur

A

Een structuur waarin slechts 2 variabelen zijn betrokken in een oorzaak-gevolgrelatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Schijnbare causaliteit

A

Een situatie waarin 2 variabelen gecorreleerd lijken, maar waarbij een derde variabele de werkelijke oorzaak is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Indirecte causaliteit

A

Een relatie waarbij een onafhankelijke variabele invloed uitoefent op een afhankelijke variabele via een tussenliggende variabele (mediator).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Suppressie van samenhang

A

Een situatie waarin een variabele een andere relatie verzwakt of maskeert, waardoor het onderliggende verband moeilijk zichtbaar is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Convergente causale structuur

A

Een situatie waarin meerdere variabelen invloed uitoefenen op 1 afhankelijke variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Multicollineariteit

A

Een situatie in meervoudige regressie waarbij 2 of meer onafhankelijke variabelen sterk gecorreleerd zijn, wat de interpretatie van de regressie bemoeilijkt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Meervoudige regressie

A

Een regressiemodel waarin meerdere onafhankelijke variabelen worden gebruikt om de variatie in een afhankelijke variabele te verklaren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Dummy-regressie

A

Een regressieanalyse waarbij categorische variabelen worden omgezet in dummy-variabelen (0 of 1) om opgenomen te worden in het model.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

T-test

A

Een statistische toets die bepaald of het gemiddelde van 2 groepen significant van elkaar verschilt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

F-test

A

Een statistische toets die wordt gebruikt in variantieanalyse en regressie om te testen of een model significant beter past dan een eenvoudiger model.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Logistische regressie

A

Een regressiemodel voor binaire afhankelijke variabelen, waarbij de kans op een bepaalde uitkomst wordt gemodelleerd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Multi logit model

A

Een uitbreiding van logistische regressie waarbij de afhankelijke variabele meer dan 2 categorieën heeft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Principale Componentenanalyse
Een datareductietechniek die grote hoeveelheden variabelen omzet in een kleiner aantal hoofdcomponenten die de meeste variantie in de data verklaren.
26
Principale factoranalyse
Een techniek die wordt gebruikt om latente factoren te identificeren die de correlaties tussen manifeste variabelen verklaren.
27
Dummyvariabelen
Categorische variabelen (nominaal/ordinaal) met 2 categoriën waarbij gebruik wordt gemaakt van een 0/1-codering.
28
Effectcodering
Hierbij wordt een categorische variabele met categorieën eveneens omgezet naar designvariabelen, waarbij gebruik wordt gemaakt van waarden -1, 0 en 1 zodat het ongewogen rekenkundig gemiddelde voor elke designvariabele telkens 0 bedraagt.
29
Equivalentieklassen Ek
Deelverzameling van de populatie P die alle elementen (statische eenheden) groepeert die voor het bestudeerde kenmerk als equivalent (gelijkwaardig) kunnen worden beschouwd
30
Meetschaal
het verwijst naar de manier waarop we waarden aan variabelen toekennen, zodat we gegevens kunnen analyseren.
31
Meetniveau
Het verwijst naar de manier waarop variabelen gemeten worden en welke wiskundige bewerkingen erop mogelijk zijn.
32
Kwalitatieve waarde
Een waarde die een categorie of eigenschap weergeeft zonder numerieke betekenis.
33
Kwantitatieve waarde
Een waarde die een hoeveelheid uitdrukt en waarmee wiskundige bewerkingen mogelijk zijn.
34
Modaliteiten
De mogelijke waarden van een variabele binnen een meetschaal.
35
Ordenbaarheid
De mogelijkheid om de waarden van een variabele in een logische volgorde te plaatsen.
36
Meeteenheid
Een constante maatstaf die wordt gebruikt om een kwantitatieve variabele te meten.
37
Absoluut nulpunt
Dit is een waarde (0) die de afwezigheid van het bestudeerde kenmerk weergeeft.
38
Nominaal meetniveau
Een meetniveau zonder ordening, het is enkel categorisch.
39
Ordinaal meetniveau
Een meetniveau mét ordening, maar zonder exact gedefinieerde afstanden tussen waarden.
40
Intervalmeetniveau
Een meetniveau met ordening en gelijke verschillen tussen waarden, maar zonder absoluut nulpunt.
41
Ratiomeetniveau
Een meetniveau met ordening, gelijke verschillen en een absoluut nulpunt.
42
Hiërarchie van meetniveaus
- De rangorde van meetschalen van minder naar meer informatie: nominaal --> ordinaal --> interval --> ratio - Wat he mag doen met een lager meetniveau, mag je ook toepassen op een hoger meetniveau, maar niet andersom.
43
Absolute frequentie (F_i)
Het aantal keer dat een bepaalde waarde (x_i) werd waargenomen in een steekproef.
44
Relatieve frequentie (f_i)
Deze wordt bekomen door de absolute frequentie F_i te delen door de steekproefomvang: f_i = F_i/n
45
Absolute cumulatieve frequentie (K(x_i))
Het totaal aantal waarnemingen dat kleiner dan of gelijk is aan een bepaalde waarde x_i.
46
Relatieve cumulatieve frequentie (k(x_i))
De verhouding van de absolute cumulatieve frequentie tot de steekproefgrootte.
47
Waarnemingsklasse
Een interval waarin gegevens worden gegroepeerd om overzicht te scheppen bij veel verschillende waarden.
48
Exacte klasse
De exacte grenzen van een waarnemingsklasse, vooral bij discrete variabelen.
49
Klassenmidden (x_i)
Het gemiddelde van de onder- en bovengrens van een (exacte) klasse: klassenmidden = (ondergrens + bovengrens) / 2
50
Histogram
Grafische voorstelling waarin elke waarde of klasse door een rechthoek wordt voorgesteld. - De oppervlakte van de rechthoek is recht evenredig met de frequentie. - De rechthoeken hebben dezelfde basis en worden best gescheiden.
51
Cirkel- of taartdiagram
Grafische voorstelling waarin elke waarde als een cirkelsector wordt weergegeven, waarvan de oppervlakte recht evenredig is met de frequentie.
52
Cumulatieve frequentiefunctie
Een grafiek die de opstapeling van de absolute of relatieve frequenties weergeeft
53
Frequentiepolygoon
Grafische voorstelling waarbij de toppen van staafjes of histogrammen worden verbonden met rechte lijnen.
54
Parameter van ligging
Deze parameters geven aan waar een verdeling zich situeert op de X-as (abscis). Ze liggen steeds tussen de kleinste en grootste waarnemingswaarden en laten toe groepen met elkaar te vergelijken.
55
Centrummaten
Geeft aan rond welke waarde de verdeling gecentreerd is op de X-as. Ze geeft ook aan welke waarde representatief is voor een verdeling.
56
Modus (x_0)
- Ind gegevens: de waargenomen waarde met de hoogste frequentie. - In klassen gegroepeerde gegevens * Modale klasse: klasse met hoogste frequentie * Modus: klassenmidden van de klasse met hoogste frequentie
57
Kwantielen
q-kwantiel is de waarde van een variabele die de waarnemingen in twee delen scheidt, zodat een proportie q v/d waarnemingen een waarde kleiner of gelijk aan het q-kwantiel heeft en een proportie (1 - q) v/d waarnemingen een waarde groter of gelijk aan het q-kwantiel heeft.
58
Mediaan
Waarde van de variabele die toelaat de waarnemingen in twee gelijke delen op te delen zodat er evenveel waarnemingen kleiner dan of gelijk aan de mediaan zijn als er groter dan of gelijk aan zijn.
59
Rekenkundig gemiddelde
De som van alle waarnemingen gedeeld door het effectief.
60
Meetkundig gemiddelde
Het n-de wortel van het product van n strikt positieve waarnemingen. Toegepast bij groeivoeten of in logaritmische modellen.
61
Harmonisch gemiddelde
Gelijk aan het omgekeerde (inverse) van het rekenkundig gemiddelde van de omgekeerde waarden.
62
Momenten
Kengetallen die de vorm van een verdeling beschrijven.
63
Gewone momenten
Momenten rond de oorsprong.
64
Centrale momenten
Momenten mbt het rekenkundige gemiddelde.
65
Spreiding
Verwijst naar de verschillen die worden vastgesteld tussen waarnemingen voor een onderzocht kenmerk.
66
Variatiebreedte of range
Geeft het verschil tussen de grootste en de kleinste waargenomen waarde.
67
Interkwartielafstand
Q1 is de waarde waar 25% van de waarnemingen onder valt. Q3 is de waarde waar 75% van de waarnemingen onder valt. De interkwartielafstand I = (Q3 - Q1) geeft dus aan tussen welke waarden de middelste 50% van de waarnemingen vallen.
68
Interdecielafstand
D1 is de waarde waar 10% van de waarnemingen onder valt. D9 is de waarde waar 90% van de waarnemingen onder valt. De interdecielafstand D = (D9 - D1) geeft dus aan tussen welke waarden de middelste 80% van de waarnemingen vallen.
69
Gemiddelde absolute afwijking e
e is het (rekenkundig) gemiddelde van de absolute waarden van de afwijkingen van het rekenkundig gemiddelde.
70
Variatie of kwadratensom (sum of squares)
Weerspiegelt de som van de gekwadrateerde afwijkingen van het rekenkundig gemiddelde.
71
Variantie
s² weerspiegelt de gemiddelde gekwadrateerde afwijking van het gemiddelde.
72
Standaardafwijking
s is de vierkantswortel uit de variantie en weerspiegelt de “standaard”-afwijking rond het rekenkundig gemiddelde.
73
Variatiecoëfficiënt
v is onafhankelijk van de meeteenheid van een variabele (dimensieloos) en laat toe om de mate van spreiding bij verschillende variabelen onderling te vergelijken.
74
Gestandaardiseerde score
Geeft weer hoeveel standaardafwijkingen een observatie boven of onder het rekenkundig gemiddelde ligt.
75
Z-score
De gestandaardiseerde score die de afstand van een waarde tot het gemiddelde uitdrukt in termen van het aantal standaardafwijkingen.
76
Parameters van vorm
Maten die de vorm van een verdeling beschrijven.
77
Symmetrie
De mate waarin een verdeling gelijk is aan beide zijden van het gemiddelde. (Y = 0)
78
Positieve symmetrie
De rechterstaart van de verdeling is langer dan de linkerstaat. (Y > 0)
79
Negatieve symmetrie
De linkerstaart is langer dan de rechterstaart. (Y < 0)
80
Empirische coëfficiënt van Pearson
Een maat voor de symmetrie van een verdeling, gebaseerd op de scheefheid.
81
Coëfficiënt van Yule en Kendall
Statistische maten voor de associatie tussen twee variabelen.
82
Coëfficiënt van Fisher
Is onafhankelijk van de meeteenheid van de variabele (i.e. dimensieloos) en laat toe symmetrie te vergelijken tussen verschillende variabelen.
83
Coëfficiënt van Pearson
Gebaseerd op coëfficiënt van Fisher en dus eveneens onafhankelijk van de meeteenheid van de variabele: laat toe symmetrie te vergelijken voor verschillende variabelen.
84
Kurtosis
De afplatting van een verdeling rondom het rekenkundig gemiddelde vergeleken met Gauss-curve als standaard.
85
Platykurtische verdeling
Deze is platter dan een Gauss-verdeling.
86
Mesokurtische verdeling
Deze is gelijk aan een Gauss-verdeling.
87
Leptokurtische verdeling
Deze is scherper dan een Gauss-verdeling.
88
Coëfficiënt van Pearson (kurtosis)
?
89
Coëfficiënt van Fisher (kurtosis)
Een maat voor de kurtosis van een verdeling, die aangeeft hoe zwaar de staarten zijn in vergelijking met een normale verdeling..
90
Populatieverdeling
De verdeling van het kenmerk (bv leeftijd) in de populatie.
91
Steekproevenverdeling
De verdeling van steekproefgemiddelden (bv gem leeftijd) in steekproeven van omvang n die uit deze populatie werden getrokken.
92
Steekproefverdeling
De verdeling van het kenmerk (bv leeftijd) in een individuele steekproef van omvang n.
93
Centrale Limietstelling
Wanneer een groot aantal steekproeven van omvang 𝑛 wordt getrokken uit een populatie met gemiddelde 𝜇 en variantie 𝜎^2, benadert de verdeling van steekproefgemiddelden (𝑥) (= steekproevenverdeling) een normale verdeling naarmate 𝑛 groot wordt, met gemiddelde 𝑥 = 𝜇 en variantie 𝜎_𝑥 ̅^2 = 𝜎^2∕𝑛.
94
Standaardfout
De standaardafwijking van de steekproevenverdeling.
95
Zuiverheid van schatters
Een schatter is zuiver (onvertekend) wanneer het gemiddelde van zijn steekproevenverdeling gelijk is aan de populatieparameter. Bij afwijking is er sprake van bias of systematische fout. Deze hang af van i) de schattingsmethode (de manier waarop de schatter wordt berekend), en ii) het steekproefdesign (bv. een enkelvoudig aselecte steekproef die is vertekend door selectieve non-respons)
96
Nauwkeurigheid van schatters
De mate waarin een schatter weinig variabiliteit vertoont over verschillende steekproeven heen. Een schatter is nauwkeuriger bij een kleinere standaardfout. Houdt verband met onsystematische fouten. Houdt verband met de variantie van de steekproevenverdeling en de standaardfout: een schatter is nauwkeuriger als de standaardfout van zijn steekproevenverdeling kleiner is.
97
Nulhypothese (H_0)
Het is een veronderstelling waarvan je vertrekt, die je al dan niet probeert te weerleggen met je gegevens.
98
Hypothesetoets
Een statistische procedure om op basis van een steekproef te beslissen of de nulhypothese kan worden verworpen. Het is een toets waarbij de uitspraak die stelt dat het gemiddelde inkomen in Vlaanderen gelijk is aan een bepaald bedrag met een vooropgestelde zekerheid van 99 procent al dan niet wordt verworpen.
99
Betrouwbaarheidsinterval
Een interval waarin de populatieparameter met een bepaalde waarschijnlijkheid (bv. 95%) ligt, op basis van een steekproef. Het is een stelling dat het gemiddelde inkomen in de populatie waaruit de steekproef werd getrokken met een vooropgestelde zekerheid van 95 procent binnen een bepaald interval ligt.
100
Type-I-fout
Zelfs wanneer nulhypothese H0 correct is, bestaat de kans dat we een atypische steekproef trekken waarin 𝑥^- sterk afwijkt van m en lopen we dus een risico H0 onterecht te verwerpen
101
Kans op type-I-fout 𝛼
Weerspiegelt de kans die we willen lopen dat een correcte nulhypothese onterecht wordt verworpen.
102
Overschrijdingskans p
De kans dat de geobserveerde of een hogere waarde voor de teststatistiek wordt aangetroffen in een steekproef als de nulhypothese correct is.
103
Type-II-fout
het onterecht aanvaarden van een foute nulhypothese.
104
Teststatistiek
Het steekproefresultaat?
105
Kritiek gebied
Het gedeelte van de steekproevenverdeling waarin de H₀ wordt verworpen. Wordt bepaald door de gekozen α-waarde.
106
Student's t-verdeling
Een kansverdeling die gebruikt wordt in situaties waarbij de populatiestandaardafwijking niet gekend is en de steekproefomvang klein is. Lijkt op de normale verdeling maar met dikkere staarten.
107
Vrijheidsgraden
Het aantal vrijheidsgraden is het aantal onbekenden min met het aantal vergelijkingen dat deze onbekenden verbindt. Het aantal vrijheidsgraden is gelijk aan het aantal onafhankelijke waarnemingen waarop een steekproefgrootheid werd gebaseerd.