H1 Flashcards

1
Q

Data

A

Informatie die verzameld wordt met experimenten en surveys

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Statistiek

A

(nummerical summaries) De kunst en wetenschap van het leren van data
Kunst en wetenschap van het ontwerpen van onderzoeken en het analyseren van gegevens die de onderzoeken opleveren. Doel: vertalen van data naar kennis en begrip van de wereld om ons heen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Probability (waarschijnlijkheid)

A

Raamwerk om te kwantificeren hoe waarschijnlijk verschillende mogelijke uitkomsten zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Subjects

A

(elementen). De entiteiten die we meten in een onderzoek (mensen, scholen, landen, dagen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Populatie

A

Alle subjecten waar je geïnteresseerd in bent

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Sample

A

Deel van de populatie waar je data van hebt verzameld, vaak random

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Census

A

Opsomming of telling van alle elementen/subject in de populatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Random sampling

A

(Aselecte steekproef) Het random selecteren van deelnemers voor je onderzoek vanuit gehele populatie. Elk subject heeft gelijke kans heeft dezelfde kans om getrokken te worden met de steekproef

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Statistically significant

A

Wanneer verschil tussen resultaten voor twee behandelingen zo groot is dat het zeldzaam zou zijn om zo’n verschil te zien door gewone willekeurige variatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Databases

A

Bestaande archiefverzamelingen van databestanden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Simulation

A

Gebruiken van computer om na te bootsen wat er werkelijk zou gebeuren als je een steekproef zou selecteren en statistieken in het echte leven zou gebruiken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Random assignment

A

(Aselecte toewijzing) Het random toewijzen van deelnemers aan de verschillende condities (groepen) in je onderzoek

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Onderzoeksproces bij statistiek probleem (4)

A

1) Formuleren statistische vraag
2) Verzamelen data
3) Analyseren data
4) Interpreteren data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Samenvatting van data: (2)

A

1) Parameter
* Numerieke samenvatting van de populatie
* Vaak onbekend
* Meet je eigenlijk nooit, gebruik je statistic voor
* PP- parameter, populatie
* Gemiddelde (μ) en standaard deviatie (σ)

2) Statistic (steekproefwaarde)
* Numerieke samenvatting van een steekproef uit de populatie
* SS-Statistic, steekproef
–> Samenvattende waarde, zoals gemiddelde, modus of mediaan
*Gemiddelde (x ̅) en standaard deviatie (s)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Componenten statistiek voor beantwoorden van een statistische vraag: (2)

A

1) Design (ontwerp)
* Doel/statistische kwestie van belang aangeven
* Plannen hoe gegevens te verkrijgen die hierop betrekking hebben
* Hoe betrouwbare informatie verkrijgen?
* Bevat vaak nemen van steekproef uit de populatie

2) Typen statische analyse

a. Description (beschrijvende statistiek)
§ Samenvatten en analyseren data
§ Patronen ontdekken
§ Bestaat meestal uit grafieken en getallen, zoals gemiddelden en percentages
- Makkelijker te vergelijken
- Bar graph (staafdiagram)
§ Doel: Verminderen data tot versimpelde samenvatting zonder informatie te vervormen/verliezen
§ Bruikbaar als data voor gehele populatie beschikbaar is (bijvoorbeeld census)
§ Niet altijd voor gehele populatie beschikbaar, dan alleen van steekproef
–> Hierbij geen conclusie voor gehele populatie, dat is inference

b. Inference (toetsende statistiek)
§ Beslissingen nemen
§ Voorspellingen doen
§ Beantwoorden van de statistische vraag
§ Resultaten gelden vaak voor grotere groep dan alleen onderzoeksgroep
§ Kijken wat betekenisvol is
§ Wordt gebruikt als data alleen beschikbaar is van steekproef, maar wel conclusie willen trekken voor gehele populatie (generaliseren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Foutmarge (margin of error):

A
  • Verschil tussen de schatting die je vindt in je steekproef en de populatie
  • Wordt kleiner bij grote willekeurige steekproef
  • n: aantal proefpersonen in de steekproef
  • 95%-betrouwbaarheidsinterval met behulp van een eenvoudige willekeurige steekproef
  • Hoe groter de steekproefgrootte, hoe meer zekerheid
  • Statisch significant (Als resultaten zelden worden waargenomen met alleen gewone willekeurige variatie)

(1/ wortel n) *100%

17
Q

Variabele

A

Elk kenmerk waargenomen in een onderzoek. Deze kan variëren

18
Q

Modus
(modal category)

A

Meest voorkomende getal, grootste frequentie. Bij meerdere getallen is er geen modus.
Bij categorische variabelen: modale categorie
Bij kwantitatieve variabelen: modus

19
Q

Mediaan

A

Van klein naar groot het middelste getal. Bij 2 getallen, dan het gemiddelde van deze 2

20
Q

Resistance

A

Numerieke samenvatting van de waarnemingen. Outliers hebben weinig/geen invloed op de waarde. Dit is bij de mediaan het geval

21
Q

Outlier (2)

A

Waarneming die ver boven/onder het grootste deel van de gegevens valt. Haalt het gemiddelde erg omhoog/omlaag. Vooral bij weinig metingen. Is afhankelijk van onderzoeker of die het echt een outlier vindt
1) (x ̅ ±3s). Alles hierboven mogelijke uitschieters
2) Q1- 1,5IQR of Q3+ 1,5IQR

22
Q

Observatie

A

De gegevenswaarden die we waarnemen voor een variabele

23
Q

Distribution

A

Beschrijft hoe de waarnemingen vallen (verdeeld worden) over het bereik van mogelijke waarden

24
Q

Pareto principle

A

Stelt dat een kleine subset van categorieën vaak de meeste waarnemingen bevat (Android en iOS hebben samen meest verkochte smartphones). Kan een Pareto chart goed weergeven

25
Q

Tails

A

De delen van de curve voor de laagste waarden en voor de hoogste waarden

26
Q

Time-series

A

Een dataset die in de loop van de tijd is verzameld

27
Q

Beschrijvende statistiek voor 1 variabele: (3)

A

1 Grafische weergave

2 Centrummaten
- 1 representatieve waarde om variabele weer te geven
- Bijv. gemiddelde, mediaan of modus

3 Spreidingsmaten
- Range (bereik): maximum-minimum
- Interkwarielafstand (IQR): Q3-Q1
- Deviatie: x-x ̅
-Standaarddeviatie

28
Q

Soorten variabelen: (2)

A

1) Categorisch (in categorieën):
* Waarde zijn categorieën
* Kan wel getallen aan gekoppeld zijn en kan je eventueel ordenen
* Je kan er geen gemiddelde mee uitrekenen
* Centrummaat: Modale categorie
* Sekse, religie, haarkleur, ja/nee-antwoorden
* Cirkeldiagram, staafdiagram, frequentietabel
* Nominale en ordinale variabelen

2) Kwantitatief (Numerical):
* Waarde representeert grootte van variabele in de vorm van een getal
* Centrummaat: Mediaan en gemiddelde (modus)
* Kan je mee rekenen
* Histogram, dot plot, stem and leaf (en frequentietabel)
* Interval en ratio variabelen
* Soorten
a) Discreet:
- Gehele, vaste waarden
- Aantal huisdieren, aantal kinderen

b) Continue: 
- Waarden kunnen onbeperkt weinig van elkaar verschillen
- Interval
- Lengte, gewicht, leeftijd
29
Q

Frequentietabel

A
  • Een lijst van mogelijke waarden voor een variabele, samen met het aantal waarnemingen voor elke waarde
  • Bevat categorieën en het aantal keren dat deze zijn waargenomen
  • Kan ook relative frequencies (verhoudingen (proportion)/percentages) bevatten
    –> Doel: Samenvatten van categorie met nummers
  • Kan eventueel ook als kwantitatieve variabele
30
Q

Staafdiagram (bar graph)

A
  • Elke staaf een categorie
  • Hoogte geeft percentage of metingen van observatie aan
  • Elke categorie los van elkaar, want geen tussenwaarde
  • Op x-as categorieën
  • Pareto chart (Staafdiagram met categorieën gerangschikt op frequentie)
  • Kan eventueel ook als kwantitatieve, discrete variabelen
31
Q

Histogram

A
  • Grafiek die balken gebruikt om (relatieve) frequenties weer te geven
  • Beter bruikbaar voor veel data
  • Toont niet werkelijke numerieke waarden
  • Goed nadenken over intervalwaardes bij ver uit elkaar liggende data
  • Toont het belangrijke kenmerk van de vorm van de verdeling
  • Gebruik intervallen van gelijke groottes
  • X-as loopt op, dus als er geen data is dan blijft het leeg
32
Q

Dot plot

A
  • Toont een punt voor elke waarneming boven de waarde op de getallenlijn
  • Toont individuele observaties
  • Bij weinig data
33
Q

Stem and leaf

A
  • Toont individuele observaties
  • de stem bestaat uit alle cijfers behalve de laatste, dat zijn de leaves
  • Lijkt op een dot plot maar dan gedraaid. Je kunt dezelfde informatie verkrijgen
  • Bij weinig data
34
Q

Unimodal

A

1 piek/heuvel histogram

35
Q

Bimodal

A

2 pieken/heuvels histogram

36
Q

Skewed to the left

A

linker staart is langer dan rechter staart

37
Q

Skewed to the right

A

rechter staart is langer dan linker staart