H1 Flashcards by Michelle Evertse

Data

Informatie die verzameld wordt met experimenten en surveys

How well did you know this?

Not at all

Perfectly

Statistiek

(nummerical summaries) De kunst en wetenschap van het leren van data
Kunst en wetenschap van het ontwerpen van onderzoeken en het analyseren van gegevens die de onderzoeken opleveren. Doel: vertalen van data naar kennis en begrip van de wereld om ons heen

How well did you know this?

Not at all

Perfectly

Probability (waarschijnlijkheid)

Raamwerk om te kwantificeren hoe waarschijnlijk verschillende mogelijke uitkomsten zijn

How well did you know this?

Not at all

Perfectly

Subjects

(elementen). De entiteiten die we meten in een onderzoek (mensen, scholen, landen, dagen)

How well did you know this?

Not at all

Perfectly

Populatie

Alle subjecten waar je geïnteresseerd in bent

How well did you know this?

Not at all

Perfectly

Sample

Deel van de populatie waar je data van hebt verzameld, vaak random

How well did you know this?

Not at all

Perfectly

Census

Opsomming of telling van alle elementen/subject in de populatie

How well did you know this?

Not at all

Perfectly

Random sampling

(Aselecte steekproef) Het random selecteren van deelnemers voor je onderzoek vanuit gehele populatie. Elk subject heeft gelijke kans heeft dezelfde kans om getrokken te worden met de steekproef

How well did you know this?

Not at all

Perfectly

Statistically significant

Wanneer verschil tussen resultaten voor twee behandelingen zo groot is dat het zeldzaam zou zijn om zo’n verschil te zien door gewone willekeurige variatie

How well did you know this?

Not at all

Perfectly

Databases

Bestaande archiefverzamelingen van databestanden

How well did you know this?

Not at all

Perfectly

Simulation

Gebruiken van computer om na te bootsen wat er werkelijk zou gebeuren als je een steekproef zou selecteren en statistieken in het echte leven zou gebruiken

How well did you know this?

Not at all

Perfectly

Random assignment

(Aselecte toewijzing) Het random toewijzen van deelnemers aan de verschillende condities (groepen) in je onderzoek

How well did you know this?

Not at all

Perfectly

Onderzoeksproces bij statistiek probleem (4)

1) Formuleren statistische vraag
2) Verzamelen data
3) Analyseren data
4) Interpreteren data

How well did you know this?

Not at all

Perfectly

Samenvatting van data: (2)

1) Parameter
* Numerieke samenvatting van de populatie
* Vaak onbekend
* Meet je eigenlijk nooit, gebruik je statistic voor
* PP- parameter, populatie
* Gemiddelde (μ) en standaard deviatie (σ)

2) Statistic (steekproefwaarde)
* Numerieke samenvatting van een steekproef uit de populatie
* SS-Statistic, steekproef
–> Samenvattende waarde, zoals gemiddelde, modus of mediaan
*Gemiddelde (x ̅) en standaard deviatie (s)

How well did you know this?

Not at all

Perfectly

Componenten statistiek voor beantwoorden van een statistische vraag: (2)

1) Design (ontwerp)
* Doel/statistische kwestie van belang aangeven
* Plannen hoe gegevens te verkrijgen die hierop betrekking hebben
* Hoe betrouwbare informatie verkrijgen?
* Bevat vaak nemen van steekproef uit de populatie

2) Typen statische analyse

a. Description (beschrijvende statistiek)
§ Samenvatten en analyseren data
§ Patronen ontdekken
§ Bestaat meestal uit grafieken en getallen, zoals gemiddelden en percentages
- Makkelijker te vergelijken
- Bar graph (staafdiagram)
§ Doel: Verminderen data tot versimpelde samenvatting zonder informatie te vervormen/verliezen
§ Bruikbaar als data voor gehele populatie beschikbaar is (bijvoorbeeld census)
§ Niet altijd voor gehele populatie beschikbaar, dan alleen van steekproef
–> Hierbij geen conclusie voor gehele populatie, dat is inference

b. Inference (toetsende statistiek)
§ Beslissingen nemen
§ Voorspellingen doen
§ Beantwoorden van de statistische vraag
§ Resultaten gelden vaak voor grotere groep dan alleen onderzoeksgroep
§ Kijken wat betekenisvol is
§ Wordt gebruikt als data alleen beschikbaar is van steekproef, maar wel conclusie willen trekken voor gehele populatie (generaliseren)

How well did you know this?

Not at all

Perfectly

Foutmarge (margin of error):

Study These Flashcards

Verschil tussen de schatting die je vindt in je steekproef en de populatie
Wordt kleiner bij grote willekeurige steekproef
n: aantal proefpersonen in de steekproef
95%-betrouwbaarheidsinterval met behulp van een eenvoudige willekeurige steekproef
Hoe groter de steekproefgrootte, hoe meer zekerheid
Statisch significant (Als resultaten zelden worden waargenomen met alleen gewone willekeurige variatie)

(1/ wortel n) *100%

Variabele

Study These Flashcards

Elk kenmerk waargenomen in een onderzoek. Deze kan variëren

Modus
(modal category)

Study These Flashcards

Meest voorkomende getal, grootste frequentie. Bij meerdere getallen is er geen modus.
Bij categorische variabelen: modale categorie
Bij kwantitatieve variabelen: modus

Mediaan

Study These Flashcards

Van klein naar groot het middelste getal. Bij 2 getallen, dan het gemiddelde van deze 2

Resistance

Study These Flashcards

Numerieke samenvatting van de waarnemingen. Outliers hebben weinig/geen invloed op de waarde. Dit is bij de mediaan het geval

Outlier (2)

Study These Flashcards

Waarneming die ver boven/onder het grootste deel van de gegevens valt. Haalt het gemiddelde erg omhoog/omlaag. Vooral bij weinig metingen. Is afhankelijk van onderzoeker of die het echt een outlier vindt
1) (x ̅ ±3s). Alles hierboven mogelijke uitschieters
2) Q1- 1,5IQR of Q3+ 1,5IQR

Observatie

Study These Flashcards

De gegevenswaarden die we waarnemen voor een variabele

Distribution

Study These Flashcards

Beschrijft hoe de waarnemingen vallen (verdeeld worden) over het bereik van mogelijke waarden

Pareto principle

Study These Flashcards

Stelt dat een kleine subset van categorieën vaak de meeste waarnemingen bevat (Android en iOS hebben samen meest verkochte smartphones). Kan een Pareto chart goed weergeven

Tails

De delen van de curve voor de laagste waarden en voor de hoogste waarden

Time-series

Een dataset die in de loop van de tijd is verzameld

Beschrijvende statistiek voor 1 variabele: (3)

1 Grafische weergave 2 Centrummaten - 1 representatieve waarde om variabele weer te geven - Bijv. gemiddelde, mediaan of modus 3 Spreidingsmaten - Range (bereik): maximum-minimum - Interkwarielafstand (IQR): Q3-Q1 - Deviatie: x-x ̅ -Standaarddeviatie

Soorten variabelen: (2)

1) Categorisch (in categorieën): * Waarde zijn categorieën * Kan wel getallen aan gekoppeld zijn en kan je eventueel ordenen * Je kan er geen gemiddelde mee uitrekenen * Centrummaat: Modale categorie * Sekse, religie, haarkleur, ja/nee-antwoorden * Cirkeldiagram, staafdiagram, frequentietabel * Nominale en ordinale variabelen 2) Kwantitatief (Numerical): * Waarde representeert grootte van variabele in de vorm van een getal * Centrummaat: Mediaan en gemiddelde (modus) * Kan je mee rekenen * Histogram, dot plot, stem and leaf (en frequentietabel) * Interval en ratio variabelen * Soorten a) Discreet: - Gehele, vaste waarden - Aantal huisdieren, aantal kinderen b) Continue: - Waarden kunnen onbeperkt weinig van elkaar verschillen - Interval - Lengte, gewicht, leeftijd

Frequentietabel

* Een lijst van mogelijke waarden voor een variabele, samen met het aantal waarnemingen voor elke waarde * Bevat categorieën en het aantal keren dat deze zijn waargenomen * Kan ook relative frequencies (verhoudingen (proportion)/percentages) bevatten --> Doel: Samenvatten van categorie met nummers * Kan eventueel ook als kwantitatieve variabele

Staafdiagram (bar graph)

* Elke staaf een categorie * Hoogte geeft percentage of metingen van observatie aan * Elke categorie los van elkaar, want geen tussenwaarde * Op x-as categorieën * Pareto chart (Staafdiagram met categorieën gerangschikt op frequentie) * Kan eventueel ook als kwantitatieve, discrete variabelen

Histogram

* Grafiek die balken gebruikt om (relatieve) frequenties weer te geven * Beter bruikbaar voor veel data * Toont niet werkelijke numerieke waarden * Goed nadenken over intervalwaardes bij ver uit elkaar liggende data * Toont het belangrijke kenmerk van de vorm van de verdeling * Gebruik intervallen van gelijke groottes * X-as loopt op, dus als er geen data is dan blijft het leeg

Dot plot

- Toont een punt voor elke waarneming boven de waarde op de getallenlijn - Toont individuele observaties - Bij weinig data

Stem and leaf

- Toont individuele observaties - de stem bestaat uit alle cijfers behalve de laatste, dat zijn de leaves - Lijkt op een dot plot maar dan gedraaid. Je kunt dezelfde informatie verkrijgen - Bij weinig data

Unimodal

1 piek/heuvel histogram

Bimodal

2 pieken/heuvels histogram

Skewed to the left

linker staart is langer dan rechter staart

Skewed to the right

rechter staart is langer dan linker staart

H1 Flashcards

(37 cards)