H1 Flashcards
Data
Informatie die verzameld wordt met experimenten en surveys
Statistiek
(nummerical summaries) De kunst en wetenschap van het leren van data
Kunst en wetenschap van het ontwerpen van onderzoeken en het analyseren van gegevens die de onderzoeken opleveren. Doel: vertalen van data naar kennis en begrip van de wereld om ons heen
Probability (waarschijnlijkheid)
Raamwerk om te kwantificeren hoe waarschijnlijk verschillende mogelijke uitkomsten zijn
Subjects
(elementen). De entiteiten die we meten in een onderzoek (mensen, scholen, landen, dagen)
Populatie
Alle subjecten waar je geïnteresseerd in bent
Sample
Deel van de populatie waar je data van hebt verzameld, vaak random
Census
Opsomming of telling van alle elementen/subject in de populatie
Random sampling
(Aselecte steekproef) Het random selecteren van deelnemers voor je onderzoek vanuit gehele populatie. Elk subject heeft gelijke kans heeft dezelfde kans om getrokken te worden met de steekproef
Statistically significant
Wanneer verschil tussen resultaten voor twee behandelingen zo groot is dat het zeldzaam zou zijn om zo’n verschil te zien door gewone willekeurige variatie
Databases
Bestaande archiefverzamelingen van databestanden
Simulation
Gebruiken van computer om na te bootsen wat er werkelijk zou gebeuren als je een steekproef zou selecteren en statistieken in het echte leven zou gebruiken
Random assignment
(Aselecte toewijzing) Het random toewijzen van deelnemers aan de verschillende condities (groepen) in je onderzoek
Onderzoeksproces bij statistiek probleem (4)
1) Formuleren statistische vraag
2) Verzamelen data
3) Analyseren data
4) Interpreteren data
Samenvatting van data: (2)
1) Parameter
* Numerieke samenvatting van de populatie
* Vaak onbekend
* Meet je eigenlijk nooit, gebruik je statistic voor
* PP- parameter, populatie
* Gemiddelde (μ) en standaard deviatie (σ)
2) Statistic (steekproefwaarde)
* Numerieke samenvatting van een steekproef uit de populatie
* SS-Statistic, steekproef
–> Samenvattende waarde, zoals gemiddelde, modus of mediaan
*Gemiddelde (x ̅) en standaard deviatie (s)
Componenten statistiek voor beantwoorden van een statistische vraag: (2)
1) Design (ontwerp)
* Doel/statistische kwestie van belang aangeven
* Plannen hoe gegevens te verkrijgen die hierop betrekking hebben
* Hoe betrouwbare informatie verkrijgen?
* Bevat vaak nemen van steekproef uit de populatie
2) Typen statische analyse
a. Description (beschrijvende statistiek)
§ Samenvatten en analyseren data
§ Patronen ontdekken
§ Bestaat meestal uit grafieken en getallen, zoals gemiddelden en percentages
- Makkelijker te vergelijken
- Bar graph (staafdiagram)
§ Doel: Verminderen data tot versimpelde samenvatting zonder informatie te vervormen/verliezen
§ Bruikbaar als data voor gehele populatie beschikbaar is (bijvoorbeeld census)
§ Niet altijd voor gehele populatie beschikbaar, dan alleen van steekproef
–> Hierbij geen conclusie voor gehele populatie, dat is inference
b. Inference (toetsende statistiek)
§ Beslissingen nemen
§ Voorspellingen doen
§ Beantwoorden van de statistische vraag
§ Resultaten gelden vaak voor grotere groep dan alleen onderzoeksgroep
§ Kijken wat betekenisvol is
§ Wordt gebruikt als data alleen beschikbaar is van steekproef, maar wel conclusie willen trekken voor gehele populatie (generaliseren)
Foutmarge (margin of error):
- Verschil tussen de schatting die je vindt in je steekproef en de populatie
- Wordt kleiner bij grote willekeurige steekproef
- n: aantal proefpersonen in de steekproef
- 95%-betrouwbaarheidsinterval met behulp van een eenvoudige willekeurige steekproef
- Hoe groter de steekproefgrootte, hoe meer zekerheid
- Statisch significant (Als resultaten zelden worden waargenomen met alleen gewone willekeurige variatie)
(1/ wortel n) *100%
Variabele
Elk kenmerk waargenomen in een onderzoek. Deze kan variëren
Modus
(modal category)
Meest voorkomende getal, grootste frequentie. Bij meerdere getallen is er geen modus.
Bij categorische variabelen: modale categorie
Bij kwantitatieve variabelen: modus
Mediaan
Van klein naar groot het middelste getal. Bij 2 getallen, dan het gemiddelde van deze 2
Resistance
Numerieke samenvatting van de waarnemingen. Outliers hebben weinig/geen invloed op de waarde. Dit is bij de mediaan het geval
Outlier (2)
Waarneming die ver boven/onder het grootste deel van de gegevens valt. Haalt het gemiddelde erg omhoog/omlaag. Vooral bij weinig metingen. Is afhankelijk van onderzoeker of die het echt een outlier vindt
1) (x ̅ ±3s). Alles hierboven mogelijke uitschieters
2) Q1- 1,5IQR of Q3+ 1,5IQR
Observatie
De gegevenswaarden die we waarnemen voor een variabele
Distribution
Beschrijft hoe de waarnemingen vallen (verdeeld worden) over het bereik van mogelijke waarden
Pareto principle
Stelt dat een kleine subset van categorieën vaak de meeste waarnemingen bevat (Android en iOS hebben samen meest verkochte smartphones). Kan een Pareto chart goed weergeven
Tails
De delen van de curve voor de laagste waarden en voor de hoogste waarden
Time-series
Een dataset die in de loop van de tijd is verzameld
Beschrijvende statistiek voor 1 variabele: (3)
1 Grafische weergave
2 Centrummaten
- 1 representatieve waarde om variabele weer te geven
- Bijv. gemiddelde, mediaan of modus
3 Spreidingsmaten
- Range (bereik): maximum-minimum
- Interkwarielafstand (IQR): Q3-Q1
- Deviatie: x-x ̅
-Standaarddeviatie
Soorten variabelen: (2)
1) Categorisch (in categorieën):
* Waarde zijn categorieën
* Kan wel getallen aan gekoppeld zijn en kan je eventueel ordenen
* Je kan er geen gemiddelde mee uitrekenen
* Centrummaat: Modale categorie
* Sekse, religie, haarkleur, ja/nee-antwoorden
* Cirkeldiagram, staafdiagram, frequentietabel
* Nominale en ordinale variabelen
2) Kwantitatief (Numerical):
* Waarde representeert grootte van variabele in de vorm van een getal
* Centrummaat: Mediaan en gemiddelde (modus)
* Kan je mee rekenen
* Histogram, dot plot, stem and leaf (en frequentietabel)
* Interval en ratio variabelen
* Soorten
a) Discreet:
- Gehele, vaste waarden
- Aantal huisdieren, aantal kinderen
b) Continue: - Waarden kunnen onbeperkt weinig van elkaar verschillen - Interval - Lengte, gewicht, leeftijd
Frequentietabel
- Een lijst van mogelijke waarden voor een variabele, samen met het aantal waarnemingen voor elke waarde
- Bevat categorieën en het aantal keren dat deze zijn waargenomen
- Kan ook relative frequencies (verhoudingen (proportion)/percentages) bevatten
–> Doel: Samenvatten van categorie met nummers - Kan eventueel ook als kwantitatieve variabele
Staafdiagram (bar graph)
- Elke staaf een categorie
- Hoogte geeft percentage of metingen van observatie aan
- Elke categorie los van elkaar, want geen tussenwaarde
- Op x-as categorieën
- Pareto chart (Staafdiagram met categorieën gerangschikt op frequentie)
- Kan eventueel ook als kwantitatieve, discrete variabelen
Histogram
- Grafiek die balken gebruikt om (relatieve) frequenties weer te geven
- Beter bruikbaar voor veel data
- Toont niet werkelijke numerieke waarden
- Goed nadenken over intervalwaardes bij ver uit elkaar liggende data
- Toont het belangrijke kenmerk van de vorm van de verdeling
- Gebruik intervallen van gelijke groottes
- X-as loopt op, dus als er geen data is dan blijft het leeg
Dot plot
- Toont een punt voor elke waarneming boven de waarde op de getallenlijn
- Toont individuele observaties
- Bij weinig data
Stem and leaf
- Toont individuele observaties
- de stem bestaat uit alle cijfers behalve de laatste, dat zijn de leaves
- Lijkt op een dot plot maar dan gedraaid. Je kunt dezelfde informatie verkrijgen
- Bij weinig data
Unimodal
1 piek/heuvel histogram
Bimodal
2 pieken/heuvels histogram
Skewed to the left
linker staart is langer dan rechter staart
Skewed to the right
rechter staart is langer dan linker staart