H1 Flashcards
Data
Informatie die verzameld wordt met experimenten en surveys
Statistiek
(nummerical summaries) De kunst en wetenschap van het leren van data
Kunst en wetenschap van het ontwerpen van onderzoeken en het analyseren van gegevens die de onderzoeken opleveren. Doel: vertalen van data naar kennis en begrip van de wereld om ons heen
Probability (waarschijnlijkheid)
Raamwerk om te kwantificeren hoe waarschijnlijk verschillende mogelijke uitkomsten zijn
Subjects
(elementen). De entiteiten die we meten in een onderzoek (mensen, scholen, landen, dagen)
Populatie
Alle subjecten waar je geïnteresseerd in bent
Sample
Deel van de populatie waar je data van hebt verzameld, vaak random
Census
Opsomming of telling van alle elementen/subject in de populatie
Random sampling
(Aselecte steekproef) Het random selecteren van deelnemers voor je onderzoek vanuit gehele populatie. Elk subject heeft gelijke kans heeft dezelfde kans om getrokken te worden met de steekproef
Statistically significant
Wanneer verschil tussen resultaten voor twee behandelingen zo groot is dat het zeldzaam zou zijn om zo’n verschil te zien door gewone willekeurige variatie
Databases
Bestaande archiefverzamelingen van databestanden
Simulation
Gebruiken van computer om na te bootsen wat er werkelijk zou gebeuren als je een steekproef zou selecteren en statistieken in het echte leven zou gebruiken
Random assignment
(Aselecte toewijzing) Het random toewijzen van deelnemers aan de verschillende condities (groepen) in je onderzoek
Onderzoeksproces bij statistiek probleem (4)
1) Formuleren statistische vraag
2) Verzamelen data
3) Analyseren data
4) Interpreteren data
Samenvatting van data: (2)
1) Parameter
* Numerieke samenvatting van de populatie
* Vaak onbekend
* Meet je eigenlijk nooit, gebruik je statistic voor
* PP- parameter, populatie
* Gemiddelde (μ) en standaard deviatie (σ)
2) Statistic (steekproefwaarde)
* Numerieke samenvatting van een steekproef uit de populatie
* SS-Statistic, steekproef
–> Samenvattende waarde, zoals gemiddelde, modus of mediaan
*Gemiddelde (x ̅) en standaard deviatie (s)
Componenten statistiek voor beantwoorden van een statistische vraag: (2)
1) Design (ontwerp)
* Doel/statistische kwestie van belang aangeven
* Plannen hoe gegevens te verkrijgen die hierop betrekking hebben
* Hoe betrouwbare informatie verkrijgen?
* Bevat vaak nemen van steekproef uit de populatie
2) Typen statische analyse
a. Description (beschrijvende statistiek)
§ Samenvatten en analyseren data
§ Patronen ontdekken
§ Bestaat meestal uit grafieken en getallen, zoals gemiddelden en percentages
- Makkelijker te vergelijken
- Bar graph (staafdiagram)
§ Doel: Verminderen data tot versimpelde samenvatting zonder informatie te vervormen/verliezen
§ Bruikbaar als data voor gehele populatie beschikbaar is (bijvoorbeeld census)
§ Niet altijd voor gehele populatie beschikbaar, dan alleen van steekproef
–> Hierbij geen conclusie voor gehele populatie, dat is inference
b. Inference (toetsende statistiek)
§ Beslissingen nemen
§ Voorspellingen doen
§ Beantwoorden van de statistische vraag
§ Resultaten gelden vaak voor grotere groep dan alleen onderzoeksgroep
§ Kijken wat betekenisvol is
§ Wordt gebruikt als data alleen beschikbaar is van steekproef, maar wel conclusie willen trekken voor gehele populatie (generaliseren)
Foutmarge (margin of error):
- Verschil tussen de schatting die je vindt in je steekproef en de populatie
- Wordt kleiner bij grote willekeurige steekproef
- n: aantal proefpersonen in de steekproef
- 95%-betrouwbaarheidsinterval met behulp van een eenvoudige willekeurige steekproef
- Hoe groter de steekproefgrootte, hoe meer zekerheid
- Statisch significant (Als resultaten zelden worden waargenomen met alleen gewone willekeurige variatie)
(1/ wortel n) *100%
Variabele
Elk kenmerk waargenomen in een onderzoek. Deze kan variëren
Modus
(modal category)
Meest voorkomende getal, grootste frequentie. Bij meerdere getallen is er geen modus.
Bij categorische variabelen: modale categorie
Bij kwantitatieve variabelen: modus
Mediaan
Van klein naar groot het middelste getal. Bij 2 getallen, dan het gemiddelde van deze 2
Resistance
Numerieke samenvatting van de waarnemingen. Outliers hebben weinig/geen invloed op de waarde. Dit is bij de mediaan het geval
Outlier (2)
Waarneming die ver boven/onder het grootste deel van de gegevens valt. Haalt het gemiddelde erg omhoog/omlaag. Vooral bij weinig metingen. Is afhankelijk van onderzoeker of die het echt een outlier vindt
1) (x ̅ ±3s). Alles hierboven mogelijke uitschieters
2) Q1- 1,5IQR of Q3+ 1,5IQR
Observatie
De gegevenswaarden die we waarnemen voor een variabele
Distribution
Beschrijft hoe de waarnemingen vallen (verdeeld worden) over het bereik van mogelijke waarden
Pareto principle
Stelt dat een kleine subset van categorieën vaak de meeste waarnemingen bevat (Android en iOS hebben samen meest verkochte smartphones). Kan een Pareto chart goed weergeven