Begrippen Statistiek 1 (H1-H3) Flashcards
Statistiek
De wetenschap van het leren uit data en van het meten, controleren en communiceren van onzekerheid
Observationele eenheden
de eenheden waarvoor men data zal verzamelen
Statistische geletterdheid
is het vermogen om te redeneren door middel van statistiek en data
Steekproefkader
de lijst met info over de persoon in de populatie die we gebruiken om de steekproef samen te stellen
Enkelvoudige aselecte/ lukrake steekproeftrekking
elke steekproef heeft dezelfde kans om gekozen te worden.
Impliceert dat elk element in het steekproefkader dezelfde kans heeft om tot de steekproef te behoren
Gestratificeerde steekproeftrekking
we delen de populatie op in een aantal strata en binnen en stratum voeren we een enkelvoudige aselecte steekproeftrekking uit.
De proportie personen per stratum is gelijk aan die populatie
Gemakshalve steekproeftrekking
personen die makkelijker bereikbaar zijn hebben een grotere kans om tot de steekproef te behoren.
Nadeel: kan resulteren in een selectiebias
Variabelen
karakteristieken van de observationele eenheden die we wensen te onderzoeken
operationaliseren
het meetbaar maken van eigenschappen die men wenst te bestuderen
Cross- sectionele studie
een type studie waarbij men variabelen slechts op een moment in de tijd bevraagt
Longitudinale studie
een type studie waarbij men een of meerdere variabelen op verschillende momenten in de tijd bevraagt
Observationele studie
een type studie waarbij men enkel observeert zonder een interventie uit te voeren
Experimentele studie
een type van studie waarbij men een interventie uitvoert om de impact van de interventie te onderzoeken
HARKing
hypotethisizing after the results are known
een werkwijze waarbij men onderzoekshypotheses opstelt op basis van bevindingen in de data en vervolgens diezelfde data gebruikt om hypotheses te toetsen.
Beschrijvende analyse
hierbij gebruiken we statistische methoden om inzicht te krijgen in de data. We maken hierbij gebruik van tabellen, samenvattende maten en figuren
De verdeling
geeft weer welke waarden de variabele kan aannemen en hoe vaak elke waarde wordt aangenomen. Dit kan uitgedrukt worden in absolute en relatieve frequenties.
Univariate verdeling
Verdeling van een variabele
Absolute frequentie
aantal keer dat een waarde van een variabele voorkomt in een steekproef
Relatieve frequentie
absolute frequentie gedeeld door de steekproefgrootte
Synoniem = proportie
Odds
aantal keer dat een waarde van een variabele wordt aangenomen gedeeld door het aantal keer dat een andere waarde wordt aangenomen
Binaire variabele
een variabele die slechts twee waarden aanneemt.
vb. een muntstuk (kan enkel kop of munt zijn)
Spreidingsmaten
maten die in staat zijn om de spreiding van variabelen te kwantificeren
synoniem = variatie
wanneer er geen spreiding is, nemen ze de waarde 0 aan, en worden groter naarmate er meer spreiding is. Ze kunnen ook nooit negatief zijn
Variatiebreedte
een eenvoudige spreidingsmaat die gelijk is aan het verschil tussen de maximale en de minimale waarde van de een variabele
Standaardafwijking of standaarddeviatie
de gemiddelde afstand tussen de waarden en het steekproefgemiddelde
Variantie
het kwadraat van de standaardafwijking
Interkwartielafstand
spreidingsmaat die gelijk is aan het derde kwartiel mil het eerste kwartiel
Histogram
soort staafdiagram op basis van gegroepeerde data. Deze figuur wordt vaak gebruikt als een numerieke variabele veel waarden aanneemt.
vorm van het histogram hangt af van de manier waarop de data in groepen zijn opgedeeld.
Boxplot
figuur op basis van de kwartielen en het minimum en maximum, die ook toelaat uitschieters te visualiseren
Symmetrische verdeling
de mediaan ligt in het midden van de rechthoek en de staarten zijn ongeveer even lang
Verdeling scheef naar links
de mediaan ligt RECHTS van het midden van de rechthoek en de staart LINKS is langer dan die RECHTS
Verdeling scheef naar rechts
de mediaan ligt LINKS van het midden van de rechthoek en de staart naar LINKS is korter dan die naar RECHTS
Voorwaardelijke relatieve frequentie
de relatieve frequentie van die waarde binnen een deelverzameling van de steekproef
Kruistabel
tabel waarbij we de waarden van variabele kruisen. Een kruistabel laat toe de bivariate verdeling van twee categorische variabelen op te stellen.
Op basis van een kruistabel kunnen we verschillende relatieve frequenties berekenen: we kunnen delen door de steekproefgrootte, de kolomtotalen of rijtotalen. De laatste 2 mogelijkheden resulteren in voorwaardelijk relatieve frequenties
Risicoverschil
het verschil tussen voorwaardelijke relatieve frequenties
Relatief risico
de verhouding van twee voorwaardelijke relatieve frequenties.
Het is de conventie om de grootste van beide frequenties in de tellen te zetten zodat het relatief risico groter is dan 1.
Odds ratio
is gelijk aan de verhouding van twee voorwaardelijke odds.
Het is de conventie om de grootste van beide frequenties in de tellen te zetten zodat het relatief risico groter is dan 1.
Spreidingsdiagram
tweedimensionale figuur waarop we de waarden van twee variabelen uitzetten ten opzichte van elkaar.
Ze laat toe de verdeling van twee numerieke variabelen te visualiseren
Indien er veel eenheden eenzelfde waarde hebben, kun je ervoor kiezen om de grootte van de punten evenredig te maken aan het aantal herhalingen
Correlatiecoëfficiënt
Rxy is een maat voor de lineaire samenhang tussen twee numerieke variabelen die een waarde tussen -1 en 1 aanneemt. Indien er geen samenhang is, zal de waarde rond 0 liggen.
Bij een toenemende lineaire samenhang zal de waarde verder afwijken van 0.
Regressierechte
de best passende rechts voor de puntenwolk
Confounder
een variabele die de relatie tussen twee andere variabelen kan verstoren of verwarren. We kunnen pas spreken over een confounder als: de variabele met beide andere variabelen een samenhang vertoont.
Covariantie
een maat voor lineair samenhang tussen twee variabelen X en Y
Regressierechte
een rechte die het best bij de puntenwolk past
Residu
geeft het verschil weer tussen de geobserveerde waarde en haar voorspelling
Residudiagram
een spreidingsdiagram met ei op de verticale as en xi op de horizontale as
Extrapolatie
wanneer we de regressierechte gebruiken om voorspellingen te doen voor een waarde die buiten het geobserveerde gebied van de verklarende variabele ligt wordt dit extrapolatie genoemd
Determinatiecoëfficiënt
is gelijk aan de gekwadrateerde correlatiecoëfficiënt en geeft de proportie weer van de totale geobserveerde variantie in de uitkomstvariabelen die verklaard kan worden door wijzigingen in de verklarende variabele
Invloedrijke observatie
een observatie die een grote impact heeft op de regressierechte of de correlatiecoëfficiënt
Simpsons Paradox
een bijzonder geval van confounding waarbij de richting van de associatie wijzigt wanneer de confounder in rekening wordt gebracht