Statistiek termen Flashcards
Verschil tussen willekeurige variatie in gedrag en bias (vertekening / vooringenomenheid) en waarom is bias een veel groter probleem?
Random variation - willekeurige variatie is variatie door toeval.
Bias is een systematische afwijking waardoor deze minder opvalt niet identiiceerbaar is door statistische technieken en niet niet corrigeerbaar is door gemiddelde.
Bij willekeurige variate / fouten vermindert de kans op statisch significante resultaten door meer vaiabiliteit in de resultaten.
Bij bias kan men de foute conclusie trekken dat de hypothese ondersteund werd door de resutlaten terwijl deze waargenomen resultaten te wijten zijn aan factoren irrelevant van de hypothesis.
Hierdoor wordt een bias als het ergst van de twee beschouwd.
Items in een meetinstrument?
In een meetinstrument wordden constructen gemeten met verschillende items of stimuli die samen het betreffende construct omvatten.
Items /stimuli kunnen
- uitspraken zijn, (waarop gereageerd kan worden)
- vragen, (waarop gereageerd kan worden) ,
- taken en
- observaties
Meestal bestaan meetinstrumenten uit meerdere stimuli /items en de daarbij behorende registraties van de reacties van deelnemers.
Zijn er in een meetmodel voor een manipulatie over het algemeen meerdere indicatoren? En waarom?
Neen want Meetmodellen worden meestal opgesteld voor meetinstrumenten (vb test / vragenlijst) want bij manipulaties (experiment) worden deelnemers vaak maar blootgesteld aan een stimulus / indicator.
Z-verdeling
= Een standaard normale verdeling = een normaalverdeling met een gemiddelde van nul en een standaarddeviatie van 1
= Z-verdeling
= handig want van elk datapunt in een z-verdeling is het duidelijk hoe ver het punt van het gemiddelde ligt
Welsh t versus students t
Welsh T = t toets voor ongelijke varianties
T-toets (regulier of student) = t toet voor gelijke varianties
Welsh T is altijd beter want strenger
Spreidingsmaten - welke en waarvoor worden ze gebruikt?
Spreidingsmaten: de spreiding van de data wordt gerapporteerd om een goed beeld te geven van een datareeks.
- Range (bereik): verschil tss Max en Min = zeer gevoelig voor outliers
- Interkwartielafstand (IQR): data ordenen van laag naar hoog en vervolgens opsplitsen in kwartielen (25% - 1 e kwartiel, 50% = mediaan, 75% 3 de kwartiel). IQR = afstand tss 1 e en 3 de kwartiel)
- SS - Sum of Squares : Variatie (som vd gekwadrateerde afwijkingen vh gemiddelde) - kwadrateren omdat ze allemaal pos moeten zijn om ze bij elkaar op te kunnen tellen. Nadeel: de variatie wordt steeds groter naarmate er datapunten bijkomen, zelfs als deze die er bijkomen dicht bij het gemiddelde liggen. De spreiding wordt niet noodzakelijk meer dus beter is:
- MS - Mean Squares = Variantie = SS / aantal datapunten min 1 = gemiddelde van de SS = Voordeel: houdt rekening met aantal datapunten. Nadeel: niet dezelfde schaal als de data in de datareeks (gekwadrateerd)
- Std Deviatie (std afwijking) = wortel van de variantie (van de MS) = geeft de gemiddelde afwijking van het gemiddelde weer. Voordeel: dezelfde schaal als de data in de datareeks
SS grootst, MS tweede grootst en Std dev kleinst
Centrum maten - welke en waarvoor worden ze gebruikt?
Centrummaten: gebruikt om data mee samen te vatten. ze geven op verschillende manieren het “centrum” van een bepaalde datareeks aan.
- Gemiddelde: totaal van al de scores gedeeld door aantal scores
- Mediaan (rangschikken van laag naar hoog en middelste datapunt of gemiddelde vd 2 middelste datapunten bij even aantal)
- Modus: waarde die het vaakst voorkomt - vooral informatief bij beperkt aantal mogelijke waardes of bij een grote hoeveelheid datapunten
Modus en mediaan zijn echt geobserveerde waardes, het gemiddeldde niet.
Het gemiddelde wordt ook vaak gebruikt om de score van een individu op een vragenlijst over een psychologisch concept samen te vatten. Bijvoorbeeld, om burn-out te meten, beantwoorden deelnemers meerdere vragen die gaan over emotionele uitputting, vermoeidheid, hopeloosheid en cynisme op een schaal van 1 (nooit) tot 5 (altijd). Per deelnemer kan vervolgens een gemiddelde score op de burn-outschaal worden berekend door de scores van alle items op te tellen en te delen door het aantal items.
P-waarde: Welke zijn de aandachtspunten bij de P-waarde?
- Statistische significantie is iets anders dan relevantie: vb. paar duizenden ondervragen maar klein verschil – er is een verschil maar misschien niet relevant (klein effect niet belangrijk)
- Hoe groter de steekproef, des te kleiner de P waarde en is het resultaat eerder statistisch significant. Toets wordt berekend door verschillen in deelnemer aantal , bij een grotere steekproef is het verschil / verband rapper significant omdat je gewoon veel meer aantallen getest hebt.
- P-waarde zegt niets over de aan – of afwezigheid van vertekeningen in het onderzoek (slecht onderzoek kan ook een P waarde aangeven – niet altijd zinvol)
- P-waarde (0.05 of 5 % kan door elkaar gebruikt worden)
- P-waarde altijd samen bekijken met andere statistieken zoals effect grootte en BI
Welke zijn de 2 soorten operationalisaties?
- Meetinstrument:
- Op consistente wijze een variabele kwantificeren
- NIET beinvloeden
- Gebruikt om constructen (naam en definitie van variabelen) te meten met verschillende items (stimuli) die samen het betreffende construct omvatten (vb items = uitspraken, taken, observaties)
- Meetwaarden = de waarden die bepaald kunnen worden mbv een operationalisatie (vb puntenschaal van 1 - 7 , waarden zijn dan 1-7)
- Datareeks afkomstig van eenzelfde meetinstrument = variabele (de term variabele wordt dus zowel gebruikt voor een theoretische variabele (bvb leervaardigheid) als voor een reeks datapunten die indicatief is voor de waarde van deze theoretische variabele
- Manipulaties:
- WEL beinvloeden van een construct
- Door manipuleren van variabelen in (quasi) experimenteel onderzoek kan onderzocht worden of er een causaal verband bestaat tss 2 variabelen
- Er worden stimuli aan deelnemers gepresenteerd om een bepaalde toestand van of een verandering in het contruct te veroorzaken
Meetinstrumenten zijn ontwikkeld om een specifiek construct te meten terwijl manipulaties werden ontwikkeld om een specifiek contruct (of soms een combinatie van constructen) te beïnvloeden.
Alle operationalisaties, of het nu meetinstrumenten zijn of manipulaties resulteren per onderzoekseenheid in een datapunt per variabele. Binnen elk onderzoek (steekproef) is er dus een datareeks per variabele.
Welke zijn de 2 meetniviueaus voor continue variabelen?
Het intervalmeetniveau en ratiomeetniveau
- Ordening en
- Een vaste afstand tussen twee waarden. Aangezien er een verschil in zit dat telkens even groot is, hebben deze variabelen kwantitatieve waarden.
Intervalmeetniveau heeft geen nulpunt Als de waarde gelijk is aan 0, is er dan nog iets aanwezig? Zo ja, dan is het interval.
Enkele voorbeelden van intervalvariabelen zijn:
- Jaartelling
Dit jaar is 2019. Wanneer is de tijd begonnen? Het jaar 0? Neen, want ervoor was er ook al ‘tijd’: middeleeuwen, het ontstaan van de aarde, etc. De jaartelling heeft geen vast nulpunt. - IQ
Bij IQ is er ook geen nulpunt. We geven dit een toewijzing van een nummer, maar 0 IQ is geen vast nulpunt. Het betekent niet dat er een volledige afwezigheid is van intelligentie. - Temperatuur
Bij temperatuur is er vreemd genoeg ook geen nulpunt. Je zou denken dat 0°C het nulpunt is, maar er is nog steeds temperatuur bij 0°C. Bij Fahrenheit gebruiken we zelfs een andere meting. Hun ‘nulpunt’ ligt op een andere plaats, 32°C = 0°F. Bij deze voorbeelden is er geen verhouding. Als het buiten 30 °C is, is het niet twee keer zo warm als bij 15 °C.
VB welk meetniveau gebruik je voor tevredenheid met cijfers. Bijvoorbeeld: Hoe tevreden ben je op een schaal van 1 tot 5? Ook al zou je denken dat het meetniveau interval is, is dat niet zo. De cijfers zijn toewijzingen voor tevredenheid. Er is geen vaste afstand tussen elk puntje van tevredenheid.
Ratiomeetniveau
Dit is het hoogste meetniveau. Het verschil met het intervalmeetniveau is dat er hier een natuurlijk nulpunt aanwezig is.
Enkele voorbeelden van interval variabelen zijn:
- Gewicht
Bij 0 kg is er geen gewicht. Het is een duidelijk nulpunt. - Prijs
Kost iets €0? Dan is het gratis, er is geen prijs.
Welke visualisaties van verdelingsvormen zijn er?
Density plots
Histogrammen
Q-Q plots
Box plots
Welke soorten validiteit zijn er?
Validiteit of geldigheid is de mate waarin een meetinstrument meet of voorspelt wat het beoogt te meten.
De 2 benaderingen om te bepalen of een meetinstrument valide is:
Causale opvatting van validiteit: de test is valide om een bepaald construct te meten als het construct bestaat EN de verschillen tussen mensen op het construct tot verschillende uitkomsten op het meetinstrument leiden. Dus je kan pas nagaan of een meetinstrument valide is als je weet hoe het meetinstrument werkt (de processen kent) = onderzoeken welke processen verklaren hoe verschillen in het construct leiden tot verschillen in de testscores (daarom wordt vaak teruggevallen op constructvaliditeit). Zowel voor meetinstrumenten (bvb thermometer) als voor psychologische meetinstrumenten. Psychologisch= welke processen spelen allemaal een rol bij het tot stand komen van een reactie.
Constructvaliditeit: in hoeverre worden interpretaties van testscores ondersteund door theorie en empirisch bewijs voor het gebruikt van deze test / meetinstrument. De empirische evidentie voor constructvalidering is gebaseerd op de mate van samenhang tss variabelen en /of items
Face validity (indruksvaliditeit) is een van de meest basis maatstaven van validity - geldigheid. Researchers nemen de geldigheid van een procedure aan face validity wanneer het meetinstument de indruk geeft de variabele te meten die het verondersteld wordt te meten. Vb: een test die bepaalt of iemand introvert is of niet heeft indruksvaliditeit als het een maatstaf is voor persoonlijkheid maar duimlengte heeft dit niet.
Criteriumvaliditeit (criterion validity): Hierbij wordt de samenhang /corelatie tussen twee testresultaten bekeken: namelijk jouw eigen meting en een andere meting van de eigenschap die we proberen te meten of te voorspellen (het criterium) = de mate waarin de uitkomsten van een meetinstrument als verwacht samenhangen met die op een ander meetinstrument.
Externe validiteit: de mate waarin de uitkomsten van een studie gegeneraliseerd kunnen worden naar de doelpopulatie
Inhoudsvaliditeit: de mate waarin te items van het meetinstrument het gehele construct omvatten = de mate waarin de aspecten van het te meten begrip volledig worden gemeten met je meetinstrument.
Welke schattingsmethoden gebruikt, Statistische software om de waarden voor de 2 regressie coefficienten te berekenen?
Statistische software gebruikt schattingsmethoden om de waarden voor B0 en B1 (de 2 regressie coefficienten) te berekenen.
➢ De 2 meest gebruikte methoden zijn ordinary least squares en maximum likelihood
Hierbij geldt weer: de waarden komen uit een steekproef en puntschattingen zijn weinig informatief. Als we iets willen zeggen over de populatiewaarde, moeten we kijken naar betrouwbaarheids intervallen.
Welke centrummaten zijn ook bruikbaar bij categorische variabelen?
Bruikbare centrummaten:
➢ Modus → kan bepaald worden bij ordinale en nominale variabelen
➢ Mediaan → kan ook bij ordinale meetwaarden bepaald worden.
Welke 2 factoren zijn samen indicatief voor de kwaliteit van een operationalisatie in een gegeven steekproef?
Betrouwbaarheid en validiteit van de operationalisatie (zowel van een meetinstrument als van een manipulatie) in een gegeven steekproef!
Gegeven steekproef is belangrijk omdat een meetintstument dat in de ene populatie heel valide is kan in een andere steekproef niet valide zijn.
Dus betrouwbaarheid en validiteit zijn geen kenmerken van de operationalisatie zelf en zijn afhankelijk van de populatie / steekproef.
Nominale en ordinale variabelen ?
- Nominaal: de data kunnen alleen worden gecategoriseerd (categorieen benoemd vb haarkleur (geen rangorde = laag meetniveau).
- Ordinaal: De data kunnen worden gecategoriseerd en gerangschikt maar de afstand tss geordende categorieen is onbekend. Bvb opleidingsniveau = = categorische of discrete variabele
Wat zijn meetwaarden van een operationalisatie?
De meetwaarden van een operationalisatie zijn de mogelijke waarden die behaald kunnen worden bij een operationalisatie. Vb je meet iets op een 7-puntenschaal dan zijn 1 tot en met 7 de meetwaarden.
Manipulatie?
Manipulatie =
Als 2 equivalente groepen een andere behandeling krijgen. Deze manipulatie Is de operationalisatie van de variabele waarvan de onderzoeker de invloed wil onderzoeken. vb medicijn en placebo slikken.
Een manipulatie is dus een operationalisatie van een variabele, die bestaat uit een serie verschillende procedures waaraan de verschillende groepen worden blootgesteld.
CRUCIAAL: het enige verschil tss groepen bestaat uit de variabele die onderzocht wordt. Anders is het niet mogelijk conclusies te trekken over de invloed van deze variabele.
Gelijkenissen tussen een meetmodel en een structureel / conceptueel model?
- In beiden is de conventie om de variabelen die rechtstreeks gemeten of gemanipuleerd worden (indicatoren) voor te stellen met rechthoeken en de onderliggende variabelen met ovalen.
- In beiden geven de pijltjes de richting van het verband aan.
Aannames van regressie-analyse?
Enkelvoudige regressie-analyse heeft 5 aannames. 4 zijn harde aannames → als zij worden geschonden, is het regressie-model het verkeerde model. Schending van de laatste aanname maken het model minder efficiënt.
Naarmate harde aannames meer worden geschonden, neemt de zuiverheid van de schattingen van de regressiecoëfficiënten en proportie verklaarde variantie af. naarmate de zachte aannames meer worden geschonden, neemt de accuraatheid van de schattingen van de regressiecoëfficiënten en de proportie verklaarde variantie af.
- Continu meetniveau Beide variabelen moeten een continu meetniveau hebben (interval of ratio). Als 1 van de 2 een categorisch meetniveau heeft, kan beter een variantieanalyse worden toegepast.
- Lineariteit Het verband tussen de 2 variabelen moet lineair zijn. Dat betekent dat de toe- of afname van de ene variabele voor elke waarde van de andere variabele hetzelfde moet zijn. Of een verband lineair is, wordt meestal bepaald op basis van een patroon in de scatterplot
- Onafhankelijkheid Alle observaties moeten onafhankelijk zijn. Dat wil zeggen: alle onderzoekseenheden moeten onafhankelijk zijn. Of datapunten onafhankelijk zijn, ligt besloten in het studieontwerp en de wervingsstrategie voor deelnemers.
- Normaliteit Voor elke waarde van de voorspeller moet de afhankelijke variabele normaal zijn verdeeld. Dit is nodig door het algoritme dat in regressie-analyse wordt gebruikt om de best passende lijn te bepalen. Als de ruis in de afhankelijke variabele niet gemiddeld 0 is, klopt dat algoritme niet.
-
Homoscedasticiteit Dit betekent homogeniteit (gelijkheid) van varianties en representeert de aanname dat de variantie in de afhankelijke variabele gelijk is voor elke waarde van de onafhankelijke variabele. Als deze zachte aanname wordt geschonden zijn de regressiecoëfficiënten geen efficiënte schatters meer. Is er sprake van homoschedasticiteit?
a. Bestuderen scatterplot → als de punten niet overal even ver van de regressielijn af liggen, bijvoorbeeld in een trechtervorm, is er niet sprake van homoscedasticiteit.
b. Toetsen voor homoscedasticiteit.
Wat zijn de 3 Voorwaarden voor een causaal verband tss 2 variabelen?
- De variabele die de invloed uitoefent (causale antecendent) moet eerder in de tijd gemeten of gemanipuleerd worden dan de andere variabele (causale consequent).
- Dit doe je door de causale consequent als laatste te meten
- De variabelen moeten samenhangen.
- Te onderzoeken met een statistische toets.
- Het verband kan niet verklaard worden door andere variabelen of externe invloeden. (confounders). Deze andere variabelen worden ook derde variabelen genoemd. Deze derde variabelen en externe invloeden noemen confounders.
- Trachten deze externe invloeden en derde variabelen in kaart te brengen maar allemaal is onmogelijk.
Continue variabelen?
Continue variabelen zijn kwantitatief = numeriek en zijn meetbaar op een ononderbroken schaal. Ze kunnen in de populatie oneindig aantal waarden aannemen.
2 meetniveaus binnen continue variabelen
- Intervalniveau: de data kunnen worden gecategoriseerd en gerangschikt en er zijn gelijke intervallen tussen de categorieën.
- Rationiveau: de data kunnen worden gecategoriseerd en gerangschikt, de intervallen zijn gelijk, en er is een absoluut of betekenisvol nulpunt.
Beschrijvingsmaten?
-
Centrummaten:
- Gemiddelde
- Mediaan
- Modus
-
Spreidingsmaten
- Range
- Interkwartielafstand (IQR min de mediaan)
- Std Deviatie (std afwijking)
- SS - Sum of Squares : Variatie
- MS - Mean Squares = Variantie
-
Verdelingsmaten
- Modaliteit = toppigheid gemeten met Hartigans dip test = de verdelingsmaat
- Scheefheid = links- , rechtsscheef (asym) of symmetrisch: maat is scheefheid /skewness
- Spitsheid = maat is kurtosis (normaalverdeling kurtosis nul)
Wat zijn 3 valkuilen / aandachtspunten bij Correlatie?
- De interpretatie van hoe sterk variabelen is per definitie een subjectieve aangelegenheid. Vb Als het verband tussen paracetamol en dodelijke bijwerking heel klein is, zou dit
toch cruciaal zijn omdat paracetamol zoveel wordt gebruikt. - Correlatie zegt niets over de vraag of het verband tussen variabelen causaal is.
- Correlaties zijn altijd puntschattingen die worden berekend op basis van steekproeven. Ze verschillen daarom van steekproef tot steekproef. Zonder betrouwbaarheidsinterval kun je onmogelijk iets zeggen over de populatie.
Preregistratie
Pre-registratie houdt in dat men het volgende publiek maakt / vast legt:
- De doelstelling van het onderzoek,
- De studieopzet
- De methoden van dataverzameling
- De analyses die de onderzoekers zullen gebruiken,
Iedereen kan dus nagaan of de onderzoekers de studie op een ethische manier uitgevoerd hebben of zoals ze vooraf beweerd hebben.
Randomisatie?
Randomisatie: elke onderzoekseenheid (meestal deelnemer) wordt WILLEKEURIG toegewezen aan een van de groepen in een experiment.
Daardoor zijn bij voldoende grote groepen alle onderzoekseenheden in gelijkwaardige equivalente groepen ingedeeld. Dan zijn de confounders hetzelfde voor elke groep.
= oplossing voor confounders.
De kans dat de groepen in een bepaald experiment niet equivalent zijn, wordt groter naarmate er minder onderzoekseenheden in het onderzoek zitten.
Randomisatie is een noodzakelijke voorwaarden om conclusies te trekken over causaliteit (en bias te beperken)
Preregistratie en wat is full dislosure?
Preregistratie = van te voren vastleggen van
- de onderzoeksvraag,
- de onderzoeksmethode
- methode van dataverzameling
- methode van data-analyse
Full disclosure = volledige openheid geven over het onderzoeksproces. Vb omdat nu alles digitaal is kunnen data en meta-data (data over de data) meegepubliceerd worden.
Matching?
Matching van condities:
De poging om manipulaties zodanig te ontwikkelen dat deze equivalent zijn in alle aspecten behalve voor wat betreft de te manipuleren variabele.
= Genereren van condities die in alle opzichten behalve de gemanipuleerde situaties hetzelfde zijn.
Doel invloed confounders uit te sluiten.
Manipulaties = condities gelijk zetten voor alles behalve de gemanipuleerde variabele en groepen deelnemers genereren die op bepaalde factoren hetzelfde zijn bvb zelfde leeftijdsverdeling of zelfde man-vrouwverhouding)
Equivalente groepen door randomisatie - willekeurig toewijzen van onderzoekseenheden aan condities / groepen.
Verschil tussen een steekproevenverdeling van beschrijvingsmaten (bvb gemiddelde) en van een correlatie?
De correlatie kan nooit buiten het interval van -1 tot 1 liggen. Als de populatiecorrelatie dichter bij -1 of 1 ligt, is de kans dat door toeval de steekproefcorrelatie nog dichter bij 1 of -1 ligt een stuk kleiner
dan dat de steekproefcorrelatie dichter bij 0 ligt. Daarom wordt de steekproevenverdeling assymetrisch naarmate de populatiecorrelatie dichter in de buurt van -1 of 1 komt. De steekproevenverdeling van het gemiddelde is symmetrisch. Deze verdeling is smaller of breder
afhankelijk van de standaardfout en dus van de steekproefomvang, maar heeft altijd dezelfde vorm.n
Verschillen tussen een meetmodel en een structureel / conceptueel model?
Twee soorten modellen ; meetmodel en conceptueel = structureel model.
- Het meetmodel illustreert de operationalisatie van een variabele. In een conceptueel / structueel model worden de operationalisaties niet gevisualiseerd.
- Een meetmodel bevat ALTIJD maar 1 construct/variabele (de operationalisatie kan uit 1 of meer onderdelen bestaan). Het conceptueel / structureel model laat zien hoe de onderzoeker verwacht dat de variabelen (meerdere variabelen) in een studie samenhangen (representeert de verbanden tss de variabelen die worden geanalyseerd).
- Een meetmodel illustreert de meetinstrumenten en manipulaties in een studie en bestaat uit ovalen (construct) en rechthoeken (indicatoren/items/stimuli), verbonden door pijltjes. Een structureel / conceptueel model bevat enkel de constructen / variabelen met hun verwachte samenhang.
Scheefheid: Wat is het verschil tussen een links- en rechtscheve verdeling?
- Linksscheef: negatief scheef - minder data punten liggen links van het gemiddelde - modus ligt aan de rechterkant - waarnemingen / datapunten ad linkerkant liggen verder van het gemiddelde - glijbaan van curve afglijden naar links
- Rechtsscheef; positief scheef - minder data punten liggen rechts van het gemiddelde - modus ligt aan de linkerkant - waarnemingen / datapunten ad rechterkant liggen verder van het gemiddelde - glijbaan van curve afglijden naar rechts
Betrouwbaarheid en validiteit verschil? Hoe kan een gebrek aan validiteit bijdragen aan de vertekening?
Betrouwbaarheid (reliability - replicability) is een bron van (meet) fouten en geldigheid /validiteit een bron van vertekening / bias.
Bron van fouten vermindert de kans op het bekomen van statistisch significante resultaten terwijl vertekening tot een foute hypothese kan leiden.
Een procedure kan betrouwbaar zijn maar niet geldig zijn.
Reliability / replicability / betrouwbaarheid: meet fouten - een maatstaf is betrouwbaar in de mate dat elke keer deze maatstaf gebruikt wordt, het gelijke resultaten oplevert bij een bepaald individu onder bepaalde omstandigheden. De betrouwbaarheid / replicability is lager naarmate een meetinstrument gevoeliger is voor toevallige verstorende invloeden. = NIET systematische meetfouten (ruis of random measurement error). BIj het bepalen van de betrouwbaarheid van een meetinstrument (stabiliteit over herhaalde metingen) wordt er vanuit gegaan dat datgene date gemeten wordt stabiel is.
Bvb. beoordelen over persoonlijkheid van mensen door het meten van hun duimlengte. Daar we bij elke meting dezelfde resultaten zouden krijgen is deze hoog betrouwbaar (replicability) . Echter deze zijn niet geldig daar er geen relatie is tussen duimlengte en persoonlijheid. Als je hieruit conclusies zou trekken krijg je bias want dan zou je bvb kunnen besluiten dat mensen met een langere duim intelligenter zijn of zo.
Frequenties: Wat is het verschil tussen absolute en relatieve frequenties?
Absolute frequenties = de aantalen / frequenties in de tabel
Relatieve frequenties = percentages die informatie geven over het aantal datapunten in een categorie tov het totale aantal datapunten.
Standaarddeviatie: Wat is het gevolg van een grotere standaarddeviatie op de waarde van p?
Omdat de t-waarde berekend wordt door het verschil tussen de gemiddelden te delen door de standaardfout, wordt de t-waarde kleiner als de standaarddeviatie (en dus de standaardfout) groter wordt. De gevonden t-waarde wordt dus minder extreem. Onder aanname van de nulhypothese wordt het dus waarschijnlijker om een dergelijke t-waarde te vinden. De p-waarde, die deze kans uitdrukt, wordt dus groter en zal minder vaak onder het significantieniveau (meestal .05) liggen.
Dit allemaal betekent dat de power van de toets dus lager wordt als de standaarddeviatie groter is. De betrouwbaarheidsintervallen worden overigens ook breder; deze worden namelijk berekend aan de hand van de standaardfout, die ‘meegroeit’ met de standaarddeviatie.
Standaard deviatie: Wat is het gevolg van een grotere standaarddeviatie op de waarde van Cohen’s d?
Omdat Cohen’s d berekend wordt door het verschil tussen de gemiddelden te delen door de standaarddeviatie, wordt Cohen’s d kleiner als de standaarddeviatie groter wordt. Het verband tussen de twee variabelen wordt dus zwakker. Als de steekproefomvang gelijk blijft, wordt ook de standaardfout groter als de standaarddeviatie stijgt.
Omdat de t-waarde berekend wordt door het verschil tussen de gemiddelden te delen door de standaardfout, wordt ook de t-waarde kleiner als de standaarddeviatie (en dus de standaardfout) groter wordt. De gevonden t-waarde wordt dus minder extreem. Onder aanname van de nulhypothese wordt het dus waarschijnlijker om een dergelijke t-waarde te vinden. De p-waarde, die deze kans uitdrukt, wordt dus groter en zal minder vaak onder het significantieniveau (meestal .05) liggen.
Dit allemaal betekent dat de power van de toets dus lager wordt als de standaarddeviatie groter is. De betrouwbaarheidsintervallen worden overigens ook breder; deze worden namelijk berekend aan de hand van de standaardfout, die ‘meegroeit’ met de standaarddeviatie.
Standaard deviatie: Wat is het gevolg van een grotere standaarddeviatie op de waarde van t?
Omdat de t-waarde berekend wordt door het verschil tussen de gemiddelden te delen door de standaardfout, wordt de t-waarde kleiner als de standaarddeviatie (en dus de standaardfout) groter wordt. De gevonden t-waarde wordt dus minder extreem. Onder aanname van de nulhypothese wordt het dus waarschijnlijker om een dergelijke t-waarde te vinden. De p-waarde, die deze kans uitdrukt, wordt dus groter en zal minder vaak onder het significantieniveau (meestal .05) liggen.
Dit allemaal betekent dat de power van de toets dus lager wordt als de standaarddeviatie groter is. De betrouwbaarheidsintervallen worden overigens ook breder; deze worden namelijk berekend aan de hand van de standaardfout, die ‘meegroeit’ met de standaarddeviatie.
Variabele - wat is het?
- Een variabele is iets dat varieert of zou kunnen varieren. Vb je ondervraagt enkel mensen uit NL dan varieert het land niet maar het zou wel kunnen dus is het nog steeds een variabele.
- Een reeks datapunten (datareeks) afkomstig van hetzelfde meetinstrument (bvb een 7 puntenschaal) wordt ook een variabele genoemd.
Een variabele wordt dus zowel gebruikt voor een theoretische variabele (bvb leervaardigheid) als voor een reeks datapunten die als de operationalisatie goed werkt, indicatief is voor de waarde van die theoretische variabele.
Standaard normaal verdeling?
Een standaard normale verdeling = een normaalverdeling met een gemiddelde van nul en een standaarddeviatie van 1
= Z-verdeling
= handig want van elk datapunt in een z-verdeling is het duidelijk hoe ver het punt van het gemiddelde ligt
Reflectief meetmodel
Meetmodellen worden meestal opgesteld voor meetinstrumenten (vb test / vragenlijst). Een meetmodel visualiseert hoe een variabele via stimuli of items wordt geoperationaliseerd.
Meetmodel: construct of variabele in ovaal, indicatoren (item / stimuli) in rechthoeken (bvb vragen in vragenlijst)
Reflectief meetmodel: In een reflectief meetmodel lopen de lijnen van het contruct, ook wel latente variabele genoemd naar de indicatoren.
De richting van de pijl is belangrijk! Een reflectief meetmodel waarbij de pijl loopt van het construct naar de inidcatoren veronderstelt dat het construct (bvb mate van neiging tot nadenken) bepaalt hoe op de indicatoren (de vragen bvb) wordt gescoord.
Een reflectief meetmodel is niet van toepassing op alle variabelen die binnen de psychologie en onderwijswetenschappen worden onderzocht.
Oplossing van de subjectiviteit van correlatie vooral bij een kleine steekproef?
De correlatie is een maat voor hoe sterk 2 variabelen samenhangen. Maar een puntschatting is deels door toeval tot stand gekomen. In elke steekproef is elke puntschatting weer net wat anders en in een kleine steekproef kan de correlatie in de populatie zelfs heel ver van de steekproefcorrelatie afliggen.
De oplossing hiervoor is altijd hetzelfde: betrouwbaarheidsintervallen berekenen op basis van de steekproevenverdeling.
➢
Niet systematische meetfout
NIet systematische meetfout = toevallige invloeden op de testscore = fouten in onderzoek leiden enkel tot vermindering van de kans dat onderzoekers statistisch significante resultaten vinden (de variabiliteit dan de data stijgt). Dit wordt ook ruis of random measurement error genoemd. Naarmate de niet-systematische meetfout (ruis / random measurement error) kleiner is en er dus sprake is van minder toevallig verstorende invloeden is een meting betrouwbaarder.
Wat is de steekproevenverdeling van een correlatie?
De steekproevenverdeling is te beschouwen als de verdeling die we zouden krijgen als we onze steekproef oneindig vaak zouden herhalen, telkens de correlatie zouden berekenen en die
correlaties zouden combineren in 1 verdeling. De steekproevenverdeling bevat dus per definitie alle mogelijke correlaties die we zouden kunnen vinden.
Wat is de proportie verklaarde variantie (hoeveel 2 variabelen overlappen)?
Onderzoekers willen vaak weten hoeveel van de afhankelijke variabele ze nu eigenlijk begrijpen. Een indicator hiervan is hoeveel van de variantie van de afhankelijke variabele verklaard kan worden met een regressiemodel: de proportie verklaarde variantie = R2 (correlatiecoefficient maal correlatiecoefficient).
Hoe hoger R2, hoe meer van de afhankelijke variabele wordt verklaard met de voorspeller. R2 kan waardes aannemen van 0 tot 1. Als alle geobserveerde scores exact op 1 rechte lijn liggen, is
R2 gelijk aan 1. Bij een enkelvoudige regressie is R2 gelijk aan het kwadraat van de correlatie tussen predictor en criterium. Wanneer de punten erg verspreid liggen rond de regressielijn, is R2 klein.
Ook hier moeten weer betrouwbaarheidsintervallen voor worden berekend.
Regressiecoëfficiënten maken het mogelijk om uit de ene variabele de andere te voorspellen en de R2’s geven een indicatie van hoe goed die voorspelling is. Dit blijven puntschattingen en kunnen
grote standaardfouten bevatten, dus daarom moeten we betrouwbaarheidsintervallen gaan berekenen.
Omdat R kwadraat de proportie verklaarde variantie is, wordt de P-waarde die uitdrukt hoe groot de kans op de gevonden R2 is als de voorspeller (onafh variabele) in de populatie niet samenhangt met de voorspelde (afhankelijke) variabele vaak berekend door gebruik te maken van de F verdeling.
Wat is de causale opvatting van validiteit?
Causale opvatting van validiteit: de test is valide om een bepaald construct te meten als
- het construct bestaat EN
- de verschillen tussen mensen op het construct tot verschillende uitkomsten op het meetinstrument leiden.
Dus je kan pas nagaan of een meetinstrument valide is als je weet hoe het meetinstrument werkt (de processen kent) = onderzoeken welke processen verklaren hoe verschillen in het construct leiden tot verschillen in de testscores (daarom wordt vaak teruggevallen op constructvaliditeit).
Bias?
Bias of vertekening van onderzoeksresultaten kan worden veroorzaakt door de eigen waarneming maar ook door een foutief onderzoeksdesign.
Bias zijn afwijkingen veroorzaakt door factoren buiten de onderzoekshypothese
Het gaat om systematische afwijkingen, een systematische fout die niet onderhevig is aan toeval.
VB meten met een meetlint dat begint bij 20 cm ipv 0 cm
Bias is een groot probleem in onderzoek daar statistische technieken de vertekening niet kunnen identificeren noch corrigeren (niet te compenseren)
NIet systematische meetfout = toevallige invloeden op de testscore = fouten in onderzoek leiden enkel tot vermindering van de kans dat onderzoekers statistisch significante resultaten vinden (de variabiliteit dan de data stijgt).
Bias daarentegen = systematische meetfout en kan leiden tot de verkeerde conclusie dat de onderzoekshypothese klopt terwijl het geobserveerde resultaat veroorzaakt wordt door een factor irrelevant (buiten de / onafhankelijk van) voor de hypothese. VB een meetlat begint bij 20 cm - er is een systematische afwijking
Betrouwbaarheid (reliability)
Betrouwbaarheid (reliablity/replicabliity) heeft te maken met meetfouten en NIET met bias (systematische afwijkingen / vertekeningen).
1 e type betrouwbaarheid: Een maatstaf / measure is betrouwbaar wanneer elke keer dat deze maatstaf gebruikt wordt voor een bepaalde proefpersoon onder bepaalde omstandigheden dit vergelijkbare resultaten oplevert. Dit noemt men ook replicability /replicaarbaarheid. Bvb een lintmeter om cm te meten is niet zo betrouwbaar als een metalen meetlat.
Lage betrouwbaarheid is een bron van fouten en daardoor verlaagt de kans om statistisch significante resultaten te vinden in een onderzoek.
Betrouwbaarheid wordt gedefinieerd als de stabiliteit van een meetinstrument over herhaalde metingen. Voor een zuivere schatting van betrouwbaarheid te bekomen zouden herhaalde metingen onder gelijkblijvende omstandigheden moeten plaatsvinden. Er wordt ook van uigegaan dat wat gemeten wordt stabiel is (daarom niet te lange periode tussen 2 keer meten van intelligentie)/ Toch mag het tijdinterval niet te kort zijn want dan kan herinnering meespelen.
Naarmate de niet-systematische meetfout (ruis / random measurement error) kleiner is en er dus sprake is van minder toevallig verstorende invloeden is een meting betrouwbaarder.
Waarvan is de steekproevenverdeling van een correlatie (asymmetrich) afhankelijk?
De steekproevenverdeling van de correlatie bevat alle correlaties die je in een steekproef van een gegeven omvang kunt vinden. De steekproeveverdeling is afhankelijk van de populatiecorrelatie en
van het aantal datapunten (de steekproefomvang).
Waarom zijn psychologische constructen lastig te onderzoeken?
- Er is geen eenduidige exacte definitie
- Mensen hebben beperkte mogelijkheid tot introspectie
- Niet direct observeerbaar
- Er is geen algemeen gebruikte eenheid om deze variabelen te meten
Waarom wordt de steekproevenverdeling van de correlatie asymmetrisch?
Steekproevenverdeling van de beschrijvingsmaten zijn symmetrisch, .
De waarde van de correlatie tussen - en + 1 moeten liggen. Afwijkingen van de correlatie van de populatiecorrelatie komt door toeval (steek proef of meetfout). Als de populatiecorrelatie dicht bij - of + 1 ligt, is de kans dat door toeval de steekproefcorrelatie nog dichter bij - of + 1 ligt kleiner dan dat de steekproefcorrelatie dichter bij 0 ligt. Daarom wordt de steekproevenverdeling asymmetrisch naarmate de populatiecorrelatie dichter bij - of + 1 ligt.
- De steekproevenverdeling van de correlatie wordt meer en meer symmetrisch naarmate de omvang van de steekproef stijgt
- De kans op afwijkende correlaties bij kleine steekproeven is erg groot. Dit komt doordat in een kleine steekproef de invloed van een uitzonderljke waarde veel groter is. In een grote steekproef wordt deze invloed van toeval enigszinds ingeperkt.
BI van correlatie is nodig om een indicatie te kunnen geven over de accuraatheid van de correlatieschatting.
Waarom oppassen met het BI (betrouwbaarheidsinterval) van correlaties? En hoe wordt dit opgelost?
Een betrouwbaarheidsinterval kan berekend worden met de gegevens uit een steekproef en omvat, voor een gegeven percentage van de steekproeven, de populatiewaarde.
Steekproevenverdeling voor correlaties is echter niet symmetrisch. Deze formule zou alleen correct zijn voor correlaties die dicht bij 0 liggen of wanneer de steekproefomvang heel groot is. Berekenen
is daarom wat lastiger, maar statistische software kan dit makkelijk.
Met de betrouwbaarheidsintervallen voor correlaties kunnen we dus eigenlijk iets zeggen over het verband tussen 2 variabelen. Maar 1 studie is geen studie. Er kunnen verstorende factoren zijn
geweest, dus ook dit betrouwbaarheidsinterval uit een willekeurige steekproef kan zomaar naast de populatiewaarde liggen. Om echt uitspraken te kunnen doen, is het nodig om meerdere studies te combineren. Meta analyses = literatuurstudies waarbij uitkomsten uit meerdere studies gecombineerd worden, om op die manier hele nauwkeurige betrouwbaarheidsintervallen te kunnen berekenen.
Meta analyses zijn uiteindelijk de manier waarop onderzoeksvragen beantwoord worden. Omdat puntschattingen geen informatie bevatten over hoe accuraat ze zijn worden deze gecombineerd met zogenaamde p-waarden.
Waarom kan het kiezen voor een categorisch meetniveau terwijl een variabele op continu niveau gemeten kan worden schadelijk zijn voor onderzoek?
- Meer deelnemers zijn nodig naarmate het meetniveau van de betreffende variabelen lager is. Een verband aantonen tss 2 continue variabelen vereist minder deelnemers dan wanneer 1 variabele categorisch is.
- Veel variabelen die we willen meten in onderzoek zijn continu. Categorische operationalisaties zijn niet altijd valide, omdat er vaak continue variabelen ten grondslag liggen aan de categorische variabelen.
- Het is altijd mogelijk om van continue variabelen terug te gaan naar lagere niveaus, maar niet andersom (als deelnemer 35-50 leeftijd aankruist, weet je niet hoe oud hij is)
- Groepen mensen bestaan vaak niet uit duidelijk te onderscheiden subgroepen.
Je neemt bv aan dat iemand van 36 meer lijkt op iemand van 49 dan op iemand van 34?
Vrijdheidsgraden
Voor het gemiddelde van een datareeks zijn de df = n−1, het aantal vrijheidsgraden van deze datareeks. Vrijheidsgraden, oftewel degrees of freedom (df) in het Engels, drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert. Voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden n-1. Dat wil zeggen dat je in een datareeks alle datapunten behalve één willekeurige kunt veranderen. Dit ene datapunt moet een bepaalde waarde hebben om hetzelfde gemiddelde te behouden.
Stel je hebt een datareeks van vier observaties met een gemiddelde van 2,5. Dit betekent dat je 4-1 = 3 vrijheidsgraden hebt. Je kunt dus drie observaties willekeurig kiezen, de vierde wordt altijd bepaald. Je kiest voor de eerste drie observaties de waardes 1 2 3. De vierde observatie moet 4 zijn om op een gemiddelde van 2,5 uit te komen.
Stel je kiest voor de eerste drie observaties 0 0 0. De vierde observatie moet dan 10 zijn om het een gemiddelde van 2,5 te behouden. Dit kun je zo vaak herhalen als je wilt. Je kunt bijvoorbeeld de willekeurige waarden kiezen 28, 389 en 964. De vierde observatie moet dan -1371 zijn om op een gemiddelde van 2,5 uit te komen.
Het aantal vrijheidsgraden geeft aan hoeveel van deze datapunten er vrij kunnen veranderen zonder de essentie van de datareeks aan te tasten. Het aantal vrijheidsgraden verandert afhankelijk van hoeveel parameters de datareeks beschrijven. Hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen. Ingewikkelde statistische berekeningen vereisen daarom meer observaties.
Voordelen van werken met gestandaardiseerde waarden
- Z-score geeft aan hoe ver een waarde van het gemiddelde afligt
- Als de variabele ook normaal verdeeld is geeft de z-score informatie over hoe extreem het datapunt is
- Standaardisering maakt vergelijking mogelijk tss variabelen die op verschillende schalen gemeten zijn
Standaardisering is omrekenen van datapunten in z-scores
Voorbeelden van probability samples - aselecte of random of willekeurige steekproef
- Aselecte steekproef: iedereen heeft evenveel kans om in de steekproef te belanden
- Gestratificeerde aselecte steekproef: populatie wordt eerst opgedeeld in subpopulaties adhv bep kenmerken relevant voor de onderzoeksvariabele. Daarna aselecte steekproef uit elke subpopulatie waarbij de verhouding tussen subpopulaties gelijk is aan die in de volledige populatie
- Multilevel aselecte steekproef: als de te onderzoeken populatie al opgedeeld is in groepen (vb scholieren in scholen en in klassen). Eerst aselecte steekproef van scholen, dan van klassen .
Voorbeelden van non-probability sampling (selecte steekproeven)
Convenience sampling:
- Deelnemers worden gekozen op basis van enkele praktische criteria (vb geografische locatie, makkelijk toegankelijk (availability bias)
- Wordt niet nagedacht over welke kenmerken de deelnemers moeten hebben.
Snowball sampling
- Wel nagedacht over de kenmerken van de deelnemers.
- Aantal deelnemers geselecteerd die andere deelnemers uitnodigen die voldoen aan bepaalde eisen
Purposive sampling:
- Deelnemers worden weloverwogen geselecteerd op basis van specifieke kenmerken. Vooral bij kwalitatief onderzoek.
Quota sampling
- Idee en procedure van deze vorm van steekproeftrekking is vergelijkbaar met het trekken van een gestratificeerde steekproef (opdelen vd populatie in subgroepen) maar hier worden selecte steekproeven toegepast op de verschillende subpopulaties
Voor en nadelen van construct validiteit:
Constructvaliditeit: in hoeverre worden interpretaties van testscores ondersteund door theorie en empirisch bewijs voor het gebruikt van deze test / meetinstrument. De empirische evidentie voor constructvalidering is gebaseerd op de mate van samenhang tss variabelen en /of items. Constructvalidering kan bestaan uit het bepalen van de samenhang tussen items / stimuli / indicatoren en schalen onderling EN dat ook onderzocht wordt of er samenhang is met andere variabelen en uitkomsten zoals te verwachten is op basis van theorie en eerder onderzoek.
Voordeel: je moet niet weten hoe een meetinstrument werkt en er wordt ook niet nagegaan of het construct dat je wil meten wel bestaat. Dus validiteit is zo relatief makkelijk te onderzoeken. Bvb je legt deelnemers een aantal meetinstrumenten voor en bekijkt de samenhang van de scores op deze meetinstrumenten en het meetinistrument dat je interesseert.
Nadeel: deze samenhang met andere test scores of uitkomsmaten biedt geen inzicht of het meetinstrument daadwerkelijk het construct meet dat het zou moeten meten. Het kan ook iets anders meten dat toevallig samenhangt met de andere vragenlijsten of uitkomstmaten die zijn onderzocht.
Verschillende verdelingen
Z verdeling: rond 1 schatting / univariaat / een parameter bvb de datapunten zijn de lengtes van mensen = std normaal verdeling
T verdeling: schattingen van de parameters vb. regressie (verschillende parameters - schattingen van een regressie coefficient). T verdeling wijkt enkel voor een heel kleine steekproef af van de normaal verdeling.
F verdeling = P waarde van het hele model volgt een F verdelling ( 2 parameters B0 eb B1). De Levene’s toets is F verdeeld.
Verschillende toetsen en gebruik
- Correlatie = verband tussen 2 continue variabelen vaststellen (r=effectmaat)
- Regressie analyse = verband tussen 2 continue variabelen (een waarde voorspellen uit de andere waarde) / en dichotome variabele door 0 - 1 waarde toe te kennen aan beide categorieen = dummy coderen
- Categorische variabelen (onafhankelijke variabele = categorisch - de afhankelijke variabele is continu) bestaande uit 2 groepen: t-test en effectmaat cohen’s d
- Onafhankelijke t-toets (de meetwaarden van verschillende subjects
- Gepaarde t-toets (meerdere meetwaarden bij zelfde subject)
- Categorische variabelen (de onafhankelijke variabele - de afhankelijke is continu met meer dan 2 groepen : variantie-analyse
Verschil validiteit (geldigheid) en betrouwbaarheid
Bij validiteit gaat het om het meten wat je beoogt te meten.
Betrouwbaarheid daarentegen gaat het om de vraag of je onderzoeksresultaten hetzelfde zouden zijn als je het onderzoek op dezelfde wijze nogmaals uitvoert.
Betrouwbaarheid (reliability - replicability) is een bron van (meet) fouten en geldigheid /validiteit een bron van vertekening / bias. Bron van fouten vermindert de kans op het bekomen van statistisch significante resultaten terwijl systematische vertekening tot een foute hypothese kan leiden.
Een procedure kan betrouwbaar zijn maar niet geldig zijn.
Bvb. beoordelen over persoonlijkheid van mensen door het meten van hun duimlengte. Daar we bij elke meting dezelfde resultaten zouden krijgen is deze hoog betrouwbaar (replicability) . Echter deze zijn niet geldig daar er geen relatie is tussen duimlengte en persoonlijkheid. Als je hieruit conclusies zou trekken krijg je bias want dan zou je bvb kunnen besluiten dat mensen met een langere duim intelligenter zijn.
Stel: Een onderzoekster wil weten hoe vaak mensen rommel op straat gooien en benadert daartoe op een drukke zaterdagmiddag in een winkelcentrum rechtstreeks een aantal respondenten met de vraag of zij zich hieraan weleens schuldig maken. De vraag leidt telkens tot hetzelfde antwoord: de overgrote meerderheid van de respondenten zegt dit niet te doen. Toch blijkt aan het einde van de middag de straat vol te liggen met kauwgomresten, papiertjes, stokjes, blikjes en plastic bekers. De respondenten hebben slechts sociaal wenselijke antwoorden gegeven toen hun op de man af werd gevraagd of zij weleens rommel op straat gooiden. De kans is groot dat de enquête, wanneer ze werd herhaald, opnieuw tot dezelfde resultaten zou leiden; in die zin is het een betrouwbaar instrument. Maar het onderzoek is niet valide, omdat het geen antwoord geeft op de gestelde onderzoeksvraag.
NIet betrouwbaar, wel valide: Stel: Op de afdeling Neonatologie van een ziekenhuis meet men de lichaamstemperatuur van pasgeboren baby’s. Daarbij wordt gebruikgemaakt van vijf oude thermometers, die een afwijking hebben tot twee graden Celsius gemiddeld. In dat geval is het meetinstrument niet betrouwbaar en kan het ziekenhuis beter andere thermometers kopen. De uitslagen zullen bij herhaling wel telkens rond een verwachte waarde bewegen (van twee graden onder de werkelijke temperatuur tot twee graden erboven), maar de uitslagen zijn niet betrouwbaar genoeg om er uitspraken op te baseren.
Verschil tussen onderzoeksvraag en hypothese
➢ Beantwoorden onderzoeksvragen en testen hypothese draagt bij aan bereiken doelstelling
➢ In de praktijk maakt het voor de analyses niet uit of een onderzoeker een onderzoeksvraag of een hypothese formuleert. De analyses die verbanden tussen variabelen analyseren zijn dezelfde of die verbanden nu onderzoeksvragen of hypotheses betreffen.
➢Onderzoeksvraag: de te onderzoeken verbanden door onderzoekers worden verwoord in onderzoeksvragen
➢Hypothese = onderzoeksvraag die geformuleerd is als een stelling met een specifieke verwachting van de onderzoekers
➢Een hypothese verwoordt de verwachtingen van de onderzoeker, maar een onderzoeksvraag niet.
Kritieke t-waarde, t-waarde en Wench’s t _ wat is het verschil?
Betrouwbaarheidsinterval voor het verschil tussen gemiddelden=
(Verschil tussen gemiddelde =) Steekproefwaarde + / - Breedte-index * standaardfout
De breedte-index komt in dit geval uit een t verdeling en noemt ook wel de kritieke t waarde. De software berekent deze kritieke t waarde (of opzoeken tabel)
Aantal vrijheidsgraden voor T verdeling is steekproefomvang (n) minus 2
De kritieke t- waardes verschillen tot aan 100 vrijheidsgraden (steekproefomvang van 102). Boven een steekproefomvang van 102 of DF van 100 is de kritieke t-waarde = 1.96
T-waarde gebruikt in de onafhankelijke t-toets. De onafhankelijke t-toets is de methode om de p waarde te berekenen voor het ruwe verschil tussen de gemiddelden en ook de p waarde van de bijhorende Cohen’sd. 1. T waarde berekenen en 2. de bijhorende P-waarde opzoeken (of software programma).
De formule voor de t-waarde is:( gemiddelde y1 - gemiddelde y2 )/se verschil
Welch’s t-toets is correctie van de gewone t-toets om rekening te houden met MOGELIJKE verschillende varianties tussen groepen. Tegenwoordig is de conventie om altijd deze Welch’s t-toets te gebruiken (berekend door software).
Het testen of K (aantal groepen) steekproeven gelijke varianties hebben (Homoscedastisch zijn) kan gedaan worden met Leven’s toets voor gelijkheid (homogeniteit) van varianties.
Verschil doelstelling, onderzoeksvraag en hypothese
Doelstelling = niet alleen wat een onderzoeker wil onderzoeken in een studie, maar ook wat het achterliggende doel is wat hiermee bereikt kan worden.
Een hypothese verwoordt de verwachtingen van de onderzoeker, maar een onderzoeksvraag niet.
➢ Elke studie heeft 1 of meer doelstelling en met deze doelstelling in het achterhoofd, worden de onderzoeksvragen geformuleerd
➢ Vervolgens wordt een hypothese geformuleerd op basis van theoretische en/of empirische evidentie. De hypothese is een onderzoeksvraag die geformuleerd is als een stelling met een specifieke verwachting van de onderzoekers
➢ Beantwoorden onderzoeksvragen en testen hypothese draagt bij aan bereiken doelstelling
➢ In de praktijk maakt het voor de analyses niet uit of een onderzoeker een onderzoeksvraag of een hypothese formuleert. De analyses die verbanden tussen variabelen analyseren zijn dezelfde of die verbanden nu onderzoeksvragen of hypotheses betreffen.
Verdelingsvormen en 3 termen om ze te beschrijven en 3 om ze te meten:
Verdelingsvorm: geeft informatie over de manier waarop de datapunten om het gemiddelde heen liggen
Deze vorm wordt bepaald door te kijken naar een grafische weergave van de data, een plot of grafiek (bvb histogram)
Verdelingsmaten: de 3 termen om een verdelingsvorm te beschrijven
3 termen om een verdelingsvorm te beschrijven
- Modaliteit = toppigheid (aantal toppen ve verdeling - komt van modus = de top = meest voorkomende waarde ie verdeling). Unimodaal - 1 top of multimodaal - meertoppig en bimodaal - 2 toppig.
- Scheefheid =/skewness
- Spitsheid = kurtosis
Verdelingsmaten
- Modaliteit gemeten met Hartigans dip test = de verdelingsmaat (0 = perfect unimodaal - hoe meertoppiger hoe groter deze waarde)
- Scheefheid: maat is scheefheid /skewness (symmetrisch of asymmetrisch) perfect symmetrisch skewness = 0
- Spitsheid = maat is kurtosis (normaalverdeling kurtosis nul)
Symmetrische bell curve = normaal verdeling
Univariate statistiek
Met univariate statistieken kijk je naar één variabele,
Underpowered studies -gevolg /gevaar
Studies met te weinig deelnemers zijn underpowered. Maar naast dat de kans in deze studies klein is om de nulhypothese te kunnen verwerpen ook al is er een daadwerkelijk verband in de populatie (type 2 fout) = onterechte aanname vd nulhypothese als waar, herbergen deze studies nog een extra gevaar dat in eerste instantie niet duidelijk is. Naarmate de daadwerkelijke populatiecorrelatie groter is, is de power van een studie met een gegeven steekproefomvang hoger. De correlatie die in een steekproef wordt gevonden, komt dan namelijk uit een populatiesteekproevenverdeling die steeds verder van de nulhypothese-steekproevenverdeling af ligt. Om een sterk verband aan te tonen, volstaat bij zulke sterke correlaties dus een relatief kleine steekproef.
Als in een underpowered studie een grote correlatie wordt gevonden, wordt daarom vaak gedacht dat de kleine steekproef klaarblijkelijk geen probleem was. Als er van tevoren poweranalyses waren gedaan op basis van die grote correlatie, was daar namelijk uitgekomen dat er maar weinig deelnemers nodig zijn om een fatsoenlijke power te bereiken. Deze redenering is echter fout, omdat steekproeven verdelingen bij kleine steekproeven heel breed zijn. Bijunderpowered studies is de kans dus redelijk groot dat er in een steekproef een relatief sterk verband wordt gevonden, terwijl er in de populatie helemaal geen verband is.
Type 2 fout
Type 2 fout
- Als je de nulhypothese niet verwerpt , is er een kans dat je dit ten onrechte doet. Dan is er toch een effect / verband terwijl je aanneemt dat er geen effect is.
- Type 2 fout = ten onrechte de nulhypothese niet verwerpen
- Oplossing: grotere steekproef (hoe groter hoe minder kans op type 2 fouten) – meer power (= kans op detecteren van effect dat in de populatie aanwezig is) .
Type 2 fout = ten onrechte de nulhypothese aanhouden = de nuhypothese NIET verwerpen terwijl er wel een verband is tussen variabelen (de nulhypothese is niet waar - r / correlatie is niet 0). Dit is een nadelig gevolg van de mechaniek van NHST: als de alpha lager is, wordt de kans op een type 1-fout kleiner, maar de kans op een type 2-fout wordt groter. Gelukkig is hier een oplossing voor:
de steekproefomvang vergroten. Stel dat we een steekproef van 𝑛 = 500 deelnemers gebruiken. De steekproevenverdeling waarbinnen we de nulhypothese toetsen, is dan een stuk smaller.
Een steekproefomvang van bvb 𝑛 = 500 of meer maakt het dus mogelijk om de kans op een type 1-fout te beperken tot 1%, terwijl de kans op een type 2-fout ook beperkt blijft
Type 1 fout
Type 1 fout:
- Bij een alfa van 0.05 is er 5 % kans dat je een effect vindt in je steekproef terwijl er in de populatie geen effect is . Als je dit omdraait dan weet je 95% zeker dat er een effect is. Als je een P waarde van 0.001 dan heb je 99.999% kans dat je juist zit.
- Type 1 fout = ten onrechte de nulhypothese verwerken
- Oplossing: kleinere alfa
Een type 1-fout wordt gemaakt als de nulhypothese onterecht wordt verworpen, dus als er wordt geconcludeerd dat er in de populatie een verband bestaat terwijl dit eigenlijk niet zo is. Bij een alpha van .25 gebeurt dit in 25% van de getrokken steekproeven uit een populatie waar het betreffende verband niet bestaat. Het is belangrijk om de kans op een type 1-fout zo laag mogelijk te houden. Bij een
alfa van 5% zal je dus in 5% van de studies de nulhypothese verwerpen, terwijl deze in werkelijkheid wel waar is. Het is dus onvermijdelijk om af en toe de verkeerde conclusie te trekken. Dit heet een type 1-fout.
Onafhankelijke t-toets
Het verband tussen een dichotome variabele en een intervalvariabele kan getoetst worden met een onafhankelijke t-toets
Voor het verschil tussen 2 gemiddelden is het mogelijk om een p-waarde te berekenen. Deze p waarde is de p-waarde voor het ruwe verschil tussen de gemiddelden en ook de p-waarde van de bijbehorende Cohen’s d. De methode om deze p-waarde te berekenen heet de onafhankelijke t-toets. De t-toets bestaat uit 2 stappen:
- Berekenen van de t-waarde
- bepalen van de bijbehorende p-waarde met behulp van de t-verdeling.
De formule voor de t-waarde is:( gemiddelde y1 - gemiddelde y2 )/se verschil
(Cohen’s d = gemiddelde y1 min gemiddelde y2 / SD y)
Om de t-waarde te verkrijgen, wordt het verschil tussen beide gemiddelden gedeeld door de standaardfout van dat verschil. De standaardfout = de naam voor de standaarddeviatie in een steekproevenverdeling. Een t verdeling is zo’n steekproevenverdeling.
Een t-waarde van -4 betekent dat de 2 gemiddelden 4 standaard fouten van elkaar afliggen.
Wleke zijn de 2 regressie coefficienten?
Intercept= het eerste getal uit de regressieanalyse is simpelweg de voorspelling voor iemand die 0 scoort op de predictorvariabele, oftewel een waarde van 0 op de x-as.(Y waarde bij 0 waarde op x as)
Hellingscoefficient = de tweede regressiecoëfficiënt oftewel, β1, is de helling van de lijn. Deze regressiecoëfficiënt geeft de stijging (of daling) in de variabele op de y-as aan als de variabele op de x-as met 1 eenheid toeneemt
T-verdeling
De steekproevenverdelingen voor B0 en B1 (de regressie coefficienten) is een t-verdeling. De t-verdeling = een variatie op de z-verdeling met een aanpassing voor kleine steekproeven van
bijvoorbeeld 10 of 20 deelnemers. Deze wordt niet opgesteld voor gegeven steekproefomvang, maar voor het aantal vrijheidsgraden
Df (degrees of freedom) = steekproefomvang (n) – aantal regressie coëfficiënten (=2). De t-verdeling is symmetrisch.
De t-verdeling wijkt alleen in kleine groepen af van de normaal verdeling (z-verdeling). Naarmate de groep groter wordt, gaat de t-verdeling de normaalverdeling steeds meer benaderen. Omdat kleine steekproeven te weinig power hebben om bruikbaar te zijn in onderzoek zijn de t- en z-verdeling in de praktijk vaak als equivalent te beschouwen. Toch is het beter om standaard met een t-verdeling te werken, want deze vereist geen subjectief oordeel over de vraag of een steekproef groot genoeg is.
De breedte van een normaalverdeling wordt bepaald door de standaarddeviatie. Een z-waarde van 1 correspondeert met een afwijking van 1 standaarddeviatie vanuit het midden van de verdeling
(vaak het gemiddelde). Bij de t-verdeling correspondeert een t-waarde van 1 met 1 standaardfout vanuit het midden van de verdeling af.
T verdeling
De t verdeling is symmetrisch
Bij statistiek wordt de t-verdeling meestal gebruikt om:
- De kritische waarden voor een betrouwbaarheidsinterval te vinden als de data ongeveer normaal verdeeld zijn.
- De corresponderende p-waarde te vinden van een statistische toets die de t-verdeling gebruikt (t-toets, regressieanalyse).
Naarmate het aantal vrijheidsgraden (totaal aantal waarnemingen min 1) toeneemt, zal de t-verdeling steeds dichter bij de standaardnormale verdeling (z-verdeling) komen te liggen, totdat ze nagenoeg hetzelfde zijn.
Boven 30 vrijheidsgraden komt de t-verdeling ongeveer overeen met de z-verdeling. Daarom gebruik je voor grote steekproeven de z-verdeling in plaats van de t-verdeling.
De z-verdeling wordt verkozen boven de t-verdeling, omdat de variantie bekend is bij de z-verdeling. Bij de t-verdeling wordt de variantie slechts geschat op basis van het aantal vrijheidsgraden. Hierdoor kunnen nauwkeurigere schattingen worden gemaakt met behulp van de z-verdeling.
T en Z verdeling
T-verdeling voor verschillen tss 2 groepen en voor de regressiecoefficienten.
De t-verdeling is een variatie op de z verdeling met een aanpassing voor kleine steekproeven met bvb 10 of 20 deelnemers.
Zulke kleine steekproeven zijn meestal niet ethisch. Bij steekproeven van 100 of meer zijn de t- en de z-verdeling (normaal verdeling) praktisch hetzelfde.
De t-verdeling wordt niet opgesteld voor een bepaalde steekproefomvang maar voor een gegeven aantal vrijheidsgraden. Bij regressiecoefficienten en vergelijking vd gemiddelde tss 2 groepen = n-2 (aantal regressiecoefficienten of groepen)
N= aantal deelnemers
Omdat heel kleine steekproeven te weinig power hebben om bruikbaar te zijn in wetenschappelijk onderzoek en we dus grotere steekproeven hebben , zijn de t - en z verdeling als praktisch equivalent te beschouwen. Toch is het beter om standaard met een t-verdeling te werken daar deze geen subjectief oordeel vereist over de vraag of een steekproef groot genoeg is.
Een z-waarde van 1 correspondeert met 1 standaarddeviatie van het gemiddelde.
Een t-waarde van 1 correspondeert met 1 standaardfout vanuit het midden van de verdeling.
Synoniemen voor effect van de ene variabele op de andere
In de statistiek is effect van de ene variabele op de andere =
- samenhang tussen variabelen
- als 2 variabelen samenhangen, zeggen ze in de statistiek dat dat de ene variabele uit de andere voorspeld kan worden
VERWARREND!!! In de statistische context wordt er GEEN causaliteit verondersteld bij deze formuleringen!
DUS enkel bij experiment causaal verband.
Als er geen sprake is van een experiment levert het design GEEN data op die conclusies mogelijk maken over causaliteit.