coderen Flashcards
kenmerken van multivariate technieken
- kwantitatief
- toetsend of explorerend
- datareductie of modeltoetsing
• Modeltoetsing: bepaalde uitkomstmaten kijken, waar we de relaties veronderstellen tussen die uitkomstmaten en verschillende oorzakelijke factoren. We onderzoeken vervolgens hoe die relaties liggen en of de verbanden überhaupt aanwezig zijn en of zij dezelfde richting hebben als we theoretisch veronderstellen - hoog versus laag
voorspelling versus samenhang
Univariate technieken
technieken die slechts 1 variabele gebruiken
- descriptieve maten gebruiken
bivariate technieken
technieken met 2 variabelen
- correlaionele mate gebruiken
Multivariate technieken
3 of meer variabelen gebruiken
-geintegreerde analyse
codeboek
= technisch verslag waarbij je duidelijk maakt hoe je van een varzglijst naar een databestand gaat
Coderen: bijkomende punten en samenvattende regels
- overzichtelijke vragenlijst (genummerd)
- duidelijk en consequent codeboek (‘veldcoderen’ uitsluiten)
- afspraken voor ‘weet niet’ (7, 77,…), ‘geen antwoord’ (8, 88,…), ‘niet van toepassing’ (9, 99,…): zie bv. codeboek SCV survey
- afspraken voor filtervragen
- afspraken voor onduidelijke antwoorden
- afspraken verwerking meerdere antwoordmogelijkheden
data-entry
data-cleaning
rol van statistiek
- inferentiële: modelleren van onzekerheid. hoe waarschijnlijk is een resultaat onder een bepaalde veronderstelling van een resultaat, wetenschap probaliteit
- beschrijvende statistiek
Modellen
beangrijkste structuur van een fenomeen weergeven
- structuurovereenkomst met de werkelijkheid die ze beschrijven
onafhankelijk van de werkelijkheid
Bivariaat symmetrische technieken
= verband beschrijven
- pearson correlatie (metrç’sch)
- spearman en kendall tau (ordinaal)
- kruistabbelen, chi² en odds ratio (nominaal)
Pearson Correlatiecoëfficient
- som v/d afwijkingen van de individuele score van het gemiddelde op variabele X
- maal de afwijking van de individuele score van het gemiddelde op variabele Y
- gedeeld door de standaarddeviaties van X en Y
- gecorrigeerd door de steekproefgrootte
Pearson correlatiecoëfficient oppassen
- uitschieters
- lineaire verdeling noet kwadratisch of longitudinaal
Chi² oppassen
- geen observaties => hercoderen en minder categoreën
- kleine steekproeven (N<20) fisher exact test
- 2x2 tabel: continuity correction (indien de verwachte waarde in 1 of meer <5
- 20% of meer cellen een verwachte frequentie <5
Odds ratio
= verhouding relatief risico
-hoeverre een score op de ene variabele een risicoverhoging geeft voor een score op de andere variabel
gebruikt
- logistischeregressie analyse
- beter pearson als de gegevens scheef verdeeld zijn
Parametrische toetsen met 2 groepen
assumptie
- gelijke verdeling van de populatie
- afhanekelijk variabel is een continu metrische
types
- onafhankelijke steekproeven
- varianties van beide populaties zijn gelijk
- varianties van beide populaties zijn nier gelijk
=> alternatieve berekeing van t en df
- afhankelijke steekproeven
=> geen varuiantie berkenene: gaan ervan uit bij dezelfde groep dat deze veranderd is
Niet-parametrische toetsen met twee groepen
Assumptie
- vervalt
Mann Whitney test
parametrische toetsen met meer dan twee groepen
assumptie
- normaal verdeeld in de populatie
- afhankelijke variable is een continu metrische variabele
afhankelijke
- anova: analyse of variance, F-toets, variantieanalyse
F-toets
- groter naarmate de between en de within variantie kleiner worden
- between: afwijking of verschillen tussen gemiddelde van de 3 groepen
- within: de variantie van de groepen zelf
sneller significant
- verschillen gemiddelden vrij groot en de spreiding tussen de groepen zeer klein zijn
=> conclusie globaal => tussen 2 groepen doen moet je een post hoc test doen
Niet parametrische toetsen met meer den twee groepen
assumptie
- afhankelijke variabel is ordinaal of metrisch
- niet-normaal verdeelde variabel
test
- kruskall wallis
likertschaal
- s reeks vragen/stellingen
- meten van concepten
- 4/5 tot 7 antwoordcatagorieën
- positie op een continu kenmerk weergeeft
schaaltechnieken
schaal als verzameling van items die geacht worden eenzelfde eigenschap te meten
cronbachs alpha
maat van intern consistentie waarbij er gekeken wordt naar de globale samenhang tussen variabelen
- variabelen of items in de schaal zijn ongeveer gelijk
- doel achterliggende houding, trak, attutude, …
wie hoog scoort op ene item, scoort hoog op het andere item
belangrijk
- over hetzelfde onderwerp
- schaal bevat voldoende items
- vragen andersom formuleren en dit afwisselend
relatieve maat: het varieert doordat het aan de hand van gemiddelde correlatiecoëfficient berekend is
0-1
- ondergrens .60-.80 => afhanekelijk van aantal items
weinig interne samenhang
1 schaal tweedmimensioneel
2 invers geformuleerde vragen
3 construct meerdere schale of dimensie bevat
correlatiematrix
= symmetrische maat van bivariate samenhang
eigenwaarde
= maat voor de verklaarde/gedeelde variantie van een principale componentanalyse
eigenwaarde groter dan 1 zijn om meer variantie te hebben dan in de individuele
indicatoren van principale component
- metrische variabel
- ordinaal: likert schaal (best 5-6 antwoordcategorieën)
- substantiële factorlading >.30
- opletten kruisladingen
Hoeveel componenten of factoren?
- afhankelijk van de structuur
- eigenwaarde criterium
- sree plot, scree criterium, knik criterium
- interpreteerbaarheid criterium
assumptie PC
- variabelen zijn normaal verdeeld
- niet te veel ruis in de meting: variablen betrouwbaar zijn
- relaties tussen de variabelen zijn lineair
- min interval meetniveau
Prediction
in hoeverre zeggen scores op de ene variabele of ene set van variabelen iets over een andere variabelen
- situaring regressieanalyse
forecasting
= als we weten dat wat X is, dan kunnen we Y voorspellen
- situering bij de regressieanalyse
e
=voorspelfout, gesommeerde afstand van de punten tot de rechte
- error, residuele fout, residu
als ei klein is wilt dit zeggen dat ^yi heel dicht is bij de echte ^y
= yi - ^yi
schattingsprocedure
fitten van de rechte = kleinste kwadrant
=> som van kwwadraten van de errortermen wordt geminimaliseerd
regressieanalyse
- vaak gebruikt
- voorspeellen, verklaren
- verklaren van een theorie
- theorievorming
- forecasting
- prediction
voordeel: info over voorspelling oplevere
nadeel: bouwen en interpretern van het model is niet altijd even gemakkelijk
Niet zomaar zoveel mogzlijk predictoren nemen om de R² zo groot mogelijk te maken, 2 overwegingen
- Inhoudelijke: theoretische overweging van het opnemen van voorspellers => anders black box benadering
- Kanskapitalisme: techniek kapitaliseert op toevallige, uniek combinaties
regressiegewichten
= welk gewicht elke X-variabele krijgt in de regressievergelijking
Gestandaardiseerde
- schaalonafhankelijk => -1 en 1
- niet inhoudelijk
- partiële correlatiecoëfficient: in de reeks ov na te gaan welke variabel het meest bijdraagt aan de AV. degene met het grootste regressiegewicht, kan onderling met elkaar vergelijken
Ongestandaardiseerde
- schaalafhankelijk: bepaald door de eenheid va de ov
- inhoudelijk
kwaliteit van voorspelling regressieanalyse
R²
= hoeveel van de variantie van y verklaard wordt door ov => goodness of fit maat
- laag: niet significant is
- verklarende variantie
adjusted R²
- gecorrigeerde maat voor hat aantal ov in het model
- zoeken spaarzaam model = parsimonious => ov die een impact hebben op de Av
voorwaarden regressieanalyse
1) X en Y zijn metrisch
- AV zeker
- OV kan verschil
- controleren door interpretatie en face validity
2) lineair verband tussen X en Y
- curvelineaire rechte gaat niet
- ander soort verband detecteert men niet
- scatterplot plotten en kijken naar de rechte
3) OV hangen onderling niet sterk aan elkaar
- multicollineariteit: problemen met de interpretatie e zorgt voor overlap => 1 uit de analyse laten
- variablene correleren met .80
- enkel variabelen meenemen die i-uniek bijdrage aan de voorspelling van y
- controleren correlatiematrix
4)outliners
3 extra assumpties: voorwaarden
1) waarneming zijn onafhankelijk, de kwaliteit van de voorspelling van de ene persoon is onafhankelijk van de andere persoon - de afstand t.a.v. de rechte. niet de bedoeling dat de afstand tot de rechte bepaald wordt door ander punt. - onafhankelijk steekproeven, waarbij de observatie niet beïnvloed wordt door steekproeven
: durbin-watson toets
2) voorspelfouten zijn normaal verdeeld
- errortermen zijn normaal verdeeld, agressieanalyse kan scheef zijn
=> av normaal erdeeld zijn, de afstand tot de rechte normaal verdeeld
- grote steekproef nodig
- oplossing logistische regressieanalyse: binair voorspellen of iemand in de groep zijn en niet kijke naar de spreiding
3) homoskedasticiteit:
- errortermen gelijk verdeeld zijn over de waarden van X
- puntenwolk dezelfde range heeft voor elke waarde van de OV.
- bandbreedte gelijk blijft
Durbin-Watson toets
kijken waarnemeningen onafhankelijk zijn
F-toets
uitvoeren om te kijken of men de afzonderlijke gewichten kan meten. INdien deze sgnificant is kan dit
R²
geeft aan hoeveel procent van de afhankelijke de onafhankelijke kan verklaren
Berekenen van regressieanalyse
1) R²
2) adjusted R²
3) nulhypothese maken
4) Ftoets
5) p-waarde
6) individuele kijken indien de F-toets significant is
7) B-waarde
- significant of niet
8) intercept
9) verklarind geven
10) 3 assumpties + 4 voorwaarden
nadelen correlatiecoëfficient
gevoelig voor uitlijners
maar-t voor lineaire samenhang => niet kwadratische samenhang
Controleren op onmogelijke antwoorden
1) outliners
2) onmogelijke combinaties
3) frequentietabel
4) kruitabel
strategieën bij ontbrekende waarden
1 niets doen
- litwise delition
- vertekening van de data => niet toevallig
2 imputatie
strategieën bij ontbrekende waarden
1 niets doen
- litwise delition
- vertekening van de data => niet toevallig
2 imputatie
strategieën bij ontbrekende waarden
1 niets doen
- listwise deletion
- vertekening van de data => niet toevallig
- zeker multivaiate analyse: verlies power, kleineere n
2 imputatie
- invullen missing value
- complexe of eenvoudige
- mogelijk vertekening
- probleem: uitgaan dat vraag toevallig niet is beantwoord => 2 analyses doen en kijken naar de correlatie
aard van de missing
MCAR: Missing Completely At Random
MAR: Missing At Random
MNAR: Missing Not At Random
variabelen klaarmaken voor analyse
Transformeren
Hercoderen
Sommeren
transformeren
bv. probleem met normale verdeling van de variabele ‘niets doen’ - robuuste techniek - indicatie van vertekening? transformatie betekenis van transformatie? ook hier: lapwerk…
Beschrijvende statistiek
maten centrale tendentie
maten voor spreiding
Inferentiele statistiek
- steekproeven en populatie
- omgaan met onzekerheid
- steekproefgrootte
- betrouwbaarheidsintervallen
- verdeling
Centrale tendentie
- beschrijvend emaat
- gemiddelde
- modus
maat coor spreiding
- beschrijvende statistiek
- variantie
- standaarddeviatie
- range: : spectrum van je waarneming
fout gaan bij omgaan onzekerheden
- te kleien steekproef
- te veel ruis in de data dat samenhang in de ruis verdwijnt
- assumptie van toetingsprocedure geschonden