Föreläsning 4 - Datahantering Flashcards
Hur ser processen ut för att hantera data?
- Skapa struktur
- Mata in data
- Rengöra data
- Beskriv data
- Omvandla data (valfri)
- Skapa en kodbok
Om man manuellt måste mata in data, vad är viktigt att se upp för?
Fel värden
Dubletter
Missade data
När man rengör data, vad bör man tänka på?
Felaktigt inmatade data
Misstänkt svarsmönster
Hantera extremvärden
Hanterade missade data
Att fånga felaktigt inmatade data är lika viktigt som att inte mata in dåliga data på egen hand. Hur kan sådant uppstå?
I en situation där intervjuaren har influerat svaren som samlats in. Kan göras medvetet eller omedvetet.
Datainmatningsfel från undersökningsteamet eller från respondenten som av misstag matat in fel data tex stavat fel.
Vissa svarsmönster borde väcka misstanke, vilka?
Straight liners: en respondent ger samma svar på alla frågor, dvs bara klickar sig igenom. Man kan hitta detta genom att använda omvända skalor på vissa frågor.
Inkonsekventa svar: en respondent svarar olika på samma frågor eller svar som går i konflikt med varandra.
Det finns tre typer av extremvärden, vilka?
Misstag
Enstaka ytterligheter
Kombinerade ytterligheter
Vilka typer av missade data finns?
Inga svar i enkäten från en respondent
Alla frågor är inte besvarade av en respondent
Det finns tre fall av missade data, vilka?
MCAR: data är borta slumpmässigt
MAR: den missade datan är beroende av en variabel
MNAR: den missade datan är beroende på svaret på frågan
Nämn exempel på univariata grafer och tabeller.
Histogram, stapeldiagram, box plot, frekvenstabell
Vad säger univariat statistik?
Ger oss en uppfattning om hur värden fördelas för en enskild variabel.
Exempelvis medelvärde, median, utspridning (varians och standardavvikelse)
Vad är skewness och kurtosis?
Båda är mått på karaktär på en normalfördelning.
Skewness = symmetrin på fördelningen. Negativ betyder längre svans åt vänster, positiv tvärtom.
Kurtosis = hur spetsig fördelningen är. Låg betyder en mer flack topp, hög tvärtom.
Vad säger bivariat statistik?
Beskriver relationen och sambanden mellan två variabler.
Nämn grafer och tabeller för bivariat statistik.
scatter plot, crosstabs.
Vad är kovarians?
Beskriver i vilken utsträckning två variabler varierar gemensamt. Svår att använda i praktiken.
Vad är korrelation?
Beskriver sambandet mellan två variabler. Mycket lättare att använda i praktiken.
0,00<r<0,30 –> svagt samband.
0,30 < r < 0,49 –> medel samband.
0,50 < r < 1,00 –> stark
Vad gör Chi-square test?
Testar ifall fördelningen av en kategori följer den förväntade fördelningen.
När använder man ett one-sample chi-square test?
När man vill testa om fördelningen över en kategori följer den förväntade fördelningen.
När använder man chi-square test of independence?
När man vill testa för flera kategorier.
Vad är kraven för chi-square?
inga frekvenser som är 0
Förväntade frekvenser ska vara större än 5
På vilka två sätt kan data omvandlas?
Genom att omdefiniera variabeln, tex från kontinuerlig till kategorisk.
Genom att omvandla skalan.
Vilken struktur gäller för en kodbok?
Introduktion
Frågor
Variabeldefinitioner
Deskriptiv statistik
Datasets