Föreläsning 4 - Datahantering Flashcards
Hur ser processen ut för att hantera data?
- Skapa struktur
- Mata in data
- Rengöra data
- Beskriv data
- Omvandla data (valfri)
- Skapa en kodbok
Om man manuellt måste mata in data, vad är viktigt att se upp för?
Fel värden
Dubletter
Missade data
När man rengör data, vad bör man tänka på?
Felaktigt inmatade data
Misstänkt svarsmönster
Hantera extremvärden
Hanterade missade data
Att fånga felaktigt inmatade data är lika viktigt som att inte mata in dåliga data på egen hand. Hur kan sådant uppstå?
I en situation där intervjuaren har influerat svaren som samlats in. Kan göras medvetet eller omedvetet.
Datainmatningsfel från undersökningsteamet eller från respondenten som av misstag matat in fel data tex stavat fel.
Vissa svarsmönster borde väcka misstanke, vilka?
Straight liners: en respondent ger samma svar på alla frågor, dvs bara klickar sig igenom. Man kan hitta detta genom att använda omvända skalor på vissa frågor.
Inkonsekventa svar: en respondent svarar olika på samma frågor eller svar som går i konflikt med varandra.
Det finns tre typer av extremvärden, vilka?
Misstag
Enstaka ytterligheter
Kombinerade ytterligheter
Vilka typer av missade data finns?
Inga svar i enkäten från en respondent
Alla frågor är inte besvarade av en respondent
Det finns tre fall av missade data, vilka?
MCAR: data är borta slumpmässigt
MAR: den missade datan är beroende av en variabel
MNAR: den missade datan är beroende på svaret på frågan
Nämn exempel på univariata grafer och tabeller.
Histogram, stapeldiagram, box plot, frekvenstabell
Vad säger univariat statistik?
Ger oss en uppfattning om hur värden fördelas för en enskild variabel.
Exempelvis medelvärde, median, utspridning (varians och standardavvikelse)
Vad är skewness och kurtosis?
Båda är mått på karaktär på en normalfördelning.
Skewness = symmetrin på fördelningen. Negativ betyder längre svans åt vänster, positiv tvärtom.
Kurtosis = hur spetsig fördelningen är. Låg betyder en mer flack topp, hög tvärtom.
Vad säger bivariat statistik?
Beskriver relationen och sambanden mellan två variabler.
Nämn grafer och tabeller för bivariat statistik.
scatter plot, crosstabs.
Vad är kovarians?
Beskriver i vilken utsträckning två variabler varierar gemensamt. Svår att använda i praktiken.
Vad är korrelation?
Beskriver sambandet mellan två variabler. Mycket lättare att använda i praktiken.
0,00<r<0,30 –> svagt samband.
0,30 < r < 0,49 –> medel samband.
0,50 < r < 1,00 –> stark