Fundament for statistik Flashcards
Fundament for statistik, beskrivende statistik, fejltyper og terminologi
Hvad er population (befolkning) og stikprøve?
Populationen er den gruppe, man er interesseret i at undersøge (f.eks. Danskere)
Indenfor statistik er en stikprøve (eller sample) en delmængde af en population. Stikprøven er en randomiseret udvælgelse derfra (en delmængde af befolkningen).
Baseret på stikprøven, kan man lave inferens. Man skal derfor være obs på, om stikprøven er repræsentativ for befolkningen.
N = stikprøvens størrelse
Hvad er intern validitet?
Spørgeskemaet måler, hvad du har til hensigt at måle.
Bruger typisk litteratur og andres forskning.
Hvad er ekstern validitet?
Forskningsresultater kan overføres til en større befolkning og generel kontekst.
Man skal tjekke, om det er overførbart ift. konteksten.
Hvad er reliabilitet?
Pålidelighed
Spørgeskemaet giver konsistente resultater under forskellige omstændigheder
Hvad er norminal måleniveau?
Kategorierne på variable er gensidigt udelukkende.
Ikke muligt rangordne eller sige noget om afstand mellem dem.
(f.eks. køn).
Kategorisk
Hvad er ordinal måleniveau?
Kategorierne på variable er gensidigt udelukkende.
Muligt rangordne.
Typisk kategorisk –> men ved en likert-skala kan det bruges som kontinuerligt
Hvad er interval måleniveau?
Kategorierne på variable er gensidigt udelukkende.
Muligt rangordne.
Muligt at fortolke afstande.
Ligeligt delt skala, men intet absolut nulpunkt.
(fx eksisterer ”ingen” temperatur).
Hvad er ratio/forhold måleniveau?
Kategorierne på variable er gensidigt udelukkende.
Muligt rangordne.
Meningsfuld at fortolke forholdet mellem to enheder.
Et absolut nulpunkt.
(fx alder – en person har dobbelt så høj alder, som en anden).
Hvorfor kan man ikke sætte kategoriske variabler ind i noget, hvor der regnes gennemsnit?
Det kan man ikke, fordi de gensidigt udelukker hinanden.
Hvad skal man være særlig opmærksom på ved spørgeskemaer?
Ved spørgeskemaer kan udefrakommende faktorer påvirke den afhængige variabel og dermed være den faktiske årsag.
Hvad er skew?
Hvordan fordelingen er ift. gennemsnittet.
Er der tendens til at dataen er meget til venstre (positiv) for gennemsnittet, eller meget til højre (negativ) for gennemsnittet.
Hvad er kurtosis?
Handler om tykkelsen (koncentrationen) af halerne og/eller midten af fordelingen.
Hvor bred (negativ - stor grad af variation) eller snæver (positiv - lille grad af variation) er normalfordelingen.
Hvad ville en stærk positiv kurtosis betyde?
Det kan betyde, at der er en øget koncentration af data omkring den centrale tendens (for eksempel gennemsnittet), og samtidig kan der være flere ekstreme observationer (outliers) i datasættet.
Hvordan ser man de centrale tendenser?
Middelværdi (the mean) = Summen af værdierne divideret med antallet af værdier inkluderet i summen.
Medianen (the median) = Det talmæssige midtpunkt i dataene.
Typetallet (the mode) = Der er den værdi, der forekommer oftest i dataene.
Hvad er de forskellige måder at forklare varians?
Deviation (varians/afvigelse): Angiver forskellen mellem en enkelt observation og gennemsnittet af datasættet.
Range (spredning): Forskellen mellem den største og mindste værdi i en datasæt.
Standard Deviation (standardafvigelse): Det angiver, hvor meget de gennemsnitlige afvigelser typisk afviger fra gennemsnittet. (Jo højere standardafvigelsen er, desto større varians i dataen.)
Hvad er interkvartilområdet?
Der hvor 50 pct. af ens data
Hvilke fejltyper er der?
Type 1 fejl: Falsk positiv (til en mand –> du er gravid)
Type 2 fejl: Falsk negativ (til en gravid kvinde –> du er ikke gravid)
Hvad er den afhængige variabel?
Den variabel, man ønsker at måle (det centrale i ens opgave) (fx indkomst)
Hvad er den uafhængige variabel?
Det man tror, der påvirker den afhængige variabel.
Den bruges til at forklare en ændring i den afhængige (fx uddannelsesniveau)
Hvad er medierende variabel?
Det der transmitterer effekten mellem afhængig og uafhængig variabel (fx færdigheder)
Hvad er modererende variabel?
Det der påvirker styrken mellem den uafhængige og afhængige variabel (f.eks. biologiske køn).
Hvad er en hypotese?
En hypotese er en testbar erklæring om forholdet mellem to eller flere variabler eller en foreslået forklaring på et observeret fænomen.
Hvis spørgsmålet er: Er der en association mellem uddannelsesniveau og indkomst?
Hvad er så nul hypotesen?
Der er ingen association mellem
uddannelsesniveau og indkomst.
Hvis spørgsmålet er: Er der en association mellem uddannelsesniveau og indkomst?
Hvad er så den alternative hypotese?
Der er en association mellem
uddannelsesniveau og indkomst.
Hvorfor opstiller vi nulhypoteser?
Formålet med at opstille en nulhypotese er at teste og evaluere, om der er signifikante forskelle eller sammenhænge i data.
Hvad er omstændigheder i statistik?
Handler om, hvorvidt det er kategorisk eller kontinuerlig data
Hvad er kategorisk data?
Når variablerne er gensidigt udelukkende
Hvad er kontinuerlige data?
Når variablerne kan rangordnes
Hvad er forskellen på beskrivende og inferentiel statistik?
Ved beskrivende statisk opsummere man bare den data man har (f.eks. Middelværdi og standardafvigelser)
Inferentiel statistik er, når man søger at udlede resultater til hele populationer. Det er altså når man reelt tester sine hypoteser.