Begreper Flashcards
Populasjon
Er om vi trekker et utvalg fra en stor gruppe som vi vil vite noe om, dvs. Generalisere til.
Hvilken sammenheng er det mellom feilmarginen (uttrykt gjennom konfidensintervall eller signifikansnivå) og antall observasjoner i et utvalg?
Jo flere observasjoner vi har i et sannsynlighetsutvalg, desto mindre blir feilmarginen.
Nominalnivå
Er om vi har samlet inn data som gjør at vi kan gruppere observasjonene våre, men ikke rangere de. (Eks kjønn og fødselsår)
Bivariat analyseteknik som anvendes på dette nivået er krysstabulering.
Forholdstallnivå
Er om vi har data hvor vi kan si noe om avstanden mellom observasjonene, og det også finnes et absolutt nullpunkt for dataene. (Eks lønn i kroner og alder i år)
Bivariat analyseteknik som anvendes på dette nivået er kovarians og korrelasjon
Hvilket målenivå bør variablene ha når du beregner korrelasjon mellom to variabler?
Minimum ordinalnivå, men helst intervallnivå- eller forholdhstallsnivå. (om man har data på ordinalnivå, bør man vurdere å bruke spearmans korrelasjon istedenfor pearson).
P-verdien eller signifikansnivået
Er verdien som sier noe om sannsynligheten for å ta feil hvis vi forkaster nullhypotesen
Type 1-feil
Er da vi feilaktig forkaster nullhypotesen
Type 2-feil
Er da vi beholder en usann nullhypotese
Faktoranalyse
Er en analyse vi kan gjøre for å redusere antall relaterte variabler til overordnede begreper (latente variabler) eller dimensjoner
Clusteranalyse
To typer:
Hierarkisk- Baseres på analyse av trestrukturer. Dendogram anvendes for å identifisere anbefalte Cluster, oppdeling skjer utifra likhet mellom datapunkter.
Ikke-hierarkisk- K-means clustering metoden. Forskeren bestemmer hvor mange cluster man ønsker å dele inn i sitt case. Oppdelingen skjer utifra likhet mellom datapunkter og maksimalt avstand mellom cluster.
En analyse vi kan bruke om vi vil segmentere eller gruppere enhetene/respondentene våre
“Sensitive data” eller “særlig kategori personopplysninger”
Nevnt i pensum: Helse, politisk oppfatning, religion, etnisitet, seksuell orientering, fagforeningstilhørighet, tidligere straffedommer.
Minste kvadraters metode. (MKM/OLS)
Er når vi prøver å minimere de kvadrerte avvikende mellom en lineær modell og de enkelte datapunktene i en regresjonsanalyse
Ordinalnivå
Kan rangeres på logisk sett, verdiene utrykker nivå, kvalitet eller stilling i en serie. (Eks Utdanningsnivå og hvor mye man liker is. (1-5) ).
Bivariat analyseteknik som anvendes på dette nivået er rangkorrelasjon
Intervallnivå
Kan klassifiseres og rangeres, samt spesifisere intervaller mellom verdiene. Har ingen naturlig nullpunkt (Eks temperatur og tidsberegning)
Bivariat Analyseteknik som anvendes på dette nivået er Kovarians og korrelasjon
Krysstabulering
Anvendes når vi studerer sammenheng av to variabler som er på nominalnivå
Målet er å kunne spore sammenhengen og mønster.
Med krysstabulering undersøker vi:
- Hvordan observasjoner fordeler seg på kombinasjoner av verdier på to variabler.
- En fordeling av antall observasjoner
- En prosentfordeling av observasjoner
Korrelasjon
Formål med å analysere korrelasjon er :
- Evaluere lineær samvariasjon på variabler på intervallnivå og forholdstallnivå
- Beregning av statistisk mål for samvariasjon
Samvariasjon:
- Gir en indikasjon på sammenheng mellom to variabler
- Analysen gjennomføres gjennom å beregne Pearsons r.
Vi ser korrelasjonen gjennom Pearson r (-1 til 1), vi ser om det er positiv eller negative tall mellom to variabler:
Skala:
0-0,19 = veldig svak
0,2-0,39 = svak
0,4- 0,69 = moderat
0,7 - 0,89 = Høy
0,9 - 1 = Veldig høy
Rangkorrelasjon
Formål med å analysere rangkorrelasjon er:
- Evaluere samvariasjon mellom to variabler på ordinalnivå
- Beregning av statistisk mål for samvariasjon
Analysen gjennomføres gjennom å beregne: Spearman´s rho
Veldig lik vanlig korrelasjon, men her ser vi sammvariasjon mellom to variabler på ordnialnivå.
Samme skala for Spearman´s rho som Pearson R
Scatter- Plots
I spss får man informasjon om korrelasjon i scatter plots
Hvor tett observasjonene ligger linjen, sier noe om hvor høy/lav korrelasjonen er. Går den linære streken opp mot høyre er den positiv, går den langs er det ingen korrelasjon, går den ned mot venstre er den negativ.
Hva er en Regressjonsnsalyse
En statistisk metode for å studere sammenheng mellom variabler.
Vi ønsker å studere hvordan en endring i en variabel forklarer og påvirker en annen variabel.
Uavhengig variabel (X):
- Ofte en variabel som inntreffer først og påvirker avhengig variabel (y)
Avhengig variabel (effektvariabel eller Y)
- y
- Effekt
Utdanningsnivå (X) ——-> inntekt/lønn
Kompetanse ———> Produktivitet
Enkel og multipel regresjonsanalyse
Enkel regressjons modell:
Likning - Y= B0 + B1x
Multipel regressjons analyse:
Likning - Y= B0. + B1X1 + B2X2 ….. BK Xk
Y= Verdi for den avhengige variabelen
X1-k = verdi for den avhengige variabelen
B0 = Konstantleddet ( verdien på Y når alle xène = 0
B1-K = Regressjonsparameteren (Heldningsgraden) Hvor mye Y øker med når X øker med 1
K= antall uavhengige variabler
Tolkning av en regresjonsanalyse
Adjusted R square = Forklaringskraft
- modell summary ser du forklaringskraften. I prosent forklarer den om de uavhengige variablene har en påvirkning/effekt på den avhengige variabelen.
- F-test ( Anova), da ser du om modellen vår er signifikant, om den er signifikant så har minst en av de forklaringsvariablene en signifikant effekt på y
- t-test ( Coefficients), da ser du om våre uavhengige variabler er signifikante. hva er de ulike betaene for variablene, og det sier noe om de er negative eller positive.
Tolkning av k-means clustering
- Antall case i hver cluster (SPSS under number of cases in each cluster
- Hva respondenter i ulike cluster syns (SPSS under Final cluster centers
- Om respondenter i ulike cluster syns signifikant forskjellig (SPSS: Anova)