Tentafrågor Flashcards
När bör du använda icke-parametriska metoder?
Icke-parametriska metoder bör användas antingen om den beroendevariabel vi vill mäta är på ordinal- eller kategoriskala. Vi bör även använda dessa metoder om datan ej är normalfördelad eller inte har homogen varians.
Parametriska metoder vill vi använda om beroendevariabeln är på intervall- eller kvotskala, samt om datan är normalfördelad och har homogen varians. Vi vill använda parametriska metoder när dessa kriterier är uppfyllda eftersom det kommer ge vår beräkning högre statistisk power; det vill säga att vi kan säga att vi har högre sannolikhet att effekten vi finner verkligen är sann.
Vad är bayesfaktorn ett mått på och hur skiljer det sig från p-värdet?
Bayesfaktorn är ett mått på signifikans och används vid signifikanstestning. Bayesfaktorn tar ställning till båda hypoteser (H1 och H0) och är ett värde på förhållandet mellan dessa. Om bayesfaktorn är 1 så är det lika sannolikt för båda hypoteserna. P-värdet mäter sannolikheten att få ett resultat som stödjer H1 givet att H0 är sant.
Bayesfaktorn = Sannolikheten för vårt resultat givet att H1 är sant / Sannolikheten för vårt resultat givet att H0 är sant.
Bayesfaktorn kräver att man gör ett antagande från den population man vill studera. Detta kan bli ett problem då antaganden riskerar att bli subjektiva. Man kanske tror att stödet för H1 är större än vad det faktiskt är.
Varför är det viktigt att visuellt inspektera ”scatterplots” då du tittar på korrelationer. Ange ett par situationer där korrelationen kan bli missvisande då en visuell inspektion inte gjorts?
Det är viktigt att inspektera scatterplot vid korrelationer eftersom det låter oss se alla datapunkter. De företeelser som kan vara problematiska är om vi upptäcker att det finns så kallade outliers bland datapunkterna. Outliers är extremvärden och kommer därför påverka genom göra korrelationen avsevärt mycket starkare än om den inte hade funnits med.
En annan anledning till att vi vill göra en visuell inspektion är att vi kan då också får reda på att vi verkligen har ett linjärt samband. Det kan visa sig när vi ser på scatterploten att datapunkterna fördelar sig på ett sätt som bättre representeras av ett icke-linjärt samband och då blir det fel om vi använder oss av ex. pearsons korrelationskoefficient som används för linjära samband och applicering av den på dessa samband skulle ge en felaktig representation av det. Om vi upptäcker att datapunkterna verkar ha ett icke-linjärt samband bör vi använda oss av andra uträkningar.
När vi gör en visuell inspektion kan vi också finna att datapunkterna klustrar sig i varsitt hörn av “griden”. Det här kan leda till att vi med en uträkning av korrelationen skulle få ett mycket starkt samband. Det vi däremot bör tänka när detta uppstår är att det kan hända att vi har mätt två olika populationer. Om vi hade gjort varsin beräkning av populationerna var för sig kanske vi hade upptäckt att det inte hade funnits något korrelerande samband inom dem. Det här innebär att vi eventuellt har framkallat ett skensamband om vi har gjort en korrelation med två populationer.
Slutligen kan även upptäcka med visuell inspektion att vi kan ha haft för begränsad vidd på en av våra variabler när vi har samlat in data. Det här förklaras med att vi kanske upptäcker när vi tittar på vår scatterplot att alla våra datapunkter bara varierar mellan ett fåtal värden på x axeln och att vi inte har en korrelation. Vi kan då fundera på om vi skulle täcka in fler värden på x-axeln om det kanske skulle innebära att korrelationen också kunde öka i styrka och visa på ett samband mellan variablerna.
Du har bland ett slumpmässigt urval individer via enkäter skattat individernas upplevda lycka, hur ofta de vistas i naturen, mängd vänner, inkomst, demografiska variabler etc. Hur går du tillväga om du med hjälp av multipel regression vill testa den specifika hypotesen att människor som vistas mycket i naturen är lyckligare än de som vistas mindre eller inte alls i naturen?
I det här exemplet är det alltså “upplevd lycka” som är kriterievariabeln och “vistelse i natur”, “mängd vänner” “inkomst” och övriga demografiska variabler som är prediktorvariabler för vår multipla regression. Om jag vill testa den specifika hypotesen om att personer som vistas mycket i naturen predicerar högre upplevd lycka så kan jag använda mig av en hierarkisk (multipel) regression.
Den påbörjar jag med att lägga in några prediktorvariabler åt gången. Till exempel börjar jag med att lägga in de demografiska variablerna och hur dessa predicerar för upplevd lycka och ser vilka värden jag får. Därefter kan jag lägga in följande prediktorvariabler efter varandra och se hur detta påverkar regressionskoefficienten och hur mycket förklarad varians det ger. I sista steget vill jag lägga in den prediktorvariabel som jag har formulerat min hypotes kring, d.v.s. hur mycket personer vistas i naturen. När jag slutligen har lagt in den ska jag undersöka hur värdena i regressionen förändras och hur mycket mer förklarad varians den slutgiltiga modellen ger. Om förändringen i förklarad varians är statistisk signifikant så kan jag därefter uttala mig om att mycket vistelse i naturen predicerar för upplevd lycka.
Ge en så bra beskrivning som möjligt av vad “total varians” innebär vid en oberoende envägs ANOVA.
Vid en oberoende envägs-ANOVA avser total varians summan av alla värdens kvadrerade avvikelser till det totala medelvärdet för uträkningen.
Man kan även uttrycka det som att den totala variansen är summan av den systematiska variansen och felvariansen. Därför utgörs den av både den skillnad i medelvärden som finns mellan grupperna (systematisk varians) och även den skillnad i värden som finns mellan individerna och sin egen grupps medelvärden.
F-värdet är systematisk varians/felvarians. Ge en djupare beskrivning om vad de två olika typerna av varians innebär och hur de hänger ihop med F-värdet.
Systematisk varians avser den varians som består det finns en skillnad mellan grupperna. Den beräknas genom att se hur mycket gruppernas medelvärden skiljer sig från det totala medelvärdet/grand mean eller medelvärdet hos ex. en kontrollgrupp. Denna skillnad kan alltså sägas bero på den manipulation som har skett av oberoende variabeln mellan betingelserna. Systematisk varians är samma sak som förklarad varians.
Felvarians avser den varians som består av att det finns en skillnad mellan de individer som ingår i grupperna och beräknas genom att se hur varje individ/värde/mätpunkt skiljer sig från medelvärdet i den grupp den ingår i. Felvarians kan även kallas residualer eller oförklarad varians. Det avser alltså den varians hos våra värden/vår data som inte kan härledas till manipulationen av oberoende variabeln.
F-värdet beräknar vi genom ANOVA-beräkningar. När vi beräknar F-värdet vill vi dividera den systematiska variansen med sina tillhörande frihetsgrader och felvariansen med sina tillhörande frihetsgrader för att få Mean square för bägge. Därefter vill vi dela Mean square för systematisk varians med mean square för felvariansen och det är denna division som ger oss F-värdet. När F-värdet är högre än 1 vet vi att den systematiska variansen utgör en större andel av skillnaden mellan grupperna/betingelserna än felvariansen. Om vi jämför F-värdet med de kritiska F-värden som finns kan vi i nästa steg uttala oss om huruvida det finns en statistisk signifikant skillnad mellan betingelserna i vår ANOVA.
Vad behöver man tänka på när man designar en studie om man vet att man kommer att behöva använda post-hoc test med korringering för multipla jämförelser?
Multipla jämförelser kan exempelvis behöva genomföras när vi använder oss av ANOVA. Om ANOVA-uträkningen visar på ett statistiskt signifikant resultat kan vi ej veta mellan vilka betingelser skillnaden finns. När vi gör multipla jämförelser utsätter vi oss för något som kallas massignifikansproblemet. Det innebär att för varje följande signifikanstestning ökar vi risken att begå ett typ I-fel; att vi felaktigt förkastar nollhypotesen och antar alternativhypotesen. Det här vill vi undvika genom att exempelvis göra en Bonferroni-korrigering. Den genomför vi genom att dividera vår valda alfa-nivå (som oftast är 0.05) med antalet post hoc-jämförelsetest vi avser att göra. Det här kommer ge en ny alfa-nivå som blir mer strikt för att ge signifkanta resultat. För att vår data ska klara av den nya, striktare alfa-nivån skulle vi exempelvis behöva ha ett tillräckligt stort stickprov eller ha en tillräckligt stark effekt av vår manipulation för att vi fortfarande ska kunna få resultat som uppnår signifikansnivån mellan betingelserna efter vår Bonferroni-korrigering.
Beskriv skillnaden mellan latenta och manifesta variabler samt hur de är relaterade till varandra. Illustrera med ett fiktivt eller verkligt exempel
En manifest variabel avser variabler som är verkliga och direkt mätbara. För att utgå från ett exempel från en tidigare fråga skulle “vistelse i naturen” gå att betrakta som en manifest variabel eftersom vi kan basera den variabeln på hur lång tid eller hur ofta personer är ute i naturen.
Skillnaden mot latenta variabler är att dessa är variabler som ej är direkt mätbara, men som kan mätas genom manifesta variabler och som kan sägas finnas genom att manifesta variabler korrelerar och har samband med varandra. Exempelvis kan vi säga att två manifesta variabler “vistelse i naturen” och “hur duktig man är på återvinning” verkar ha ett samband med varandra. Det innebär att vi eventuellt kan tala om att det kan finnas en latent variabel, som kan förklara varför de här hör ihop och eventuellt andra manifesta variabler. Kanske det här handlar om en latent variabel om man är “miljöpolitisiskt intresserad” eller “engagerad i att ta hand om naturen”.
Hur kvantifierar vi relationen mellan manifesta variabler och faktorer? Av beskrivningen ska framgå vad måttet heter samt hur man beräknar det.
Vi kan kvantifiera relationen mellan manifesta variabler och faktorer genom faktorladdningar. Detta mått avser hur mycket den manifesta varibeln korrelerar med faktorn (latenta varibeln). Vi får måttet genom att först och främst ta reda på hur alla manifesta variabler korrelerar med varandra; vi tar fram en korrelationsmatris. Därefter kan vi ta reda på hur mycket varians alla våra manifesta variabler förklarar genom att titta på eigenvalues och screeplot. Utifrån detta vill vi välja hur många faktorer vi vill använda oss av. Om vi då använder oss av tre faktorer kan vi sedan beräkna hur mycket varje manifest variabel korrelerar med de faktorer vi har valt. Vi kommer då kunna se att variablerna korrelerar olika med varje faktor vi har tagit fram. Då kan vi se hur varje variabel relaterar till varje faktor.
Planera en systematisk översikt som innefattar en metaanalys. Vilka steg bör ingå?
Det första steget är att definiera en forskningsfråga att undersöka. Här handlar det delvis om att vara tillräckligt snäv för att vår studie skall kunna jämföra olika resultat från andra studier, men man behöver också vara tillräckligt bred för att kunna hitta en tillräcklig mängd redan genomförda studier som rör forskningsområdet.
I nästa steg behöver vi bestämma tillvägagångssätt att utföra studien. Hur ska vi hitta studier, vilka inklusions- och exklusionskriterier ska vi ha för vår metaanalys etc.
Sedan söker vi litteratur. Vi kan ta hjälp av olika databaser och sökord som relaterar till vårt forskningsområde. Vi behöver också sålla i litteraturen i enlighet med våra inklusions- och exklusionskriterier för att slutligen välja ut exakt vilka studier vi kommer använda oss av i metaaanalysen. Här vill vi även se till att gräva lite bland studier som ej har blivit publicerade. Ibland publiceras inte studier på grund av de inte har fått resultat som är i linje med deras forskningsfrågor. Att ta del av dessa är relevant för en metaanalys, eftersom de kan balansera ut alla andra studier som visar på effekt. Genom att inkludera dessa studier kan vi kanske finna ett resultat i metaanalysen som blir mer representativt för populationen/är mer sanningsenligt.
När vi har valt vilka studier som skall ingå behöver vi koda dessa. Detta kan man göra utifrån att titta på vilka deltagare, interventioner, kontrollgrupper och utfallsmått som de olika studierna har. Man kan även koda för vilka länder de kommer ifrån eller annat.
Sedan vill vi beräkna effektstorlekar för vår metaanalys. Då måste vi ha sett vilka mått de använder sig av i de studier vi har läst och hur vi kan sammanföra dessa på bästa sätt.
Det måste vi följa upp med att undersöka om studiernas effektstorlekar är homogena. När vi gör metaanalys behöver vi ta reda på att resultaten vi inkluderar har tillräcklig homogenitet. Om resultatet visar på för stor heterogenitet blir det svårt att hävda att det resultat som metaanalysen får fram är tillräckligt säkert och användbart.
Vi kan sedan titta närmare på de studier som ingick i studien och specifikt titta på de som visade på en effekt är relevant för metaanalysens forskningsfråga. Man vill titta på om det fanns något särskilt som utmärkta att de hade fått ett resultat och hur det jämför sig mot studier som kanske inte hade lika tydliga resultat.
Slutligen behöver man också ta ställning till sitt eget jäv och bias. Att också granska sina egna metoder och kriterier och om en egna uppfattningar om forskningsområdet kan ha påverkat resultatet man har kommit fram till.
Problematisera kring användandet av p<.05.
Det första vi kan problematisera är att p-värdesgränsen < 0.05 är godtyckligt satt. Det kommer av att vi säger att vi kan tolerera 5% risk att begå ett typ I-fel i det långa loppet. I praktiken är det ett användbart kriterie att använda sig av i forskning, men det innebär också att vi sätter en hård gräns och är benägna att bedöma studier som har p-värden som är strax över 0.05, ex. 0.06 som otillräckliga och kan även leda till att de ej publiceras även om den effekt de har kunnat undersöka hade kunnat bidra med användbar information.
Vi kan även problematisera om att vilket p-värde vi får och hur väl vi kan uppnå gränsen på 0.05 är beroende på hur stort stickprov vi använder oss av. Om vi har ett jättestort stickprov kommer vi alltid kunna finna statistisk signifikans, även om effekt vi hittar, i sig inte är viktig eller relevant i vissa lägen.
Det finns också en risk att forskare, media eller allmänheten misstolkar vad p-värdet innebär. Man kan tendera att förväxla det med att studier har gett viktiga resultat, eller att det säger något om hur stor en effekt är. Det kan inte p-värdet säga. P-värdet avser bara hur stor sannolikheten var för vårt resultat om nollhypotesen har varit sann. Vi kan inte säga att nollhypotesen är falsk utifrån detta, utan vi kan bara säga att vi kan anta alternativhypotesen och samtidigt acceptera 5% risk att ha begått ett typ I-fel.
När används parametriska respektive icke parametriska metoder? Vilka är de eventuella fördelarna och nackdelarna med respektive metod?
Parametriska metoder används när datan är normalfördelad (att kurtosis och skewness = 0). Det ska finnas en homogen spridning i de olika betingelserna och datan ska vara i en “högre” skalnivå, alltså intervall eller kvotskala. Icke-parametriska metoder kan användas när datan inte är normalfördelad då det alltså inte är meningsfullt att beräkna medelvärde och standardavvikelse. Icke-parametriska metoder används när datan anges i nominal eller ordinalskala. Icke-parametriska metoder har en lägre statistisk power än parametriska metoder, därför ska parametriska metoder användas i de fall det är möjligt.
Förklara kortfattat vad
(a) den kvadrerade korrelationskoefficienten beskriver?
(b) den icke-standardiserade regressionskoefficienten beskriver?
(c) den standardiserade regressionskoefficienten beskriver?
a) Determinationskoefficienten, detta anger andelen förklarad varians, alltså hur stor del av variansen i BV som förklaras av manipulation av OBV. Determinationskoefficienten används ofta som ett mått på effektstorlek.
b) Den icke-standardiserade regressionskoefficienten beskriver lutningen av regressionslinjen i de enheter som är specifika för analysen. Denna typen av regressionskoefficient kan därför inte jämföras med andra enheter.
c) Den standardiserade regressionskoefficienten anger lutningen av regressionslinjen i standardavvikelser istället för den enhet som är specifik för analysen. Detta gör att regressionskoefficienten kan jämföras med andra analyser och resultat.
Vad menas med Bayesfaktorn? Ge en kort definition, och ange också något argument till varför BF kan vara att föredra framför det traditionella p-värdet.
F-ration är det viktigaste statistiska värdet vid ANOVA. A) Av vilka två typer av varians beräknas ration? B) Vad beskriver de två olika typerna av varians? C) Varför delar den ena med den andra?
a) Systematisk varians och felvarians b) Systematisk varians utgör den delen av den totala variansen som kan förklaras av vår modell, alltså den delen av variansen i BV som förklaras av manipulation i OBV. Felvarians utgör den delen av den totala variansen som inte kan förklaras av vår modell utan istället skulle kunna förklaras av slumpen eller ovidkommande variabler. c) Vid beräkning av f-ration delas den systematiska variansen med felvariansen vilket ger ett mått på hur många gånger större den systematiska variansen är än felvariansen. Detta ger alltså ett värde på hur stor den systematiska variansen är i jämförelse med felvariansen.
Hitta på och beskriv två psykologistudier där du använder dig av en oberoende envägs-ANOVA respektive mixad tvåvägs-ANOVA 2p
Varför är interaktionseffekter mer intressanta om vi finner dem, än huvudeffekter vid tvåvägs- ANOVA?
Förklara följande begrepp: (2p) a) Latenta variabler
b) Manifesta variabler
a) Latenta variabler är underliggande, icke-observerbara variabler som inte går att mäta eller undersöka direkt. De latenta variablerna är de faktorer som vi vid en faktoranalys vill ha ett mått på. Ett exempel på latenta variabler kan vara olika personlighetsdimensioner.
b) Manifesta variabler är observerbara variabler som vi kan mäta och undersöka direkt. Enligt exemplet ovan med personlighetsdimensioner skulle en manifest variabel kunna vara ett item på ett personlighetstest. I en faktoranalys vill vi undersöka förhållandet mellan den manifesta och latenta variabeln.