Ord Flashcards
Ord
Sfäricitet
Variansen för skillnaderna mellan de olika nivåerna ska vara lika (Mauchlys test: p ej signifikant (p > 0,05) -> sfäricitet råder-> samma korrelation mellan behandlingsnivåerna).
Greenhouse-Geisser och Huynh-Feldt
Används vid repeated measures vid avsaknad av sfäricitet. Vi justerar frihetsgraderna med G-G och H-F för att kompensera för att sfäricitet-antagandet inte är uppfyllt. Om sfäricitet råder är dessa tal nära 1.
Box’s test
Testar för om kovariansmatriserna på de beroende variablerna är lika mellan grupper. Om signifikant: kovariansmatriserna är inte lika -> kovarianshomogenitet råder ej. Används vid t.ex. manova.
Levins test
testar för varianshomogenitet mellan grupper (två eller flera). (används vid t.ex homoskedasticitet
Homoskedasticitet
det är ett antagande som görs vid regressionsanalys. Om variation i utfall är likartad vid olika nivåer på den oberoende variabeln föreligger detta. Konfidensintervall och signifikanstester påverkas om detta inte är fallet, dvs heteroskedasticitet.
Homoskedasticitet: Residualernas varians är oberoende av X (OV?). Det ger underdrivna standardfel (dvs. överdriven precision).
- Om n > 50 -> använd robusta standardfel.
Kommunalitet
Andelen gemensam varians i en variabel kallas kommunaliteten. ( 0 < kommunalitet < 1. -> 1 = all varians delad.)
Fixed effects modell
En utvecklad version av FD (first difference) som används för att eliminera effekter från variabler som ej är inkluderade i regressionen som är konstanta över tid. Till skillnad från FD inkluderar den även dummys för individer och tid
Prais-Winsten Feasible Generated Least squares-modell
En regressionsmodell som används när vi har autokorrelerade observationer. Denna modell ger oss en regression som är viktad för graden av autokorrelation.
Rotationer
Används i faktoranalys för att maximera variablers laddning i en faktor och minimera laddningen i andra. Varimax (ortogonal rotation) roterar variablerna utan att tillåta att de korrelerar med varandra. Detta särskiljer sig från Oblique rotation som tillåter att faktorerna korrelerar med varandra. Valet av dessa två rotationsmetoder är beroende av vad det är för data som analyseras.
Data-splitting
Det är en metod som används för att validera modellen. Genom detta testas om den representerar hela populationen. Det genomförs genom att dela observerad data i två grupper och därefter köra regression på båda två för att se om resultatet är lika. Särskilt viktigt när step-wise metoder används i input av variabler.
Random walk
En random walk är en tidsserie med autokorrelation nära 1 (rho ≈ 1) och utan trend. Ett vanligt exempel på random walk är en aktiekurs. För en random walk är dagens värde en god (den bästa) prediktionen på morgondagens värde, men varken dagens värde eller förändringen från igår till idag är en god prediktion för förändringen till imorgon.
Klustrade standardfel:
Man vill klustra sina standardfel på gruppnivå när man vill analysera en variabel som varierar på gruppnivå och har tillgång till data på individnivå, eftersom att om du skulle köra en regression utan klustring skulle du underskatta standardfelets storlek. Anledningen till detta är att du inte har lika mycket oberoende variation som antyds av storleken på ditt urval.
Linjär sannolikhetsmodell
Det är en OLS (ordinary least squares) för fallet då vi har en svarsvariabel med kategorier. Med denna modell kommer inte faktiska observationer försöka ”träffas”, utan medelvärdet av y givet x (alltså sannolikheten för y =1 givet x).
Autokorrelation
Korrelationen som en tidsserie har med sig själv. Mäts vanligast som rho = corr (xt, xt-1), alltså korrelationen mellan variabeln och variabeln laggad ett steg.
Multikollinearitet
När två eller flera av de oberoende variablerna korrelerar starkt med varandra. Om detta sker är det svårare att få pålitliga värden på koefficienterna och standardfelen ökar. Detta tillför inte heller så mycket i förklaringsgrad, då variablerna står för samma variation.
- Problem vid multipel regression: Det blir svårt att veta vilken bakgrundsvariabel som är viktig för utfallet. Dessutom får man opålitliga koefficienter (med höga standardavvikelser). Därför är det viktigt att innan testet ha starka hypoteser.
Autokorrelerade residualer
Om residualer är korrelerade med varandra är de inte oberoende. Detta påverkar konfidensintervall och signifikanstester. Detta kallas autokorrelation och kan testas för genom Durbin Watson test.
Winsorize
Att man ersätter en outlier med det högsta värdet som inte är en outlier.
Multinominal logistisk regression
En modell där responsvariabeln kan anta flera kategoriska värden, mer än två.
Varför differentiera
Vid en random walk är autokorrelationen ≈ 1, vilket innebär att det är svårt att skapa realistiska modeller över datan. Rho(xt, xt-1) = 1 <=> rho (∆xt, ∆xt-1) = 0 => autokorrelationen för förändringarna blir ≈ 0, vilket vi kan utnyttja genom differientering