Vecka 1 del 5 Flashcards
Vilken modell ska vi välja?
Den med högst justerade R2 .
När kan det justerade R2 till och med bli negativt?
Om SSE är avsevärt större än noll och k är stort i förhållande till n samtidigt som korrelationen mellan responsvariabeln och de förklarande variablerna är tillräckligt låg.
Vad används det justerade R2 för?
Att jämföra konkurrerande linjära regressionsmodeller med olika antal förklarande variabler.
Vilka sätt kan användas för att jämföra linjära regressionsmodeller med olika antal förklarande variabler?
Både standard felet för uppskattningen och det justerade R2 kan användas men justerade R2 är det som föredras.
Vad menas med överanpassning?
När en uppskattad modell börjar beskriva detaljer istället för de verkliga relationerna mellan variablerna
Vad kan man göra för att testa så modellen inte överanpassar?
För att testa modellens prediktiva förmåga kan man testa den på en datauppsättning som inte användes i skattningen.
Varför används dummyvariabler?
För Kategoriska variabler kan också ha en betydande på verkan på en variabel och bör då beaktas i regressionsmodellen. För att använda en kategorisk variabel i en regressionsmodell omvandlar vi den till en dummyvariabel, även känd som indikatorvariabel.
Vilka värden antar en dummyvariabel d?
Värdet 1 för en av kategorierna och 0 för den andra.
Varför används T-testet?
För att testa om varje koefficient är signifikant annorlunda från noll. Om t-värdet är stort nog tyder det på att dummy variabeln har en signifikant inverkan på den beroende variabeln y. Om det är lågt kan vi inte med säkerhet säga att variabeln har någon inverkan.
Hur gör vi för att undvika dummyvariabel fällan?
undviker att inkludera en dummy variabel för varje kategori eftersom det skulle leda till en perfekt multikollinearitet. Istället omvandlar du varje kategori utom en till en dummvariabel.