Faktoranalys Flashcards
Vad är en faktoranalys?
Ett samlingsnamn för dimensionsreducerande statiska metoder för att kunna åskådliggöra underliggande strukturer i data. Samvariationen mellan 2 eller fler variabler genom att mäta ett antal bakomliggande.
Vad är en dimension?
Vi kan beskriva varje punkt i rummet omkring oss mha 3 koordinationer: y,z,x (en i y-led, en i z-led och en i x-led). Antalet dimensioner = antalet variabler som vi mäter!
Dimensionsreduktion
ex ett foto, där har 3 dimensioner reducerats till 2 dimensioner, ändå kan den information vi vill åt finnas kvar.
Antalet dimensioner kan reduceras genom att vikta ihop variabler, det resulterar i att ”nya” variabler fås fram som tar olika mycket hänsyntill de gamla. Det är detta som görs mha faktoranalys.
Vad är en faktor?
Faktor = latent variabel = komponent
Genom en faktoranalys försöker vi slå ihop variabler till faktorer som beskriver datan så bra som möjligt, detta skapar faktorer, den nya sammanslagna variabler.
Om faktorer är lätta att tolka har vi lyckats göra datan med överskådlig ex. Big 5.
Dessa faktorer kan vara något ”verkligt”, kanske inte. Om man klumpar ihop variabler som inte har med varandra kan vi få godtyckliga, meningslösa faktorer, det behöver inte finnas något samband mellan variablerna i faktorn.
Exempel: g-faktor
Hur väljer faktoranalysen ut faktorer?
Faktoranalysen väljer ut de faktorer som förklarar mest av variansen i vårt datamaterial. I en faktorlösning kommer den första faktorn förklara mest varians, den andra näst mest varians osv.
Egenvärde:
till varje faktor hör ett direkt mått på hur mycket av den totala variansen som den faktorn förklarade, dvs. förklarad varians av en faktor.
Total varians
sammanlagd spridning i alla variabler
Korrelationsmatiser och kovariansmatris
Dessa börjar man göra med vid en faktoranalys, man ser hur mkt varje variabel korrelerar med varandra så man vet vilka variabler som hör ihop. Korrelationsmatrisern avgör vilka variabler som hör ihop. Varje variabler bidrar med variansen 1.
Vad är faktorladdning och hur kan det visualiseras?
hur mycket varje variabel korrelerar med just den faktorn. För att räkna ut egenvärde måste vi kvadrera alla faktorladdningar för varje faktor och sedan summera dem.
Dessa faktorer kan sedan plotas på en component plot, för att se hur bra variablerna korrelerar med faktorerna. Man vill att datapunkterna ska hamna på linjen så de har korrelation 1.0 i drömscenarion.
Dubbelladdning
om en variabel korrelerar med fler faktorer, detta är inte önskvärt!
Ett problem man kan minska genom rotering.
Vad är rotering?
vid rotering vill man undersöka ifall man kan hitta en bättre vinkel att titta på datan ifrån. För optimera och undersöka om fler kluster finns, dvs fler grupper/ny faktor. Detta innebär att man roterar hela koordinationssystemet så att varje variabel så mycket som möjligt hamnar på endast en faktor.
Det finns två typer av rotering: ortogonala (varimax) och oblik (ortotran).
Hur påverkas faktorladdningen av rotering?
Genom detta så kommer den förklarade variansen hos faktorerna att omdistribueras. Vid rotering kommer faktorladdningen att ändras! Exempelvis kommer faktor 1 förmodligen inte att förklara lika mycket varians som innan.
Vad kan rotering resultera i? Vilket problem kan kvarstå?
Rotering görs i förhoppning att hitta en mer lättolkad faktorlösning som är mer teoretisk meningsfull.
Efter en rotering kan dock problemet att lösningen inte täcker in tillräckligt av en variabels varians, då kan man antingen lägga till ännu en faktor eller så kan det vara så att den variabeln tas ut ur vår analys, den kanske inte mätte det den tänkte mäta.
Communalities
Beskriver hur mycket av variansen i en variabel som förklaras av de faktorer vi tog med i lösningen.
Med andra ord, Hur mycket variansen i en variabel som beskrivs av alla extraherade faktorer.
Communality för en variabel i EN faktor = faktorladdningen2
Vad finns det för Två kriterier för att välja bort en variabel?
- ta bort variabeln om den inte har en enda signifikant faktorladdning
- ta bort variabeln om vår lösning förklarar mindre än 50% av variansen.