Week 4 college Flashcards
Wat zijn de vier voornaamste verschillen tussen PCA en exploratieve factoranalyse?
Wat is het voornaamste doel van EFA en PCA?
data reductie
Beschrijf PCA via de algebraische methode
een principal component is een liniaire combinatie van de variabelen
Beschrijf PCA via de geometrische methode
waar staan de lange en korte as voor?
Wat zijn de variabelen, observaties en componenten binnen de geometrische PCA?
variabelen: richting in p-dimensionale ruimte–>vectoren
observaties: punten in dezelfde ruimte
componenten: zijn vectoren, zoals variabelen.
wat wordt bedoeld met orthogonaal binnen geometrische PCA?
rechte hoek op de andere lijn
Het doel van PCA is data reductie. toch k=p (even veel variabelen als componenten). Waarom is het dan toch data reductie?
omdat elke volgende component minder variantie verklaart dan de vorige, is een klein aantal componenten voldoende om de meeste variantie van de variabelen te verklaren.
Waaruit bestaat de componentlading? wat krijg je als je deze kwadrateerd?
correlatie tussen variable Xi en component j. kwadraat= proportie verklaarde variantie.
Wat is het verschil tussen eigenwaarde en communaliteit?
eigenwaarde= slaat op component–>geeft geen variantie. wil je variantie verklaard door component j (van alle variabelen) weten? doe dan / aantal variabelen.
communaliteit=slaat op variabel–>geef variantie.
Een derde methode voor eht extraheren van componenten is interpreteren. hoe werkt dit op de algebraische manier? Wat kun je stellen aan de hand van de onderstaande tabel?
Je zou hier kunnen stellen dat F1 op alle variabelen sterk correleert. Er is er niet specifiek 1 heel belangrijk? is er een algemene onderliggende factor misschien?
bij F2 kun je bijvoorbeeld stellen dat het component sterk gerelateerd is aan rekenkundige variabelen (x4 en x5)
Wat is de functie van rotatie bij PCA?
oplossing hier is de assen draaien. de pijlen blijven hetzelfde. We geven hier de techniek een andere bias.
Een manier van Rotatie bij PCA is de VARIMAX. Hoe werkt dit?
orthogonaal of niet?
is een orthogonale orientatie. Hierbij kies je de nieuwe assen zo dat voor elke factor de variantie van de gekwadrateerde componentenlading zo hoog mogelijk is. Dit leidt tot een aantal ladingen die heel hoog zijn (dicht bij 1) en een aantal dicht bij 0.
Een manier van rotatie bij PCA is OBLIMIN. Hoe werkt dit?
niet orthogonaal. zelfde als VARIMAX, maar nu kunnen de geroteerde componenten wel gecorreleerd zijn. dit wordt ook wel oblieke rotatie genoemd.
theoretisch is deze methode vaak aantrekkelijker, echter
-interpretatie lastig en oplossing vaak vergelijkbaar met VARIMAX.
Welke twee zaken veranderen rotaties WEL en welke NIET? mbt rotaties in PCA
In PCA wanneer er evenveel componenten als geobserveerde variabelen zijn noemen we dat?
full dimensionality
Wat is de functie van barlett’s test? in PCA?
Bartlett’s test checks the null hypothesis that all correlations between the variables in the analysis are zero. A nonsignificant Bartlett’s test tells us that our data are basically uncorrelated, so the PCA solution will be meaningless. Therefore, in order to proceed with PCA, Bartlett’s test should be clearly significant.
Waarom is de Barlett’s echter in de praktijk vaak niet relevant?
Although this test might seem important, in practice it is not. The reason for this is that with real psychological data, Bartlett’s test is always significant. It is almost impossible to find ten psychological variables that are completely uncorrelated, especially if these variables come from the same domain
Wat is de functie van de kaiser-meyer-olkin? (KMO). wat is de formule?
Perhaps the clearest indication of usefulness for PCA or FA. Usually we think that KMO values of .80 or higher are good enough for doing PCA.
Welke algemene regel voor grootte van de sample size wordt gehanteerd binnen PCA? In welke twee situaties kan hiervan afgeweken worden?
N groter of gelijk aan 300.
- Factor loadings. If a factor has four of more loadings with absolute value greater than
.60, sample size does not matter. Factors with at least ten loadings above .40 are stable if N > 150. But watch out: these rules of thumb only apply to some factors of a solution; if you want stability for all your factors, you still need N > 300 for the other factors in your solution. - Communalities. If (almost) all communalities are larger than .60, sample sizes of 100 or even lower may work perfectly, while with (almost) all communalities above .50, sample sizes between 100 and 200 are fine.
Wat zijn de drie aannames binnen PCA?
- The relationships between the observed variables are linear. checken dmv scatterplot
- The observed variables follow a multivariate normal distribution.
- The correlations between the observed variables are reliable.
Wat is nog een belangrijk verschil tussen PCA en FA?
pijlen lopen
FA: factoren –> variabelen
PCA: variabelen–>factoren
PCA
wat kan gezegd worden over verklaring van het eerste component na rotatie? En waarom?
1,5,6
de betrouwbaarheid van testscores wordt hoger door
2,4,5
belangrijk uit wb
Tot VAF en communalities zijn altijd het zelfde voor rotated and unrotated
belangrijk uit wb
verschil tussen contrast factor en generalized factor
general factor (every loading is positive),
contrast factor: items 2 and 4 have a positive loading while items 6, 7 and 8 have a negative loading.