Vorgehensweise Verfahren Flashcards
Clusteranalyse (hierarchisch-agglomerativ)
Schritt 1: Auswahl eines Proximitätsmaßes (Nähe- bzw. Distanzmaß), je nach Skalenniveau der Daten
* Metrisch = euklidische Distanzen
* Ordinal = City-Block
* Minkowski-Metrik: Verallgemeinerung der euklidischen und der City-Block-Distanz (für noch mehr Variablen und Dimensionen);
* Supremum Distanz vermutlich die maximale Distanz)
Schritt 2: Auswahl eines Fusionierungsalgorithmus - Bestimmt, wer/welche Distanzen einem Cluster zugeordnet werden
* Ward-Vefahren
o Liegen euklidische Distanzen vor? Dann ist das Ward-Verfahren am besten geeignet! Denn: das Ward-Verfahren scheint der FA zu sein, das eine vorhandene Clusterstruktur am besten finden kann
o Die Clusterung erfolgt nicht anhand einzelner Distanzen, sondern es werden diejenigen Gruppen zusammengefasst, die die Fehlerquadratsumme (Variation) innerhalb der Cluster am wenigsten vergrößern -> Bildung homogener Gruppen
* Nächste Nachbarn-Verfahren
* Mittelwertverfahren
* Centroid- und Median-Verfahren
Schritt 3: Der Algorithmus teilt ein!
Schritt 4: Bestimmung der (besten) Clusterzahl **
* Dendrogramm: Lineal ansetzen und Schnitte der „links“ zählen
* Screeplot (!!!** HIER: Anteil der Variation innerhalb der Gruppen an der Gesamtvariation)
* Indizes (Calinski-Harabasz (CH)-Index: setzt die Varianz zwischen den Clustern und die Varianz innerhalb der Cluster in Beziehung, höchster Wert –> optimal! Auswahl der Clusteranzahl anhand des höchsten Wertes
Schritt 5: Interpretation der Lösung ((grafisch und) numerisch)
Nennen Sie die wichtigsten Schritte bei der Durchführung einer Faktoren- bzw. Hauptkomponentenanalyse und erläutern Sie jeden Schritt
- ** Prüfung der Daten auf Eignung**
der Daten indem man sich anschaut,
* ob die Variablen hoch korrelieren (Korrelationsmatrix),
* ob das KMO-Kriterium über 0,5 liegt und
* ob der Bartlett’s Test signifikant ist. - **Bestimmung der Komponenten-/Faktorenanzahl **
* Screeplot (stärkster Varianzabfall)
* Eigenwertkriterium (größer 1)
* inhaltliche Interpretation -
Inhaltliche Interpretation der unrotierten Lösung
* Faktorladungen, hohe Ladungen ab 0,5, die einen signifikanten Erklärungsbeitrag für die Komponente leisten
* Kommunalitäten: Varianzanteil der Variable, der durch die Komponente erklärt wird. -
Ggf. Rotation der Lösung & Interpretation
* zur besseren inhaltlichen Interpretierbarkeit - Ggf. Extraktion der Faktorlösung für weitere Analysen (Latente Variablen werden zur weiteren Berechnung verwendet)
Chi²
Der Chi²-Test vergleicht die beobachteten Häufigkeiten mit den erwarteten Häufigkeiten unter der Annahme, dass die beiden Variablen unabhängig voneinander sind
Schritt 1: Berechnung der einzelnen Erwartungswerte (theoretische Verteilung) mithilfe der empirischen Verteilung
Schritt 2: Berechnung der Chi²-Werte für die einzelnen Zellen
Schritt 3: Aufsummieren der einzelnen ausgerechneten Chi² Werte, um den gesamten Chi²-Wert zu erhalten.
Schritt 4: Vergleich des empirischen mit dem theoretischen Chi-Quadrat-Wert
* Berechnung dfs
* Vergl. mit Tabelle
* (x²𝑒𝑚𝑝 > 𝜒²𝑡ℎ𝑒𝑜) dann auf jew. Niveau signifikant.
Varianzanalyse
Schritt 1: Mittelwert der AV berechnen
Schritt 2: Mittelwerte der einzelnen Gruppen der UV berechnen
Schritt 3: Streuung/Variation berechnen
I. SST (Gesamtstreuung der AV) (Also: Aufsummieren wie viel jede einzelne Person/jeder einzelne Fall vom Mittelwert abweicht)
II. SSE (Zwischen Gruppen) Also: wie stark schwanken sie zwischen einander?) (Mittelwert der einzelnen Gruppen - Gesamtstreuung)²
III. SSR, also innerhalb der Gruppen (residual) (also: wie sehr weicht jede einzelne Person vom Mittelwert der Gruppe ab?)
Schritt 4: Varianzaufklärung
*𝜂² = SSE geteilt SST
* Durch die Aufteilung in die Gruppen können z.B. 77% der Varianz der AV erklärt werden (wie R²).
Schritt 5: Signifikanz
* t-Test für einzelne Koeffizienten
* F-Test für das gesamte Modell
Partitionierende Clusteranalyse
Vorgehensweise k-means (arbeitet mit eukl. Dist. –> metrisch!):
1. Bestimmung Clusteranzahl k
2. (Zufällige) Auswahl von k Objekten aus dem Datensatz als Clusterzentren
3. Zuordnung aller anderen Objekte zu den k Zentren (jeweils dem mit der geringsten euklidischen Distanz)
4. Neuberechnung der Clusterzentren (Mittelwerte der Objekte im Cluster)
5. Prüfen, ob Umsortierung von Objekten die Fehlerquadratsumme (Streuung innerhalb der Cluster) verringern kann
6. Neuberechnung der Clusterzentren
7. Umsortierung und Neuberechnung geht weiter, bis keine nennenswerte Änderung der Streuung mehr eintritt
–> Der Algorithmus teilt so lange ein, bis ein Optimum erreicht ist!
Korrespondenzanalyse
- Prüfen der Eingangsdaten (zu gering besetzte Zellen? Sollen fehlende Werte mit übernommen werden)?
*CA: Kontingenztabelle (vgl. der emp. und erwarteten Werte (wie bei Chi²))
*MCA: Indikator- oder Burt-matrix - Bestimmung der Dimensionen-Anzahl
* Inertia, auch Gesamtträgheitsgewicht: Summe der Eigenwerte
* Eigenwerte geben an, wie viel Varianz von den einzelnen Dimensionen erklärt wird
* Grenzwert für das Eigenwertkriterium wird für jedes Modell individuell berechnet:
* CA: Inertia geteilt durch Anzahl Dimensionen!!
* MCA: * Indikatormatrix: 1/Summe der Variablen ///// Burt-Matrix:
1/(Summe der Variablen)² - Betrachtung der grafischen Lösung
* Extremwerte der Dimensionen
* Werte nah am Achsenkreuz (Durchschnittlich/gemischt),
* Quadranten
* strukturelle Lücken
* Achsen interpretieren (als Faktoren interpretieren)
* euklidische Distanzen: (direkte Abstände der Punkte unabhängig von den Dimensionen) - Betrachtung der numerischen Lösung
* Masse: Häufigkeit
* Wert in Dimension: Lokalisierung auf den Dimensionen
* Trägheit des Punktes: analog zum Eigenwert einer Dimensionen
* Beitrag des Punktes an der Trägheit der Dimension
* Beitrag der Dimension an der Trägheit des Punktes - Ggf. Aufnahme zusätzlicher (passiver) Variable