Vorlesung 9 Flashcards
Was ist unüberwachtes Lernen?
Wenn man einen ungelabelten Datensatz hat und eine Struktur in den Daten finden muss
Was ist Clustering?
- Clustering ist eine häufige Aufgabe im unüberwachten Lernen.
- Ziel ist es, Datenpunkte in Gruppen oder Cluster zu unterteilen.
- Ähnliche Datenpunkte gehören demselben Cluster an.
Beschreib den k-Means Algorithmus
Wie funktioniert der Lloyd’s Algorithmus?
Was besagt das Theorem (NP-Härte des k-Means)?
Das Auffinden der global optimalen Lösung des k-Means-Optimierungsproblems ist NP-schwer (sowohl wenn k fest oder variabel ist, als auch wenn die Dimension fest oder variabel ist).
Was besagt das Theorem (Geglättete Komplexität des k-Means)?
Die Optimierung des k-Means-Zielwertes hat eine polynomiale geglättete Komplexität (smoothed complexity).
Nenn Varianten von k-Means
Wieso maximiert man bei PCA die Varianz?
Die PCA sucht also nach den sogenannten Hauptkomponenten, die die größtmögliche Varianz der ursprünglichen Variablen erklären können. Indem die Varianz maximiert wird, wird sichergestellt, dass so viel wie möglich von der ursprünglichen Information erhalten bleibt, während die Dimensionalität des Datensatzes reduziert wird.
Wie zentriert man Datenpunkte?
Was tut man bei PCA?
Varianz maximieren und unterdimensionieren
Wie nennt man die Eigenvektoren bei PCA?
Die Eigenvektoren werden als Hauptachsen, Hauptrichtungen oder Hauptkomponenten bezeichnet (principal components)
Wie nennt man den Abstand zwischen einem Punkt und seiner Projektion?
Rekonstruktionsfehler oder Projektionsfehler
Wann funktioniert PCA am besten?
PCA funktioniert am besten, wenn die Daten aus einer Normalverteilung stammen
Wie wird PCA zur Dimensionsreduktion angwandt?
PCA kann die Anzahl der Merkmale/Features reduzieren, während die meisten Informationen erhalten bleiben
Wie wird PCA zur Datenvisualisierung angwandt?
PCA kann hochdimensionale Daten in einen niedrigdimensionalen Raum transformieren, um sie zu visualisieren