Vorlesung 12 - Schätzung von Themenmodellen Flashcards
1
Q
Allgemeines Verhalten eines Mixture-Models
A
- Jede Komponente versucht hochfrequenten Wörtern hohe Wahrscheinlichkeiten zuzuweisen (um “die Likelihood kollaborativ zu erhöhen”)
- Verschiedene Modellkomponenten “bieten” hohe Wahrscheinlichkeiten auf unterschiedliche Wörter (um Vorteile im “Wettbewerb” zu erzielen oder „Verschwendung von Wahrscheinlichkeit” zu vermeiden)
- Die Wahrscheinlichkeit eine Komponente zu wählen “reguliert” die Kollaboration/ den Wettbewerb zwischen den Komponenten eines Modells
2
Q
Festlegung einer Komponente als Hintergrund-Wortverteilung
A
- Hilft Hintergrundwörter in anderen Komponenten loszuwerden
- Ist ein Beispiel für die Einführung einer a-priori Verteilung für die Modellparameter
(a-Priori = ein Modell muss das Hintergrund-LM sein)
3
Q
EM - Algorithmus
A
- Expectation-Maximization (EM)-Algorithmus / Erwartungs-Maximierungs (EM)-Algorithmus
- Ziel: Maximum Likelihood Schätzung eines Mix-Modells berechnen WICHTIG!
-> Annäherung via Hill-Climbing Verfahren - E-Step: „Erweitern“ der Daten durch Vorhersage von Werten nützlicher versteckter Variablen
->Verteilung die zur Erzeugung eines Wortes verwendet wird
-> = untere Grenze der Likelihood Funktion berechnen - M-Step: Nutzen der „erweiterten Daten“ zur Verbesserung der Parameterschätzung
(„Verbesserung“ bezüglich der Likelihood ist garantiert)
-> Verwende die im E-Step berechneten Variablen um die Parameter neu zu schätzen
(verbessert)
-> = Maximum der unteren Grenze berechnen
➔ Wiederhole EM-Steps mit neuem Parameterset solange, bis keine Verbesserung der
Likelihood mehr erreicht wird
4
Q
Anwendungsmöglichkeiten von Topic Mining
A
- (Aktuelle) Paper zu einem Thema analysieren, um Forschungsthemen herauszufinden
- Hauptthemen finden, die im Rahmen eines Ereignisses (z. B. Bundestagswahl) diskutiert
wurden/werden (Contextual Text Mining) - Hauptthemen finden, die auf Social Media Plattformen diskutiert werden:
-> Worüber sprechen Twitter-Nutzer heute?
-> Was sind die aktuellen Forschungsthemen im Data Mining? Wie unterscheiden sie sich von
denen vor 5 Jahren?
-> Was mögen die Kunden am iPhone X? Was mögen sie nicht?
-> Was waren die Hauptthemen, die im Rahmen der Bundestagswahl 2017 diskutiert wurden?
5
Q
Funktionsweise generativer Sprachmodelle
A
- Generativ → durch Modell generiert
- Probabilistisch → Aussage aufgrund einer Wkt. (Wahrscheinlichkeitsaussage)
- Versuche aus Parameterset (Λ) (Sprachmodellen als Topics) die Originaldaten so zu generieren,
dass die Daten Likelihood für P(Daten|θ) oder P(θ|Daten) max. wird - Eingabe
-> Eingeben von Sammlung (C), Anzahl Topics (k), Vokabular (V)
-> Extraktion von k Topics
-> Topicabdeckung (π) dokumentieren - Ausgabe: Topics als Wortverteilung und die jeweiligen Topicabdeckungen
-> 1. Möglichkeit: Mit bekanntem Parameterset (Λ) können Texte generiert werden
-> 2. Möglichkeit: Mit den Texten eine Parameterschätzung durchzuführen (Bayes’sche Inferenz)