Vorlesung 10 - Einführung in Textmining / Wortassoziationen Flashcards
Text Mining und Analyse
- Text Mining ≈ Text Analyse
- Überführung von textuellen Daten in hoch qualitative
Informationen oder anwendbares Wissen
− Minimiert menschlichen Aufwand (beim Umgang mit textuellen Daten)
− Liefert Wissen um optimal Entscheidungen zu treffen - Hat einen Bezug zum Text Retrieval, welches eine essentielle Komponente jedes Text Mining-Systems ist
− Text Retrieval kann ein Vorverarbeitungsschritt für Text Mining sein
− Text Retrieval wird für die Herkunft des Wissens benötigt - Ziel: Muster und Trends erkennen, um
- Entwicklung und Vorhersage von Straftaten zu ermöglichen (Predictive Policing)
- inkriminierte Texte zu finden
- Informationen extrahieren, welche zur Aufklärung aller Tatumstände beitragen
Text vs. Nicht-Text-Daten
Der Mensch als subjektiver Sensor
reale Welt -> aufnehmen -> Sensor -> berichten -> Daten
Ereignis -> Wahrnehmung (Perspektive) -> menschlicher Sensor -> Ausdruck (Deutsch)-> Bericht
Forensisches Text Mining
bezeichnet das interdisziplinäre Feld, welches sich Methoden aus Informationsrückgewinnung, Verarbeitung natürlicher Sprache, Statistik, maschinellen Lernverfahren, Mustererkennung, Datenbanktechnologien, Netzwerkforschung, wissensbasierten Systemen, künstlicher Intelligenz, High Performance-Computing und Datenvisualisierung nutzbar macht, um große Mengen von Texten zu strukturieren, mit dem Ziel Muster und Trends zu erkennen, welche die Entwicklung und Vorhersage von Straftaten ermöglichen ( Predictive Policing) sowie inkriminierte Texte zu finden und daraus Informationen zu extrahieren, welche zur vollständigen Aufklärung aller Tatumstände einer Straftat beitragen.
Arten von Wissen durch Text Mining
- Mining von Wissen über Sprache
-> Word Association Mining & Analysis - Mining des Inhalts der Textdaten
-> Topic Mining & Analysis - Mining von Wissen über den Beobachter
-> Opinion Mining & Sentiment Analysis - Ableiten anderer Real World-Variablen
-> Text-based Prediction
Verschiedenen Textanalysemöglichkeiten die notwendige Textrepräsentation zuordnen
- Textrepräsentation
-> Generalität
-> Ermöglichte Analysen
-> Anwendungsbeispiele - String
-> #####
-> Stringverarbeitung
-> Kompression - Wörter
-> ####
-> Wortrelationsanalysen; Topic
Analysis; Sentiment Analysis
-> Thesaurus-Erzeugung;
Anwendungen mit Bezug zu
Topics und Opinions - Syntaktische Strukturen
-> ###
-> Analyse des Syntaxbaumes
-> Stilistische Analysen; strukturbasierte FeatureExtraktion - Entities & Relationen
-> ##
-> Analyse des Wissensgraphen, Informationsnetzwerkes
-> Aufklärung von Wissen und Meinungen über spezifische Entitäten - Prädikatenlogik
-> #
-> Integrierte Analyse von
verteiltem Wissen; logische Inferenz
-> Wissensassistent für Forensiker
Syntagmatische Relation:
Sprache, Satz
- Definition: Sprache
-> Sei 𝑳 = (𝑾, 𝑺) eine beliebige Sprache, wobei 𝑊 die Menge der Wörter und 𝑆 die Menge der bedeutungstragenden Sätze bezeichnet. - Definition: Satz
-> Jeder Satz aus 𝐿 kann dann als eine Menge einzelner Wörter repräsentiert werden: 𝑠 = {𝑤1, … , 𝑤𝑛}.
Syntagmatische Relation:
lokaler Kontext
- Der lokale Kontext 𝑪𝒔 𝒘 eines Wortes 𝑤 ist die Menge aller Wörter, die gemeinsam
mit 𝑤 im Satz 𝑠 auftauchen: 𝐶𝑠 𝑤 = 𝑠{𝑤}, 𝑤 ∈ 𝑠. - Wenn 𝑛 die Häufigkeit des Auftretens von 𝑤 ist, dann gibt es maximal 𝒏 Kontexte.
- Verschiedene Sätze können den gleichen Kontext teilen, wenn sie sich nur in ihrer
Repräsentation unterscheiden. - Da das Konzept des lokalen Kontexts auf dem Konzept des Satzes beruht, ist es
beschränkt auf die linguistische Ebene der Sätze.
Syntagmatische Relation:
Definition
- Zwei Wörter 𝑤𝑖 ∈ 𝑊 und 𝑤𝑗 ∈ 𝑊 stehen genau dann in syntagmatischer Relation,
wenn es mindestens einen lokalen Kontext gibt, der beide Wörter enthält:
𝑆𝑌𝑁 (𝑤𝑖, 𝑤𝑗) ↔ ∃𝑠: 𝑤𝑗 ∈ 𝐶𝑠(𝑤𝑖). - Das gemeinsame Auftreten zweier Wörter in einem lokalen Kontext wird auch als Kookkurrenz bezeichnet.
Statistisch Syntagmatische Relation: Definition
- Zwei Wörter 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in statistisch syntagmatischer Relation 𝑺𝒀𝑵𝑺(𝒘𝒊, 𝒘𝒋), wenn sie in syntagmatischer Relation stehen und ihr gemeinsames Auftreten in Bezug auf ein Signifikanzmaß nicht zufällig ist.
- Satzkookkurrenzen
-> Dependenzen
-> Aufzählungen
-> Feste Wendungen - Nachbarschaftskookkurrenzen
-> Mehrwortbegriffe
-> Head-Modifier-Relations
-> Kategorie- und Funktionsbegriffe
Paradigmatische Relation
- ähnlicher Kontext
- Fragen im Zusammenhang mit Paradigmen:
-> Wie ähnlich sind Kontext(“cat”) und Kontext(“dog”)?
-> Wie ähnlich sind Kontext(“cat”) und Kontext(“computer”)?
Paradigmatische Relation:
globaler Kontext
- Der globale Kontext 𝑪𝑮 (𝒘𝒊) eines Wortes 𝑤𝑖 ∈ 𝑊 ist die Menge aller Wörter 𝑤 ∈ 𝑊 für die gilt: 𝐶𝐺 𝑤𝑖 = {𝑤|𝑆𝑌𝑁𝑆 𝑤𝑖, 𝑤 }.
- Aufgrund dieser Definition gibt es exakt einen globalen Kontext 𝐾𝐺(𝑤𝑖) für ein Wort 𝑤𝑖 in Abhängigkeit des gewählten Signifikanzmaßes und des zugrundeliegenden Korpus.
- Der globale Kontext 𝐶𝐺 𝑤𝑖 eines Wortes 𝑤𝑖 enthält alle Wörter, die statistisch
signifikant oft mit 𝑤𝑖 auftreten.
Paradigmatische Relation:
Definition
- Zwei Wortformen 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in paradigmatischer Relation, wenn deren globale Kontexte, in Bezug auf ein gegebenes Ähnlichkeitsmaß und einen vorbestimmten Schwellwert, ähnlich zueinander sind :
PARA (𝑤𝑖, 𝑤𝑗) ↔ 𝑆𝐼𝑀𝑡(𝐾𝐺 𝑤𝑖,𝐾𝐺(𝑤𝑗)) - Der globale Kontext eines Wortes kann durch Filterfunktionen geändert werden
Paradigmatische Relation:
Filter
- Syntaktische Kategorie 𝑪𝑨𝑻:
𝑃𝐴𝑅𝐴 𝐶𝐴𝑇 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐶𝐴𝑇(𝑤𝑖) = 𝐶𝐴𝑇(𝑤) - Semantische Kategorie 𝑺𝑬𝑴:
𝑃𝐴𝑅𝐴𝑆𝐸𝑀 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝑆𝐸𝑀 𝑤𝑖 = 𝑆𝐸𝑀(𝑤) - Gemeinsamer Begriff:
{𝑤│𝑆𝑌𝑁𝑆(𝑤𝑖, 𝑤) ∧ 𝑆𝑌𝑁𝑆(𝑤𝑘, 𝑤) }, 𝑤𝑜𝑏𝑒𝑖 𝑤𝑖 ≠ 𝑤𝑘 - Logische Bedingung 𝑳𝑶𝑮:
𝑃𝐴𝑅𝐴𝐿𝑂𝐺 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐿𝑂𝐺 𝑤𝑖 = 𝐿𝑂𝐺(𝑤)
Warum analysiert man
Wortassoziationen?
- Verbesserung vieler Aufgaben aus der NLP
− POS-Tagging, Parsing, Entity Recognition, Acronym Expansion
− Grammar Learning - Nutzen in vielen Anwendungen aus Text Retrieval und Mining
− Text Retrieval (z.B. vorschlagen von Variationen einer Query)
− Forensische Textanalyse (z.B. Empfehlung von “überraschenden” Suchbegriffen)
− Automatische Konstruktion einer Topic Map als Navigationsstruktur: Wörter als Knoten
und Assoziationen als Kanten
− Analyse von Meinungen (z.B. welche Wörter sind in positiven und negativen Kommentaren
über Corona-Management am stärksten mit “Impfstoff” assoziiert?)
Generelle Ansätze
- Paradigmatische Relationen
-> Repräsentation eines Wort durch seinen globalen Kontext
-> Berechnung der Kontextähnlichkeit
-> Wörter mit hoher Kontextähnlichkeit stehen wahrscheinlich in paradigmatischer Relation - Syntagmatische Relationen
-> Wie oft treten zwei Wörter gemeinsam in einem lokalen Kontext auf (z.B. Satz oder Absatz)
-> Vergleich der Kookkurrenzen mit dem individuellen Auftreten
-> Wörter mit hoher Kookkurrenz aber relativ seltenem individuellem Auftreten stehen wahrscheinlich in syntagmatischer Relation - Gemeinsame Bestimmung
-> Wörter in paradigmatischer Beziehung stehen häufig auch in syntagmatischer Relation.