TextMining Flashcards
Anwendungsbereiche des Text Mining
- konzeptbasierte Suche / Finden ähnlicher Texte (Dokumenten-Management-Systeme, ähnliche Artikel, …)
- Dokumentenklassifikation und Clustering (automatische Archivierung, Workflow-Optimierung, Spamfilter)
- Informationsstrukturierung und -extraktion (Aufbau von Ontologien/Taxonomien, Name/Orte/Institutionen/Daten/Zahlen/…)
Einordnung des Text Mining
- zw. Information Retrieval und linguistischer Informatik
- inhaltlich orientierter Zugriff auf unstrukturierte Daten

Forschungsansätze
- wissensbasierte/regelbasierte Ansätze
- Mustersuche
- neuronale Netze
- statistische/korpuslinguistische Ansätze
Arten von Kookurrenzen
+ Anwendung
- Nachbarschaftskook. = unmittelbar nebeneinander
- Satzkookkurrenz
- auffällig: gemeinsames Auftreten wahrscheinlicher als Einzelwahrscheinlichkeiten vermuten ließen
-> mit Kookurrenzen lassen sich Cluster zu einem Wort bilden = Disambiguierung!
Formeln für Ähnlichkeitsmaße (Kookurrenzen)
- Tanimoto-Ähnlichkeit: Anteil Doppeltreffer bzgl. Anteil Einzeltreffer
- Mutual Information: Abweichung von statistischer Unabhängigkeit
- G-Test: Wahrscheinlichkeit simultaner seltener Ereignisse
- Poisson-Signifikanz
Tanimoto-Ähnlichkeit
(Ähnlichkeitsmaß Kookkurrenzen)
Anteil Doppeltreffer bzgl. Anteil Einzeltreffer
simT(A,B) = nAB / (nA+nB-nAB)
Mutual Information
(Ähnlichkeitsmaß Kookkurrenzen)
Abweichung von statistischer Unabhängigkeit
i(A,B) = log(nABnges / (nAnB))
[=log(pAB/(pApB))]
if A and B are independent, then pAB=(pApB) and therefore: log(pAB/(pApB)) = log 1 = 0
G-Test
(Ähnlichkeitsmaß Kookkurrenzen)
Wahrscheinlichkeit simultaner seltener Ereignisse
x = nAnB / nges
sig(A,B) = x - nAB log x + log nAB!
(für 2.5x < nAB)
Kookkurrenz-Graph mit Simulated Annealing
Benachbarte Knoten ziehen sich nach Kookurrenzstärke an, nicht benachbarte stoßen einander ab
ges.: energetisch günstigste Position der Knoten in der Ebene
- hohe Temperatur -> starke Schwingung der Knoten ->Verhinderung der Stabilisierung in lokalem Minimum
- durch wirkende Kräfte und Temp. in jedem Iterationsschritt zur optimalen Position bewegt
- Temperatur abgekühlt -> relat. Lage der Knoten stabil, nur noch Abstände optimiert

Birthday Problem + Co-occurrence Problem
Modification: What is the probability p of the existence of k couples with the same birthday - a boys and b girls randomly chosen?
-> Poisson Distribution

Poisson Signifikanz
(Ähnlichkeitsmaß Kookkurrenzen)
beruhend auf common birthday problem
λ = ab / n (=npapb)
k = Anzahl Kookkurrenzen

Eigenschaften von sig(n,k,a,b)
Poisson Signifikanz
(Ähnlichkeitsmaß Kookkurrenzen)
- einmalige Kookurrenz in sig(n,1,1,1) -> 1
- independence: sig(n,npq,np,nq) -> 0 (p,q propabilities for A,B)
- negativ: häufige Wörter, die nicht gemeinsam auftreten
- enlarging corpus by factor m: sig(mn,mk,ma,mb) = m*sig(n,k,a,b) = umso häufiger gesehen, umso mehr steigt Signifikanz (nicht bei Tanimoto/Mutual Information)
-
additivity: für k/b ~ k’/b’, unification of words B, B’:
- sig(n,k,a,b)+sig(n,k’,a,b’) ~sig(n,k+k’,a,b+b’)
- Zusammenführen von Wörtern hinterher möglich statt vorherige Lemmatisierung
- Maximum: max(B) sig(A,B) ~ a = am größen, wenn immer mit A auftritt und A möglichst selten einzeln
Zipf’sches Gesetz
- “Prinzip der geringsten Anstrengung” in natürlicher Sprache
- Wortformen eines Textes nach absteigender Häufigkeit ordnen
- Rang r einer Wortform * Häufigkeit n ~ konstant mit textabhängiger Konstante k
r * n ~k
n ~ 1/r

Zipf’sches Gesetz
- Frequenz des häufigsten Wortes (n maximal)
- Größe des Vokabulars = Anzahl der types (m=1)
Konstante c
- k ~ rmax
- k ~ r1
k steigt linear mit Korpusgröße N -> Konstante c = k/N unabhängig von Korpusgröße, aber evtl. einzelsprachenabgängig
Zipf’sches Gesetz
Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen (= rn)
- N: Gesamtanzahl aller Wortformen des Textes (tokens)
- t: Umfang des Vokabulars (types)
- rn: größter Rang der Wortformen, die genau n mal auftreten
- In: Anzahl der Wortformen, die genau n mal auftreten
rn ~ c * N/n
Zipf’sches Gesetz
Abschätzung des Zuwachses des Vokabulars, wenn sich die Textmenge erhöht (= In)
Besonderheit I1
- N: Gesamtanzahl aller Wortformen des Textes (tokens)
- t: Umfang des Vokabulars (types)
- rn: größter Rang der Wortformen, die genau n mal auftreten
- In: Anzahl der Wortformen, die genau n mal auftreten
In = rn - rn+1
= (cN/n) - (cN/(n+1))
= cN / (n(n+1))
I1 = c*N/(1+2) = t/2
Zipf’sches Gesetz
D
- exakte Herleitung ergibt n ~ (r+V)-1/D
- D = (fraktale) Dimension nahe 1, die charakteristisch für die jeweilige Sprache ist
- 1/D = Anstieg der Gerade in der doppelt-logarithmischen Darstellung und eben nur näherungsweise 1
Zipf’sches Gesetz
Korpusgröße
- unendlich viele Wörter: mit Korpusgröße steigt Anzahl an Wörtern (types) geradlinig
- auch nur endlich viele möglich: Kurve s.o. gekrümmt

Neologismen
Fragestellungen
- Neu: wann erstmalig beobachtet
- Nachhaltig: Wird man in zehn Jahren das Wort noch kennen?
- Tendenz: Wird Häufigkeit zunehmen?
- Korrelation: Wie wirkt ein Wort auf die Tendenz eines anderen?
Neologismen
Typen
- Echter Neologismus, völlige Neuschöpfung
- Tendenz wachsend oder
- Nach starkem Anfang fallende Tendenz
- Vorher niederfrequentes Wort,
- dessen Häufigkeit unaufhaltsam steigt (DVD) oder
- das plötzlich (z.B. wegen eines Ereignisses) in der Allgemeinsprache auffällt, dann fällt
- Ereignisabhängige Wörter, die in Abständen mit großer Häufigkeit auftreten (Papstwahl)
- Wort mit neuer Bedeutung (Kurzmitteilung)
- Bezeichner für Einzelobjekte oder Gruppen (Hotelerbin, Terroristenchef)
- Wörter mit kurzer Lebensdauer (UMTS-Auktion)
Clustering & Klassifikation
Unterscheidung
Cluster:
- entstehen “von selbst” aus der inneren Struktur der Daten, interpretiert als Ähnlichkeit
- Gruppen nicht vorgegeben
- Anzahl der Gruppen vorgegeben o. muss vom Algorithmus ermittelt werden.
Klassifikation: Klassen sind vorgegeben, beispielsweise durch Trainingsdaten
Clustering und Klassifikation
Maschinelles Lernen
- Funktion f: M → {0, 1 , …, n-1}, die jedem Element x∈M seine Klasse f(x) zuordnet
- f unüberwacht gelernt = Clustering: Bekannt sein kann die Anzahl n der Klassen,Aufteilung kann nur über Ähnlichkeit der Attribut-Werte gelernt werden
- f überwacht lernen = Klassifikation: f ist auf Teil der Menge M bekannt und soll für restlichen Teil ermittelt werden
Clustering und Klassifikation
Anforderungen an Unterteilung
- Homogenität innerhalb der Cluster
- Heterogenität zwischen verschiedenen Clustern
Clustering
Darstellungsform
Dendrogramm
- Cluster werden zu Instanzen, die wieder mit verarbeitet werden
- Cluster können zu größeren Clustern zusammengefasst werden
- zeigt Beziehungen zwischen Clustern mit an














































