Wissensrepräsentation für Texte Flashcards
Wie unterscheiden sich die Repräsentationsformen für Textinhalte zwischen Datenbanksysteme und Information Retrieval Systeme?
In DBS ist die Repräsentationsform eindeutig aber nicht in IR. Hier ist es ein zentrales Problem.
Was hat man zu gewinnen, mit einer klaren Repräsentationsform?
Man kann die Precision und Recall erhören. Mehr Precision wenn man weniger nicht relevante Dokumente liefert und mehr Recall wenn von den Relevanten Dokumente liefert kann.
Wie kann man die Repräsentationsform verbessern?
Es gibt zwei Lösungsansätze:
- Semantischer Ansatz - eine zweite Repräsentation wird erstellt, die unabhängig von der konkreten Formulierung im Text ist. Ein Klassifikationssystem wird erstellt -> die Repräsentation wird eindeutig
- Freitextsuche - Funktionen zur Verbesserung der Suche im Text der Dokumente werden angeboten (informatischer Ansatz oder computerlinguisitscher Ansatz)
Was ist die Freitextsuche und warum wird es benutzt?
Ein Ansatz um das Problem der Repräsentationsform für Textinhalte zu lösen. Hierbei wird keine zusätzliche Repräsentation erstellt, sondern es werden nur bestimmte Funktionen zur Verbesserung der Suche im Text der Dokumente angeboten. Zwei Untertypen:
informatischer Ansatz: Textretrieval als Zeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen
Was ist der semantischer Ansatz?
Ein Ansatz um das Problem der Repräsentationsform für Textinhalte zu lösen.
Durch die Zuordnung von Deskriptionen zu Texten wird versucht, eine Repr¨asentation zu erstellen, die weitgehend unabh¨angig von der konkreten Formulierung im Text ist.
Zuordnung von Deskriptionen zu Texten →
Dokumentationssprachen
Was ist ein Token
(Wichtig für die Freitextsuche.) Einzelnes Wort im laufenden Text
Was ist ein Type?
(Wichtig für die Freitextsuche.) einzelnes Wort des Vokabulars
Was ist Morphem und Flexion?
(Wichtig für die Freitextsuche.) Morphem ist die kleinste bedeutungstragende Einheit in einem Wort, z.B. Blend-e, lauf-en
Flexion: Deklination, Konjugation und Komparation von Wörtern (Inflection: word is modified to express different grammatical categories such as tense, case, voice, aspect, person, number, gender, mood, animacy, and definiteness. ex: dog, dogs, run, running)
Was ist Grundform/Lemma?
(Wichtig für die Freitextsuche.) • Grundform/Lemma: unflektierte Wortform; fur Nomen ist es der Nominativ Singular, f ¨ ur Verben ¨ der Infinitv, fur Adjektive und Adverbien die ungesteigerte Form (Positiv).
Was ist Derivation?
(Wichtig für die Freitextsuche.) Derivation: Wortbildung aus dem Wortstamm mit Hilfe von Pr¨afixen und Suffixen, z.B. haus: Haus– häuslich – aushäusig,
Derivationsform ist der Derivation zugrunde liegende lexikalische
Morphem (haus)
Was ist der informatischer Ansatz bei der Freitextsuche?
Dieser Ansatz (der heute fast nur noch in einigen kommerziell angebotenen IR-Systemen zu finden ist) Textretrieval = Zeichenkettensuche
Operatoren:
- Truncation
- Maskierung
- Kontextoperatoren
- 1 genauer Abstand ($)
- 2 maximaler Wortabstand (#)
- 3 Wortreihenfolge (,) ‘information #, retireval’
- 4 gleicher Satz (.) ‘information # retrieval. matcht nicht ‘…this information. Retrieval of data …’
Was ist der computerlinguistischer Ansatz bei der Freitextsuche?
Hier wird mit Hilfe von morphologischen und teilweise auch syntaktischen Verfahren eine Normalisierung von Wortformen angestrebt, so dass sich die Suche auf W¨orter bezieht (im Gegensatz zu den
Zeichenketten beim informatischen Ansatz).
Was sind die Vorverarbeitungsschritte bei der Freitextsuche?
Vorverarbeitung bei Freitextsuche:
- Textbereinigung
- tokenization
- Stoppwortbestimmung -löschen von nicht-bedeutungstragende Wörter wie Artikel, Konjunktionen…
- Satzende-Erkenndung
- Wortnormalisierung - Schreibweisenvarianten zusammenführen
Was ist Tokenization?
Ist ein Vorverarbeitungsschritt für die Freitextsuche.
Zerlegung des Textes in einzelne W¨orter
Leer- und Interpunktionszeichen werden
hier als Worttrenner aufgefasst. Bei einigen ostasiatischen Sprachen (z.B. chinesisch) gibt es keine expliziten Worttrenner; man kann das Ende eines Wortes nur mit Hilfe eines Lexikons erkennen.
Was ist Wortnormalisierung und wie passiert die?
Ist ein Vorverarbeitungsschritt für die Freitextsuche. Wortnormalisierung: Um Schreibweisenvarianten zusammenzufuhren, werden die Wörter durch verschiedene Methoden normalisiert (Mithilfe von Wörterbuch):
• Groß-/Kleinschreibung: in Kleinschreibung überführen.
• Rechtschreibung: auf die aktuelle Schreibweise abbilden.
• Nationale Schreibvarianten werden vereinheitlicht. bsp: ‘color’ ‘colour’
• Zusammen- und Getrennt-Schreibungen zusammenzufuhren: ¨ meta-tag/meta tag/metatag,
• H¨aufige Abkurzungen zu Langform
Was sind die Probleme der Freitextsuche?
der reduzierte Text enthält Fehler wegen:
- Homographen (Wort mit gleicher Schreibeweise aber verschiedene Ausprache und andere Bedeutung) ex: present, to present
- Polyseme: (Wort mit mehreren Bedeutungen) Bank
- Flexionsformen: schreibt – schrieb – geschrieben
- Derivationsformen: Formatierung – Format – formatieren
- Komposita: Donaudampfschiffahrtsgesellschaftskapit¨an
6: Nominalphrasen:Wahl des Bundeskanzlers, information retrieval – retrieval of information – information was retrieved
Was ist das Formulierungs-Problem?
Das Problem ist, das trotz Vorverarbeitungsschritte bei der Freitextsuche kann manche Formulierungen nicht richtig erkannt werden, wenn sie untypisch beschrieben werden: Bsp: selbsttätig aktivierendes Personen-Ruckhaltesystem für Fahrzeuge = Airbag
Was sind die Zeichenketten-Operatoren für die Freitextsuche (informatischer Ansatz)?
$ - genau ein Zeichen, # - beliebig lange Zeichenfolge
- Truncation: (Front oder end) front:
a. front: #schreib: schreiben, beschreiben, anschreiben, verschreiben.
b. schreib$$- schreiben, schreibst - Maskierung: (Mitten Maskierung):
h$$s#: Haus, Häuser/Hanse, hausen, hassen
Was sind die Kontextoperatoren für die Freitextsuche (informatischer Ansatz) und was kann man hier erreichen?
Man kann nach Nominalphrasen suchen. z.B. information AND Retrieval
- genauer Wortabstand ($)
- maximaler Wortabstand (#) - text ## retrieval: dazu passt ‘text retrieval’, ‘text and fact retrieval’
- Wortreihenfolge (‘,’)
- gleicher Satz (.): information # retrieval. match nicht: ‘…this information. Retrieval of data…”