Wissensrepräsentation für Texte Flashcards
Wie unterscheiden sich die Repräsentationsformen für Textinhalte zwischen Datenbanksysteme und Information Retrieval Systeme?
In DBS ist die Repräsentationsform eindeutig aber nicht in IR. Hier ist es ein zentrales Problem.
Was hat man zu gewinnen, mit einer klaren Repräsentationsform?
Man kann die Precision und Recall erhören. Mehr Precision wenn man weniger nicht relevante Dokumente liefert und mehr Recall wenn von den Relevanten Dokumente liefert kann.
Wie kann man die Repräsentationsform verbessern?
Es gibt zwei Lösungsansätze:
- Semantischer Ansatz - eine zweite Repräsentation wird erstellt, die unabhängig von der konkreten Formulierung im Text ist. Ein Klassifikationssystem wird erstellt -> die Repräsentation wird eindeutig
- Freitextsuche - Funktionen zur Verbesserung der Suche im Text der Dokumente werden angeboten (informatischer Ansatz oder computerlinguisitscher Ansatz)
Was ist die Freitextsuche und warum wird es benutzt?
Ein Ansatz um das Problem der Repräsentationsform für Textinhalte zu lösen. Hierbei wird keine zusätzliche Repräsentation erstellt, sondern es werden nur bestimmte Funktionen zur Verbesserung der Suche im Text der Dokumente angeboten. Zwei Untertypen:
informatischer Ansatz: Textretrieval als Zeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen
Was ist der semantischer Ansatz?
Ein Ansatz um das Problem der Repräsentationsform für Textinhalte zu lösen.
Durch die Zuordnung von Deskriptionen zu Texten wird versucht, eine Repr¨asentation zu erstellen, die weitgehend unabh¨angig von der konkreten Formulierung im Text ist.
Zuordnung von Deskriptionen zu Texten →
Dokumentationssprachen
Was ist ein Token
(Wichtig für die Freitextsuche.) Einzelnes Wort im laufenden Text
Was ist ein Type?
(Wichtig für die Freitextsuche.) einzelnes Wort des Vokabulars
Was ist Morphem und Flexion?
(Wichtig für die Freitextsuche.) Morphem ist die kleinste bedeutungstragende Einheit in einem Wort, z.B. Blend-e, lauf-en
Flexion: Deklination, Konjugation und Komparation von Wörtern (Inflection: word is modified to express different grammatical categories such as tense, case, voice, aspect, person, number, gender, mood, animacy, and definiteness. ex: dog, dogs, run, running)
Was ist Grundform/Lemma?
(Wichtig für die Freitextsuche.) • Grundform/Lemma: unflektierte Wortform; fur Nomen ist es der Nominativ Singular, f ¨ ur Verben ¨ der Infinitv, fur Adjektive und Adverbien die ungesteigerte Form (Positiv).
Was ist Derivation?
(Wichtig für die Freitextsuche.) Derivation: Wortbildung aus dem Wortstamm mit Hilfe von Pr¨afixen und Suffixen, z.B. haus: Haus– häuslich – aushäusig,
Derivationsform ist der Derivation zugrunde liegende lexikalische
Morphem (haus)
Was ist der informatischer Ansatz bei der Freitextsuche?
Dieser Ansatz (der heute fast nur noch in einigen kommerziell angebotenen IR-Systemen zu finden ist) Textretrieval = Zeichenkettensuche
Operatoren:
- Truncation
- Maskierung
- Kontextoperatoren
- 1 genauer Abstand ($)
- 2 maximaler Wortabstand (#)
- 3 Wortreihenfolge (,) ‘information #, retireval’
- 4 gleicher Satz (.) ‘information # retrieval. matcht nicht ‘…this information. Retrieval of data …’
Was ist der computerlinguistischer Ansatz bei der Freitextsuche?
Hier wird mit Hilfe von morphologischen und teilweise auch syntaktischen Verfahren eine Normalisierung von Wortformen angestrebt, so dass sich die Suche auf W¨orter bezieht (im Gegensatz zu den
Zeichenketten beim informatischen Ansatz).
Was sind die Vorverarbeitungsschritte bei der Freitextsuche?
Vorverarbeitung bei Freitextsuche:
- Textbereinigung
- tokenization
- Stoppwortbestimmung -löschen von nicht-bedeutungstragende Wörter wie Artikel, Konjunktionen…
- Satzende-Erkenndung
- Wortnormalisierung - Schreibweisenvarianten zusammenführen
Was ist Tokenization?
Ist ein Vorverarbeitungsschritt für die Freitextsuche.
Zerlegung des Textes in einzelne W¨orter
Leer- und Interpunktionszeichen werden
hier als Worttrenner aufgefasst. Bei einigen ostasiatischen Sprachen (z.B. chinesisch) gibt es keine expliziten Worttrenner; man kann das Ende eines Wortes nur mit Hilfe eines Lexikons erkennen.
Was ist Wortnormalisierung und wie passiert die?
Ist ein Vorverarbeitungsschritt für die Freitextsuche. Wortnormalisierung: Um Schreibweisenvarianten zusammenzufuhren, werden die Wörter durch verschiedene Methoden normalisiert (Mithilfe von Wörterbuch):
• Groß-/Kleinschreibung: in Kleinschreibung überführen.
• Rechtschreibung: auf die aktuelle Schreibweise abbilden.
• Nationale Schreibvarianten werden vereinheitlicht. bsp: ‘color’ ‘colour’
• Zusammen- und Getrennt-Schreibungen zusammenzufuhren: ¨ meta-tag/meta tag/metatag,
• H¨aufige Abkurzungen zu Langform
Was sind die Probleme der Freitextsuche?
der reduzierte Text enthält Fehler wegen:
- Homographen (Wort mit gleicher Schreibeweise aber verschiedene Ausprache und andere Bedeutung) ex: present, to present
- Polyseme: (Wort mit mehreren Bedeutungen) Bank
- Flexionsformen: schreibt – schrieb – geschrieben
- Derivationsformen: Formatierung – Format – formatieren
- Komposita: Donaudampfschiffahrtsgesellschaftskapit¨an
6: Nominalphrasen:Wahl des Bundeskanzlers, information retrieval – retrieval of information – information was retrieved
Was ist das Formulierungs-Problem?
Das Problem ist, das trotz Vorverarbeitungsschritte bei der Freitextsuche kann manche Formulierungen nicht richtig erkannt werden, wenn sie untypisch beschrieben werden: Bsp: selbsttätig aktivierendes Personen-Ruckhaltesystem für Fahrzeuge = Airbag
Was sind die Zeichenketten-Operatoren für die Freitextsuche (informatischer Ansatz)?
$ - genau ein Zeichen, # - beliebig lange Zeichenfolge
- Truncation: (Front oder end) front:
a. front: #schreib: schreiben, beschreiben, anschreiben, verschreiben.
b. schreib$$- schreiben, schreibst - Maskierung: (Mitten Maskierung):
h$$s#: Haus, Häuser/Hanse, hausen, hassen
Was sind die Kontextoperatoren für die Freitextsuche (informatischer Ansatz) und was kann man hier erreichen?
Man kann nach Nominalphrasen suchen. z.B. information AND Retrieval
- genauer Wortabstand ($)
- maximaler Wortabstand (#) - text ## retrieval: dazu passt ‘text retrieval’, ‘text and fact retrieval’
- Wortreihenfolge (‘,’)
- gleicher Satz (.): information # retrieval. match nicht: ‘…this information. Retrieval of data…”
Aufgabe 3 HW: Finde Suchanfragen mit Trunkierungs- und Maskierungsoperatoren, die die ersten Wörter in den folgenden Listen matchen, nicht die letzten Terme. Die Terme sind: laufen lief gelaufen läuft Luft (nicht) Licht (nicht) und Stadt Städte Stadtrat Student (nicht)
Lösung; #l\$\$f#
und
st$dt#
Was ist eine “Representationsform”?
Die Representationsform ist die Form der Anfrage oder die Form des Dokumententextes. Die Representationsform kann die konkrete Formulierung im Text sein oder es kann eine erstellte zweite Representationsform sein, z.B. bei dem semantischen Ansatz.
Welche Ansätze gibt es bei der Freitextsuche?
Es gibt:
• informatischer Ansatz:
Dieser Ansatz (der heute fast nur noch in einigen kommerziell angebotenen IR-Systemen zu finden
ist) fasst Textretrieval als Zeichenkettensuche auf und bietet entsprechende Funktionen auf Zeichenkettenebene.
• computerlinguistischer Ansatz:
Hier wird mit Hilfe von morphologischen und teilweise auch syntaktischen Verfahren eine Normalisierung von Wortformen angestrebt, so dass sich die Suche auf W¨orter bezieht (im Gegensatz zu den
Zeichenketten beim informatischen Ansatz).
Welche Arten von Verfahren gibt es bei der computerlinguistischer Ansatz?
Arten von Verfahren:
1. graphematische Verfahren:
BASIEREND AUF ANALYSE VON BUCHSTABENFOLGEN- Algorithmus, haupts¨achlich zur
Zusammenfuhrung von Flexions- oder
Derivationsformen (Morphologie). (Ex dogs -> dog, applies -> appl -> apply)
- lexikalische Verfahren BASIEREND AUF EINEM W¨ORTERBUCH. Enthalten folgende Relationen: 1. Flexiionsform (Vollform/Grundform von flektieren Wörter ging - gehen) 2. Derivationsform (Berechnung, rechnen), 3. Komposita (Haustür) Achtung nicht immer eindeutig 4. Synonyme: (Handy -Mobiltelefon)
- syntaktische Verfahren: zur Identifikation von mehrgliedrigen Ausdrucken. 1. Wortklassenbestimmung, 2. Parsing (Erkennen der Syntak. Struktur), 3. Identifikation von Nominalphrasen, 4. Head-Modifier-Strukturen, 5. Matching
**Welche der in der Vorlesung behandelten Verfahren zur Textrepräsentation bei der Freitextsuche werden bei Google eingesetzt? Durch welche Operatoren kann man die jeweils ansprechen?
- Grund und Stammformreduktion
- Flexionsformen, Derivationsformen,
- Synonyme
Was ist der Nachteil bei graphematischen Verfahren?
Bei stark flexierten Sprachen wie Deutsch gibt es eine höhere Fehlerquote als bei wenig flektierten Sprachen (Englisch).
Was ist ein Nachteil bei lexikalischen Verfahren
Sie benötigen eine ständige Pflege des Wörterbuches.
Was ist eine Head-Modifier Struktur?
Fur eine zweigliedrige Nominalphrasen be- ¨
zeichnet dabei Head das Nomen, das die wesentliche Bedeutung des Kompositums ausdruckt, z.B. informa- ¨
tion retrieval (MH) , indexing algorithm (MH), Wahl des Kanzlers (HM). Der Modifier dagegen spezialisiert oder modifiziert die Bedeutung des heads.
Was ist der Vorteil bei semantischen Ansätze der Textrepräsentation?
Durch die Zuordnung von Deskriptionen zu Texten, wird eine zweite Repr¨asentation des Textes (Anfrage/Textdokument) erstellt, die weitgehend unabh¨angig von der konkreten Formulierung im Text ist (der morphologisch/syntaktisch mehrdeutig ist).
Zuordnung von Deskriptionen zu Texten →
Dokumentationssprachen
Was ist eine Dokumentationssprache? Nennen Sie vier Beispiele.
Zuordnung von Deskriptionen zu Texten → Dokumentationssprachen. Beispielle: 1. Klassifikationen- Strukturierung nach einem vorgegeben formalen Schema 2. Thesauri 3. Ontologien 4. Tagging
Nennen Sie ein Beispiel von dem semantischen Ansatz zur Text Repräsentation, Klassifikation.
Klassifikations Bsp:
- Web-Kataloge - Yahoo
- im Fachgebiete - LCC Library of Congress Classification, DDC Dewey Decimal Classification (library classification)
Was ist die Facettenklassifikation?
Heisst auch ‘synthetische Klassifikation’ und geht ‘bottom-up’. Hier wierden zuerst die relevanten Merkmale erhoben und im Klassifikationssystem zusammengestellt, dann werden die Klassen durch Kombination der Merkmale gebilder. Bsp: “Niederstämmiger Frühapfelbaum” = A1B3C1 ‘ = Fructart: Apfel (A1), Stammart: niederstämmig (B3), Ernetzeit: früh (C1)
Es seien die folgenden Tierarten gegeben: Forelle Pferd Spitzmaus Delphin Schwein Hund Papagei Blauwal Pinguin Geier Aal Löwe Kuh (a) Entwickle zunächst eine Facettenklassikation für diese Begriffe. Verwende 3-4 Facetten.
Hülle: Fell/Federn/Schuppen/Haut
Lebensraum: Land/Wasser/Luft
Nahrung: Pflanzen/Fleisch
Säugetier: ja/nein
Es seien die folgenden Tierarten gegeben: Forelle Pferd Spitzmaus Delphin Schwein Hund Papagei Blauwal Pinguin Geier Aal Löwe Kuh Entwickle eine monohierarchische Klassifikation der Begriffe mit 5 Klassen und Unterklassen.
Tiere-> ( Saugetiere, Fische, Vogel)
Saugetiere -> (Landsäuger, Meeresäuger)
Landsäuger -> (domestiziert, wild)
Was ist die monohierarchische Klassifikation, die polyhierarchische Klassifikation?
Beide heissen ‘Analytische Klassifikation’ und gehen ‘top-down’.
- Monohierarchische Klassifikation: jede Klasse erbt von genau einer Superklasse.
- Polyhierarchische Klassifikation: eine Klasse kann mehrere Superklassen haben.
Was ist polydimensionalität (Klassifikation)?
Polydimensionalität heisst, dass es mehrere Ebenen der Vererbung in der Klassifikation gibt.
Wo findet man Facettenklassifikation heutzutage?
Man findet die insbesondere bei der Produktsuche z.B. in Onlineshops aber auch be Web-Suchmaschinen wie Yahoo.
Was ist eine Thesaurus?
Ein Thesaurus ist eine Dokumentationssprache, die Begriffe zueinander zuordnet.
Es gibt eine Kontrolle der Terminologien durch Erfassung von
- Synonymen
- Homographen (words with same spelling, but different pronunciation and meaning),
- Polysemen (one word with same history and with different meanings ex ‘man’) und
- Festlegung Vorzugsbennenungen (USE) so wie eine
- Darstellung von Beziehungen zwischen Begriffen(Used for (UF)), Related Term (RT), Broader Term (BT), Narrow Term (NT)),
Was ist die Gefahr bei einem Thesaurus bei Sprachen wie Deutsch die viele Kompositawörte haben?
Der Thesaurus kann zu umfangreich und unübersichtlich werden.
Lösung UNITERM-Verfahrne. HIerbei werden nur Begriffe in Thesaurus aufgenommen, die nicht weiter zerlegbar sind. Bei dem Retrieval müssen viele Uniterms verkettet werden: Bsp Baum +Stamm = Baumstamm/ STammbaum (=Verkettung heisst Postkoordination)
Was sind Thesaurus Deskriptoren?
Bei der Behandlung von Äquivalenzklassen gibt es Thesauri, die alle Elemente der Klasse gleich behandeln (ohne Vorzugsbennung) oder Thesauri, die Ein Element für die Klasse auswählen als Repräsentativ auswählen (mit Vorzugsbennung) = > Deskriptoren.
Was sind die Deskriptoren/Beziehungsrelationen bei Thesaurus mit Vorzugsbenennung?
BS - Benutze Synonym (USE) BF - Benutzt für (Use for - UF) UB - Unterbegriff /Narrow Term NT OB - Oberbegriff / Broader Term BT VB - Verwandter Begriff / Related Term RT
Entwickle einen Thesaurus-Ausschnitt für das Gebiet ‘Hochschule’. Er
soll mindestens 15 Deskriptoren enthalten und mindestens 3 Ebenen tief sein
(bezüglich der hierarchischen Relationen). Benutze zur Strukturierung die Relationen Oberbegri , Unterbegri , Verwandter Begri , Benutze Synonym und
Benutzt für Synonym.
"Hochschule" BT Bildungseinrichtung BT Forschungseinrichtung UF HS NT Fachhochschule RT Hochschulabschluss RT Leistung
Entwickle einen Thesaurus-Ausschnitt für das Gebiet Softwareentwicklung. Er
soll mindestens 15 Deskriptoren enthalten und mindestens 3 Ebenen tief sein
(bezüglich der hierarchischen Relationen). Benutze zur Strukturierung die Relationen Oberbegri , Unterbegri , Verwandter Begri , Benutze Synonym und
Benutzt für Synonym.
Softwareentwicklung BS -Softwaretechnik VB Softwaretechnologie VB Software Engineering UB (narrower term) Agile-Softwareentwicklung
Give an example of the thesaurus entry for ‘information retrieval’
information retrieval: UF CD-ROM searching Data access Document retrieval Online literature searching Retrieval, information BT Information science NT Query formulation Query processing Relevance feedback RT Bibliographic systems Information analysis Information storage Query languages
Was ist eine Ontologie?
Eine Ontologie ist eine Dokumentationssprache und hilft bei dem semantischen Ansatz der Textrepräsentation.
Ontologien vereinigen Konzepte aus Datenbankschemata und Thesauri in sich. Die haben:
Konzepte/Klassen. Klasse - Menge von Instanzen.
Vererbung
Slots: Eigenschaften/Relationen- Ein Konzept hat mehrere Slots. Ein Slot ist eine Eigenschaft oder Beziehung. Ein Slot hat einen Typ (range(obj_name) = string) und Wert.
(Aufgabe 6) Entwirf eine Ontologie zum Thema Getränke, die in einem Expertensystem
eingesetzt werden soll, um Gastronomie-Journalisten zu unterstützen. Die Ontologie soll aus ungefähr 10 Klassen bzw. Unterklassen bestehen. Gib für jede
Klasse ihre Oberklasse an, sowie ca. 2 Slots und deren Domains und Ranges.
Die oberste Oberklasse ist Ding.
Instanzen müssen nicht angegeben werden.
Ding { Getränk { Getränk subClassOf Ding Alkoholisch { Alkoholisch subClassOf Getränk
Wein { Wein subClassOf Alkoholisch } Bier { Bier subClassOf Alkoholisch } Whisky { Whisky subClassOf Alkoholisch } SLOT: Prozent { Prozent domain Alkoholisch Range(Prozent) = double } } Nicht-Alkoholisch { Nicht-Alkoholisch subClassOf Getränk Softdrink { Softdrink subClassOf Nicht-Alkoholisch } } } Lokal { Lokal subClassOf Ding Bar { Bar subClassOf Lokal } Restaurant { Restaurant subClassOf Lokal } } SLOT: Name { Name domain Ding Range(Name) = string } SLOT: Bewertung { Bewertung domain Ding Range(Bewertung) = string } }
Wie sucht man Information in einer Ontologie?
Die Ontologie enthält Instanzen der Klassen. Für jede Klasse werden Werte der Slots gesetzt. Man sucht nach Instanzen, wo Slots-Werte passen.
Nennen Sie ein Beispiel von einer Ontologie.
YAGO: automatisch extrahierten Instanzen aus Wikipedia. Benutzer such im Ontologie Browser
Was ist Tagging?
Tagging ist eine Dokumentationssprache wo die Pflege des Vokabulars aund Zuordnung von Deskriptionen zu Dokumenten NICHT durch speziell geschulte Fachkräfte erfolgt sondern durch die Nutzer, die Elementen mit “Tags” die Dokumente in Beziehung bringen.
Beispiel - Flicker (Tagging von Fotos),
last.fm (Tagging von Genres)
Was sind die Vor- und Nachteil von Tagging?
Vorteile:
1. einfache, intuitive Nutzung
2. flexibel, erweiterbar (an neuen Trends)
3. inklusiv (populäre Themen obenso Spezialthemen) und spiegeln (Pop-)Vokabular der Nutzer
4. Gemeinschaftsgefühl
5. Gut für nicht-textuelle Dokumente
Nachteile:
1. Inkonsistenzen bzgl. Terminologie und Abdeckung!!
2. Mehrdeutige Tags und Redundanzen
“Tagging bulldozes the cost of classification and piles it into the price of discovery”