Wissensrepräsentation für Texte Flashcards

1
Q

Wie unterscheiden sich die Repräsentationsformen für Textinhalte zwischen Datenbanksysteme und Information Retrieval Systeme?

A

In DBS ist die Repräsentationsform eindeutig aber nicht in IR. Hier ist es ein zentrales Problem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was hat man zu gewinnen, mit einer klaren Repräsentationsform?

A

Man kann die Precision und Recall erhören. Mehr Precision wenn man weniger nicht relevante Dokumente liefert und mehr Recall wenn von den Relevanten Dokumente liefert kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie kann man die Repräsentationsform verbessern?

A

Es gibt zwei Lösungsansätze:

  1. Semantischer Ansatz - eine zweite Repräsentation wird erstellt, die unabhängig von der konkreten Formulierung im Text ist. Ein Klassifikationssystem wird erstellt -> die Repräsentation wird eindeutig
  2. Freitextsuche - Funktionen zur Verbesserung der Suche im Text der Dokumente werden angeboten (informatischer Ansatz oder computerlinguisitscher Ansatz)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist die Freitextsuche und warum wird es benutzt?

A

Ein Ansatz um das Problem der Repräsentationsform für Textinhalte zu lösen. Hierbei wird keine zusätzliche Repräsentation erstellt, sondern es werden nur bestimmte Funktionen zur Verbesserung der Suche im Text der Dokumente angeboten. Zwei Untertypen:
informatischer Ansatz: Textretrieval als Zeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist der semantischer Ansatz?

A

Ein Ansatz um das Problem der Repräsentationsform für Textinhalte zu lösen.
Durch die Zuordnung von Deskriptionen zu Texten wird versucht, eine Repr¨asentation zu erstellen, die weitgehend unabh¨angig von der konkreten Formulierung im Text ist.
Zuordnung von Deskriptionen zu Texten →
Dokumentationssprachen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist ein Token

A

(Wichtig für die Freitextsuche.) Einzelnes Wort im laufenden Text

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist ein Type?

A

(Wichtig für die Freitextsuche.) einzelnes Wort des Vokabulars

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist Morphem und Flexion?

A

(Wichtig für die Freitextsuche.) Morphem ist die kleinste bedeutungstragende Einheit in einem Wort, z.B. Blend-e, lauf-en
Flexion: Deklination, Konjugation und Komparation von Wörtern (Inflection: word is modified to express different grammatical categories such as tense, case, voice, aspect, person, number, gender, mood, animacy, and definiteness. ex: dog, dogs, run, running)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist Grundform/Lemma?

A

(Wichtig für die Freitextsuche.) • Grundform/Lemma: unflektierte Wortform; fur Nomen ist es der Nominativ Singular, f ¨ ur Verben ¨ der Infinitv, fur Adjektive und Adverbien die ungesteigerte Form (Positiv).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist Derivation?

A

(Wichtig für die Freitextsuche.) Derivation: Wortbildung aus dem Wortstamm mit Hilfe von Pr¨afixen und Suffixen, z.B. haus: Haus– häuslich – aushäusig,

Derivationsform ist der Derivation zugrunde liegende lexikalische
Morphem (haus)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist der informatischer Ansatz bei der Freitextsuche?

A
Dieser Ansatz (der heute fast nur noch in einigen kommerziell angebotenen IR-Systemen zu finden
ist) 
 Textretrieval = Zeichenkettensuche

Operatoren:

  1. Truncation
  2. Maskierung
  3. Kontextoperatoren
  4. 1 genauer Abstand ($)
  5. 2 maximaler Wortabstand (#)
  6. 3 Wortreihenfolge (,) ‘information #, retireval’
  7. 4 gleicher Satz (.) ‘information # retrieval. matcht nicht ‘…this information. Retrieval of data …’
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist der computerlinguistischer Ansatz bei der Freitextsuche?

A

Hier wird mit Hilfe von morphologischen und teilweise auch syntaktischen Verfahren eine Normalisierung von Wortformen angestrebt, so dass sich die Suche auf W¨orter bezieht (im Gegensatz zu den
Zeichenketten beim informatischen Ansatz).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind die Vorverarbeitungsschritte bei der Freitextsuche?

A

Vorverarbeitung bei Freitextsuche:

  1. Textbereinigung
  2. tokenization
  3. Stoppwortbestimmung -löschen von nicht-bedeutungstragende Wörter wie Artikel, Konjunktionen…
  4. Satzende-Erkenndung
  5. Wortnormalisierung - Schreibweisenvarianten zusammenführen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist Tokenization?

A

Ist ein Vorverarbeitungsschritt für die Freitextsuche.

Zerlegung des Textes in einzelne W¨orter

Leer- und Interpunktionszeichen werden
hier als Worttrenner aufgefasst. Bei einigen ostasiatischen Sprachen (z.B. chinesisch) gibt es keine expliziten Worttrenner; man kann das Ende eines Wortes nur mit Hilfe eines Lexikons erkennen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist Wortnormalisierung und wie passiert die?

A

Ist ein Vorverarbeitungsschritt für die Freitextsuche. Wortnormalisierung: Um Schreibweisenvarianten zusammenzufuhren, werden die Wörter durch verschiedene Methoden normalisiert (Mithilfe von Wörterbuch):
• Groß-/Kleinschreibung: in Kleinschreibung überführen.
• Rechtschreibung: auf die aktuelle Schreibweise abbilden.
• Nationale Schreibvarianten werden vereinheitlicht. bsp: ‘color’ ‘colour’
• Zusammen- und Getrennt-Schreibungen zusammenzufuhren: ¨ meta-tag/meta tag/metatag,
• H¨aufige Abkurzungen zu Langform

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind die Probleme der Freitextsuche?

A

der reduzierte Text enthält Fehler wegen:

  1. Homographen (Wort mit gleicher Schreibeweise aber verschiedene Ausprache und andere Bedeutung) ex: present, to present
  2. Polyseme: (Wort mit mehreren Bedeutungen) Bank
  3. Flexionsformen: schreibt – schrieb – geschrieben
  4. Derivationsformen: Formatierung – Format – formatieren
  5. Komposita: Donaudampfschiffahrtsgesellschaftskapit¨an
    6: Nominalphrasen:Wahl des Bundeskanzlers, information retrieval – retrieval of information – information was retrieved
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist das Formulierungs-Problem?

A

Das Problem ist, das trotz Vorverarbeitungsschritte bei der Freitextsuche kann manche Formulierungen nicht richtig erkannt werden, wenn sie untypisch beschrieben werden: Bsp: selbsttätig aktivierendes Personen-Ruckhaltesystem für Fahrzeuge = Airbag

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was sind die Zeichenketten-Operatoren für die Freitextsuche (informatischer Ansatz)?

A

$ - genau ein Zeichen, # - beliebig lange Zeichenfolge

  1. Truncation: (Front oder end) front:
    a. front: #schreib: schreiben, beschreiben, anschreiben, verschreiben.
    b. schreib$$- schreiben, schreibst
  2. Maskierung: (Mitten Maskierung):
    h$$s#: Haus, Häuser/Hanse, hausen, hassen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was sind die Kontextoperatoren für die Freitextsuche (informatischer Ansatz) und was kann man hier erreichen?

A

Man kann nach Nominalphrasen suchen. z.B. information AND Retrieval

  1. genauer Wortabstand ($)
  2. maximaler Wortabstand (#) - text ## retrieval: dazu passt ‘text retrieval’, ‘text and fact retrieval’
  3. Wortreihenfolge (‘,’)
  4. gleicher Satz (.): information # retrieval. match nicht: ‘…this information. Retrieval of data…”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q
Aufgabe 3 HW: 
Finde Suchanfragen mit Trunkierungs- und Maskierungsoperatoren, die
die ersten Wörter in den folgenden Listen matchen, nicht die letzten Terme. 
Die Terme sind:
ˆ laufen
ˆ lief
ˆ gelaufen
ˆ läuft
ˆ Luft (nicht)
ˆ Licht (nicht)
und 
ˆ Stadt
ˆ Städte
ˆ Stadtrat
ˆ Student (nicht)
A
Lösung;
#l\$\$f#

und

st$dt#

21
Q

Was ist eine “Representationsform”?

A

Die Representationsform ist die Form der Anfrage oder die Form des Dokumententextes. Die Representationsform kann die konkrete Formulierung im Text sein oder es kann eine erstellte zweite Representationsform sein, z.B. bei dem semantischen Ansatz.

22
Q

Welche Ansätze gibt es bei der Freitextsuche?

A

Es gibt:
• informatischer Ansatz:
Dieser Ansatz (der heute fast nur noch in einigen kommerziell angebotenen IR-Systemen zu finden
ist) fasst Textretrieval als Zeichenkettensuche auf und bietet entsprechende Funktionen auf Zeichenkettenebene.
• computerlinguistischer Ansatz:
Hier wird mit Hilfe von morphologischen und teilweise auch syntaktischen Verfahren eine Normalisierung von Wortformen angestrebt, so dass sich die Suche auf W¨orter bezieht (im Gegensatz zu den
Zeichenketten beim informatischen Ansatz).

23
Q

Welche Arten von Verfahren gibt es bei der computerlinguistischer Ansatz?

A

Arten von Verfahren:
1. graphematische Verfahren:
BASIEREND AUF ANALYSE VON BUCHSTABENFOLGEN- Algorithmus, haupts¨achlich zur
Zusammenfuhrung von Flexions- oder
Derivationsformen (Morphologie). (Ex dogs -> dog, applies -> appl -> apply)

  1. lexikalische Verfahren BASIEREND AUF EINEM W¨ORTERBUCH. Enthalten folgende Relationen: 1. Flexiionsform (Vollform/Grundform von flektieren Wörter ging - gehen) 2. Derivationsform (Berechnung, rechnen), 3. Komposita (Haustür) Achtung nicht immer eindeutig 4. Synonyme: (Handy -Mobiltelefon)
  2. syntaktische Verfahren: zur Identifikation von mehrgliedrigen Ausdrucken. 1. Wortklassenbestimmung, 2. Parsing (Erkennen der Syntak. Struktur), 3. Identifikation von Nominalphrasen, 4. Head-Modifier-Strukturen, 5. Matching
24
Q

**Welche der in der Vorlesung behandelten Verfahren zur Textrepräsentation bei der Freitextsuche werden bei Google eingesetzt? Durch welche Operatoren kann man die jeweils ansprechen?

A
  • Grund und Stammformreduktion
  • Flexionsformen, Derivationsformen,
  • Synonyme
25
Q

Was ist der Nachteil bei graphematischen Verfahren?

A

Bei stark flexierten Sprachen wie Deutsch gibt es eine höhere Fehlerquote als bei wenig flektierten Sprachen (Englisch).

26
Q

Was ist ein Nachteil bei lexikalischen Verfahren

A

Sie benötigen eine ständige Pflege des Wörterbuches.

27
Q

Was ist eine Head-Modifier Struktur?

A

Fur eine zweigliedrige Nominalphrasen be- ¨
zeichnet dabei Head das Nomen, das die wesentliche Bedeutung des Kompositums ausdruckt, z.B. informa- ¨
tion retrieval (MH) , indexing algorithm (MH), Wahl des Kanzlers (HM). Der Modifier dagegen spezialisiert oder modifiziert die Bedeutung des heads.

28
Q

Was ist der Vorteil bei semantischen Ansätze der Textrepräsentation?

A

Durch die Zuordnung von Deskriptionen zu Texten, wird eine zweite Repr¨asentation des Textes (Anfrage/Textdokument) erstellt, die weitgehend unabh¨angig von der konkreten Formulierung im Text ist (der morphologisch/syntaktisch mehrdeutig ist).
Zuordnung von Deskriptionen zu Texten →
Dokumentationssprachen

29
Q

Was ist eine Dokumentationssprache? Nennen Sie vier Beispiele.

A
Zuordnung von Deskriptionen zu Texten →
Dokumentationssprachen.
Beispielle: 
1. Klassifikationen- Strukturierung nach einem vorgegeben formalen Schema
2. Thesauri
3. Ontologien
4. Tagging
30
Q

Nennen Sie ein Beispiel von dem semantischen Ansatz zur Text Repräsentation, Klassifikation.

A

Klassifikations Bsp:

  1. Web-Kataloge - Yahoo
  2. im Fachgebiete - LCC Library of Congress Classification, DDC Dewey Decimal Classification (library classification)
31
Q

Was ist die Facettenklassifikation?

A

Heisst auch ‘synthetische Klassifikation’ und geht ‘bottom-up’. Hier wierden zuerst die relevanten Merkmale erhoben und im Klassifikationssystem zusammengestellt, dann werden die Klassen durch Kombination der Merkmale gebilder. Bsp: “Niederstämmiger Frühapfelbaum” = A1B3C1 ‘ = Fructart: Apfel (A1), Stammart: niederstämmig (B3), Ernetzeit: früh (C1)

32
Q
Es seien die folgenden Tierarten gegeben:
ˆ Forelle
ˆ Pferd
ˆ Spitzmaus
ˆ Delphin
ˆ Schwein
ˆ Hund
ˆ Papagei
ˆ Blauwal
ˆ Pinguin
ˆ Geier
ˆ Aal
ˆ Löwe
ˆ Kuh
(a) Entwickle zunächst eine Facettenklassikation für diese Begriffe. Verwende 3-4 Facetten.
A

Hülle: Fell/Federn/Schuppen/Haut
Lebensraum: Land/Wasser/Luft
Nahrung: Pflanzen/Fleisch
Säugetier: ja/nein

33
Q
Es seien die folgenden Tierarten gegeben:
ˆ Forelle
ˆ Pferd
ˆ Spitzmaus
ˆ Delphin
ˆ Schwein
ˆ Hund
ˆ Papagei
ˆ Blauwal
ˆ Pinguin
ˆ Geier
ˆ Aal
ˆ Löwe
ˆ Kuh
Entwickle eine monohierarchische Klassifikation der Begriffe mit 5 Klassen und Unterklassen.
A

Tiere-> ( Saugetiere, Fische, Vogel)
Saugetiere -> (Landsäuger, Meeresäuger)
Landsäuger -> (domestiziert, wild)

34
Q

Was ist die monohierarchische Klassifikation, die polyhierarchische Klassifikation?

A

Beide heissen ‘Analytische Klassifikation’ und gehen ‘top-down’.

  1. Monohierarchische Klassifikation: jede Klasse erbt von genau einer Superklasse.
  2. Polyhierarchische Klassifikation: eine Klasse kann mehrere Superklassen haben.
35
Q

Was ist polydimensionalität (Klassifikation)?

A

Polydimensionalität heisst, dass es mehrere Ebenen der Vererbung in der Klassifikation gibt.

36
Q

Wo findet man Facettenklassifikation heutzutage?

A

Man findet die insbesondere bei der Produktsuche z.B. in Onlineshops aber auch be Web-Suchmaschinen wie Yahoo.

37
Q

Was ist eine Thesaurus?

A

Ein Thesaurus ist eine Dokumentationssprache, die Begriffe zueinander zuordnet.

Es gibt eine Kontrolle der Terminologien durch Erfassung von

  1. Synonymen
  2. Homographen (words with same spelling, but different pronunciation and meaning),
  3. Polysemen (one word with same history and with different meanings ex ‘man’) und
  4. Festlegung Vorzugsbennenungen (USE) so wie eine
  5. Darstellung von Beziehungen zwischen Begriffen(Used for (UF)), Related Term (RT), Broader Term (BT), Narrow Term (NT)),
38
Q

Was ist die Gefahr bei einem Thesaurus bei Sprachen wie Deutsch die viele Kompositawörte haben?

A

Der Thesaurus kann zu umfangreich und unübersichtlich werden.
Lösung UNITERM-Verfahrne. HIerbei werden nur Begriffe in Thesaurus aufgenommen, die nicht weiter zerlegbar sind. Bei dem Retrieval müssen viele Uniterms verkettet werden: Bsp Baum +Stamm = Baumstamm/ STammbaum (=Verkettung heisst Postkoordination)

39
Q

Was sind Thesaurus Deskriptoren?

A

Bei der Behandlung von Äquivalenzklassen gibt es Thesauri, die alle Elemente der Klasse gleich behandeln (ohne Vorzugsbennung) oder Thesauri, die Ein Element für die Klasse auswählen als Repräsentativ auswählen (mit Vorzugsbennung) = > Deskriptoren.

40
Q

Was sind die Deskriptoren/Beziehungsrelationen bei Thesaurus mit Vorzugsbenennung?

A
BS - Benutze Synonym (USE)
BF - Benutzt für (Use for - UF)
UB - Unterbegriff /Narrow Term NT
OB - Oberbegriff / Broader Term BT
VB - Verwandter Begriff / Related Term RT
41
Q

Entwickle einen Thesaurus-Ausschnitt für das Gebiet ‘Hochschule’. Er
soll mindestens 15 Deskriptoren enthalten und mindestens 3 Ebenen tief sein
(bezüglich der hierarchischen Relationen). Benutze zur Strukturierung die Relationen Oberbegri , Unterbegri , Verwandter Begri , Benutze Synonym und
Benutzt für Synonym.

A
"Hochschule"
BT Bildungseinrichtung
BT Forschungseinrichtung
UF HS
NT Fachhochschule
RT Hochschulabschluss
RT Leistung
42
Q

Entwickle einen Thesaurus-Ausschnitt für das Gebiet Softwareentwicklung. Er
soll mindestens 15 Deskriptoren enthalten und mindestens 3 Ebenen tief sein
(bezüglich der hierarchischen Relationen). Benutze zur Strukturierung die Relationen Oberbegri , Unterbegri , Verwandter Begri , Benutze Synonym und
Benutzt für Synonym.

A
Softwareentwicklung
BS -Softwaretechnik
VB Softwaretechnologie
VB Software Engineering
UB (narrower term) Agile-Softwareentwicklung
43
Q

Give an example of the thesaurus entry for ‘information retrieval’

A
information retrieval:
UF 
CD-ROM searching
Data access
Document retrieval
Online literature searching
Retrieval, information
BT Information science
NT 
Query formulation
Query processing
Relevance feedback
RT 
Bibliographic systems
Information analysis
Information storage
Query languages
44
Q

Was ist eine Ontologie?

A

Eine Ontologie ist eine Dokumentationssprache und hilft bei dem semantischen Ansatz der Textrepräsentation.
Ontologien vereinigen Konzepte aus Datenbankschemata und Thesauri in sich. Die haben:
Konzepte/Klassen. Klasse - Menge von Instanzen.
Vererbung
Slots: Eigenschaften/Relationen- Ein Konzept hat mehrere Slots. Ein Slot ist eine Eigenschaft oder Beziehung. Ein Slot hat einen Typ (range(obj_name) = string) und Wert.

45
Q

(Aufgabe 6) Entwirf eine Ontologie zum Thema Getränke, die in einem Expertensystem
eingesetzt werden soll, um Gastronomie-Journalisten zu unterstützen. Die Ontologie soll aus ungefähr 10 Klassen bzw. Unterklassen bestehen. Gib für jede
Klasse ihre Oberklasse an, sowie ca. 2 Slots und deren Domains und Ranges.
Die oberste Oberklasse ist Ding.
Instanzen müssen nicht angegeben werden.

A
Ding {
	Getränk {
		Getränk subClassOf Ding
		Alkoholisch {
			Alkoholisch subClassOf Getränk
			Wein {
				Wein subClassOf Alkoholisch
			}
			Bier {
				Bier subClassOf Alkoholisch
			}
			Whisky {
				Whisky subClassOf Alkoholisch
			}
			SLOT: Prozent {
				Prozent domain Alkoholisch
				Range(Prozent) = double
			}
		}
		Nicht-Alkoholisch {
			Nicht-Alkoholisch subClassOf Getränk
			Softdrink {
				Softdrink subClassOf Nicht-Alkoholisch
			}
		}
	}
	Lokal {
		Lokal subClassOf Ding
		Bar {
			Bar subClassOf Lokal
		}
		Restaurant {
			Restaurant subClassOf Lokal
		}
	}
	SLOT: Name {
		Name domain Ding
		Range(Name) = string
	}
	SLOT: Bewertung {
		Bewertung domain Ding
		Range(Bewertung) = string
	}
}
46
Q

Wie sucht man Information in einer Ontologie?

A

Die Ontologie enthält Instanzen der Klassen. Für jede Klasse werden Werte der Slots gesetzt. Man sucht nach Instanzen, wo Slots-Werte passen.

47
Q

Nennen Sie ein Beispiel von einer Ontologie.

A

YAGO: automatisch extrahierten Instanzen aus Wikipedia. Benutzer such im Ontologie Browser

48
Q

Was ist Tagging?

A

Tagging ist eine Dokumentationssprache wo die Pflege des Vokabulars aund Zuordnung von Deskriptionen zu Dokumenten NICHT durch speziell geschulte Fachkräfte erfolgt sondern durch die Nutzer, die Elementen mit “Tags” die Dokumente in Beziehung bringen.

Beispiel - Flicker (Tagging von Fotos),
last.fm (Tagging von Genres)

49
Q

Was sind die Vor- und Nachteil von Tagging?

A

Vorteile:
1. einfache, intuitive Nutzung
2. flexibel, erweiterbar (an neuen Trends)
3. inklusiv (populäre Themen obenso Spezialthemen) und spiegeln (Pop-)Vokabular der Nutzer
4. Gemeinschaftsgefühl
5. Gut für nicht-textuelle Dokumente
Nachteile:
1. Inkonsistenzen bzgl. Terminologie und Abdeckung!!
2. Mehrdeutige Tags und Redundanzen
“Tagging bulldozes the cost of classification and piles it into the price of discovery”