Prüfungsfragen zu Wissensrepräsentation Flashcards
Was ist der Unterschied zwischen Syntax, Semantik und Pragmatik?
- Syntax - Dokument ist Folge von Symbolen (z.B. Zeichenkette in Texte, Farbe, Textur, Kontor in Bilder)
- Semantik - beschäftigt sich mit der Bedeutung eines Dokumentes; (z.B. Bild enthält Klassen von Objekten wie Autos). Bsp Suche nach Fisch auf Basis von ‘Fisch’ in Dateinamen liefert unterschiedliche bilder mit Bedeutung Fisch.
- Pragmatik - beschäftigt sich mit der Nutzung eines Dokumentes für einen bestimmten Zweck. Z.B. Ein Bild von Stau kann kann benutzt werden, um A40-Ausbaupläne zu kritisieren. (Subjektive Nutzung)?
Erl¨autern sie die wesentlichen Methoden des informatischen und des computerlinguistischen Ansatzes!
Beide Methoden sind Ansätze zur Optimierung der Freitextsuche. der computerlinguistischer Ansatz wird öfter angewandt.
- informatischer Ansatz: Funktionen für das Textretrieval als Zeichenkettensuche. Der BENUTZER muss den Syntax der Funktionen kennen: Hier gibt es Trunkierung (Bsp: schreib#: schreiben, schreibt, schreibst, schreib), Maskierung ($: do$umentation = documentation, dokumentation) und die Kontextoperatoren (genauer Wortabstand (retrieval $ information = retrieval of information), maximaler Wortabstand (text ## retrieval = text and fact retrieval)
- computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen. Hier gibt es die lexikalisches Verfahren (mit Wörterbuch), Graphematisches Verfahren (basiert auf Graphemen in der Sprache) (Beide sind Wortreduktionverfahren) und syntaktisches Verfahren (z.B. Head-Modifier Identifikation (linguistic category -> category is head), Wortklassenbestimmung (Duisburger ist ein adjektiv)…).
Auf welcher Ebene spielt sich IR ab? Auf welcher Ebene arbeiten die betrachteten Repr¨asentationen?
(Kapitel 7?? S. 92 im Skript?) Logische Ebene?
Das IR-Modell spielt sich ab auf der logischen Ebene.
Dokumentensprachen und der Comp. Ling. Ansatz (der Freitextsuche) werden auf der semantischen Ebene betrachtet.
Der Informatischer Ansatz (der Freitextsuche) und median-syntaktische Eigenschaften (Bild als Pixel, kontoren, Farbe) werden auf der syntaktischen Ebene betrachtet.
??(unten nicht..)
***Semantische und Pragmatische Ebene.
Representationen (Daten, Information, Wissen)
-Daten-> syntaktische Ebene
-Information -> Semantische Ebene
-Wissen -> Pragmatische Ebene
(Erster Kapitel am Ende)
~~~
Welche Probleme der Freitextsuche werden durch welche Methoden bei diesen Ans¨atzen versucht zu l¨osen?
Probleme bei der Freitextsuche Mehrdeutigkeit \+Homographen und Polyseme \+Synonyme Die Endungen... \+Flexionsformen \+Derivationsformen Worte in Kette \+Komposita \+Nominalphrasen
Die werden mit informatischen oder computerlinguistischen Ansätze gelöst.
informatischer Ansatz:
löst: Komposita, nominal phrasen, flexionsformen, derivationsformen.
Durch:
mit Truncation und Maskierung kann man verschiedene Flexions- und Derivationsformen von Wörtern finden -> besseres Recall
Kontextoperatoren dienen zur Suche nach mehrgliedrigen Ausdrücken z.B. text retrieval, retrieval of text und nicht “text. Retrieval”
computerlinguistischer Ansatz:
löst: Synonyme, Flexionsformen, Derivationsformen, Komposita, Nominalphrasen
Durch:
graphematische und lexikalische Verfahren - Worte auf Grundform reduzieren, -> mehr relevante Dokumente finden.
Mit syntaktischen Verfahren will man die Wortklasse erkennen, um homonyme zu unterscheiden. to web vs web. -> Precision erhören=weniger nicht-relevante Dokumente finden. Zusätzlich kann man hier damit
auch nominalphrasen beim Freitextretrieval erkennen -> höheres Recall
Welche Probleme der Freitextsuche werden durch die vorgestellten Verfahren nicht
gel¨ost?
Das Formulierungs-Problem wird nicht gelöst. Das Problem ist, das trotz den Vorverarbeitungsschritte bei der Freitextsuche kann manche Formulierungen nicht richtig erkannt werden, wenn sie untypisch beschrieben werden: Bsp: selbsttätig aktivierendes Personen-Ruckhaltesystem für Fahrzeuge = Airbag
UND
der reduzierte Text enthält Fehler wegen:
1. Homographen (Wort mit gleicher Schreibeweise aber verschiedene Ausprache und andere Bedeutung) ex: present, to present
2. Polyseme: (Wort mit mehreren Bedeutungen) Bank
3. Flexionsformen: schreibt – schrieb – geschrieben
4. Derivationsformen: Formatierung – Format – formatieren
5. Komposita: Donaudampfschiffahrtsgesellschaftskapit¨an
6: Nominalphrasen:Wahl des Bundeskanzlers, information retrieval – retrieval of information – information was retrieved
Welche dieser Methoden setzen g¨angige Internet-Suchmaschinen ein?
Google setzt: (Freitextsuche - computerlinguistischer und informatischer Ansatz )
-Grund und Stammformreduktion
-Flexionsformen, Derivationsformen,
-Synonyme
Yahoo benutzt ein Web-Katalog (Semantischer Ansatz- Klassifikation)
– Welche der Anfragen ’Duisburgs Rathaus’, ’Duisburg Rathaus’ und ’Duisburger Rathaus’ liefern gleiche /unterschiedliche Ergebnisse und warum?
Duisburgs, Duisburg sind Nomen und haben den Nomen-Grundform ‘Duisburg’. Die liefern die gleichen Ergebnisse.
Nicht Duisburger weil es ein Adjektiv ist und auf seine **Adjektiv-Grundform (nicht Nomen) zurückgeführt wird (Duisburger ?)
Freitextsuche vs. Dokumentationssprachen: Vor- und Nachteile der beiden Methoden
Freitextsuche:
Vorteil: Es muss keine zusätzliche Repräsentation gewählt werden wie bei Dokumentationssprachen. Funktionen werden angewandt, um die Suche im Text der Dokumente zu verbessern (Grundformreduktion, Nominalphrasen-Erkennung, Zeichenkettenmanipulation…);
Vorteil: weniger aufwändig zu warten da Indexierung automatisiert;
Nachteil: Es gibt das Formulierungsproblem (Eine Anfrage kann mehrdeutig sein und/or Formulierung wird nicht auf korrekte Repräsentation abgebildet.) -> schlechterer Recall.
Dokumentationssprachen:
Vorteil: Durch die Zuordnung von Deskriptionen zu Texten, wird eine zweite Repr¨asentation des Textes (Anfrage/Textdokument) erstellt, die weitgehend unabh¨angig von der konkreten Formulierung im Text ist (der morphologisch/syntaktisch mehrdeutig ist). -> Die Suchterme und Dokumenttexte sind eindeutig. == Es gibt kein Formulierungsproblem;
Vorteil- Benutzerfreundlich;
Nachteil- die Benutzung des Systems setzt die Kenntnis der Dokumentationssprache voraus;
Nachteil - wegen kontrollierter Dokumentationssprache können Relevante Dokumente verpasst werden -> weniger Recall
Nachteil: Sehr Aufwändig zu warten da Indexierung manuell (wird von Experten oder Nutzer (Tagging) durchgeführt ).
Welche der vorgestellten Verfahren erh¨ohen die Precision, welche den Recall?
Erhören von Precision: (weniger Fehl-Funde):
der semantischer Ansatz erhört die Precision. Die Dokumente die gefunden werden, werden öfter relevant sein, weil der Nutzer genau das eingibt (ohne Mehrdeutigkeit) was er sucht. (Bei sehr spezifischen Anfragen auch weniger Precision aber bei semantischen Ansatz)
Erhören von Recall:
Dokumentationssprachen können recall erhören weil Abbildung verschiedener Textformulierung auf eine einzige zweite Repräsentation abgebildet werden.
Die Freitextsuche kann aber auch den Recall erhören, weil mehr Dokumente damit gefunden werden können. Mehr Funde -> Mehr Relevante Dokumente werden gefunden. Anhand der Mehrdeutigkeit könnte es aber auch sein, dass mehr nicht-relevante Dokumente gefunden werden. (schlechteres Precision)
Nennen Sie Beispiele fur die vier Arten von Dokumentationssprachen
- Klassifikation: Webcatalog - Yahoo, Facettenklassifikation: heise Preisvergleich, Deweey Decimal System
- Thesaurus - INSPEC-Thesaurus (Database for Engineering Researchers)
- Ontologie - Yago - extrahiert Instanzen aus Wikipedia
- Tagging - LibraryThing
Ontologien: Was sind die wesentlichen Konstrukte, wie funktioniert Vererbung?
Eine Ontologie ist eine Dokumentationssprache für semantischen Ansatz zur Textrepräsentation und vereinbart Konzepte aus Datenbank-Schemata und Thesauri in sich.
Die Konstrukte sind Klassen, Vererbung und Slots (mit Domains und ranges)
Domain- Klasse bei denen dieser Slot vorkommt.
Range: Datentypen, zu denen die Slot-Werte gehören
Die Klassen vererben von ihrer Oberklasse, d.h. vererben deren Slots. Dann sind die Instanzen des spezielleren Slots auch Instanzen des generelleren Slots.
Bsp: Getränk erbt von Ding.. Alkoholisch und Nichalkoholisch erben von Getränk. Die Klasse Alkoholisch hat Slot Prozent: von domain Alkoholisch und range double.
Bei der Ontologie würde man Instanzen von Alkoholisch instanzieren, in dem den Slot spezifiziert.
Wie werden Ontologien in Online-Shops eingesetzt?
Beispiel: heise-Preisvergleich. benutzt eine Konzepthierarchie von Produkten. Der Benutzer kann Eigenschaften (Slots) eingrenzen und Instanzen mit erfüllten Eigenschaften anschauen.
z.B. Konzepte von Produkte
Hardware, software, games, …. eine Klasse kann von einer Klasse erben. Die Eigenschaften der Produkte (SLOTS) werden gesetzt, wenn Produkte in Ontologie hinzugefügt werden. z.B. Produkt hat Name, Preis, Handler, Bewertung.. Computer Hardware erbt von Produkt und hat auch (Slots) wie Akulaufzeit…