Wissensrepräsentation für Texte Flashcards

Question

Was ist der Nachteil bei graphematischen Verfahren?

Answer 1

Bei stark flexierten Sprachen wie Deutsch gibt es eine höhere Fehlerquote als bei wenig flektierten Sprachen (Englisch).

Answer 2

Sie benötigen eine ständige Pflege des Wörterbuches.

Answer 3

Fur eine zweigliedrige Nominalphrasen be- ¨ zeichnet dabei Head das Nomen, das die wesentliche Bedeutung des Kompositums ausdruckt, z.B. informa- ¨ tion retrieval (MH) , indexing algorithm (MH), Wahl des Kanzlers (HM). Der Modifier dagegen spezialisiert oder modifiziert die Bedeutung des heads.

Answer 4

Durch die Zuordnung von Deskriptionen zu Texten, wird eine zweite Repr¨asentation des Textes (Anfrage/Textdokument) erstellt, die weitgehend unabh¨angig von der konkreten Formulierung im Text ist (der morphologisch/syntaktisch mehrdeutig ist). Zuordnung von Deskriptionen zu Texten → Dokumentationssprachen

Answer 5

``` Zuordnung von Deskriptionen zu Texten → Dokumentationssprachen. Beispielle: 1. Klassifikationen- Strukturierung nach einem vorgegeben formalen Schema 2. Thesauri 3. Ontologien 4. Tagging ```

Answer 6

Klassifikations Bsp: 1. Web-Kataloge - Yahoo 2. im Fachgebiete - LCC Library of Congress Classification, DDC Dewey Decimal Classification (library classification)

Answer 7

Heisst auch 'synthetische Klassifikation' und geht 'bottom-up'. Hier wierden zuerst die relevanten Merkmale erhoben und im Klassifikationssystem zusammengestellt, dann werden die Klassen durch Kombination der Merkmale gebilder. Bsp: "Niederstämmiger Frühapfelbaum" = A1B3C1 ' = Fructart: Apfel (A1), Stammart: niederstämmig (B3), Ernetzeit: früh (C1)

Answer 8

Hülle: Fell/Federn/Schuppen/Haut Lebensraum: Land/Wasser/Luft Nahrung: Pflanzen/Fleisch Säugetier: ja/nein

Answer 9

Tiere-> ( Saugetiere, Fische, Vogel) Saugetiere -> (Landsäuger, Meeresäuger) Landsäuger -> (domestiziert, wild)

Answer 10

Beide heissen 'Analytische Klassifikation' und gehen 'top-down'. 1. Monohierarchische Klassifikation: jede Klasse erbt von genau einer Superklasse. 2. Polyhierarchische Klassifikation: eine Klasse kann mehrere Superklassen haben.

Answer 11

Polydimensionalität heisst, dass es mehrere Ebenen der Vererbung in der Klassifikation gibt.

Answer 12

Man findet die insbesondere bei der Produktsuche z.B. in Onlineshops aber auch be Web-Suchmaschinen wie Yahoo.

Answer 13

Ein Thesaurus ist eine Dokumentationssprache, die Begriffe zueinander zuordnet. Es gibt eine Kontrolle der Terminologien durch Erfassung von 1. Synonymen 2. Homographen (words with same spelling, but different pronunciation and meaning), 3. Polysemen (one word with same history and with different meanings ex 'man') und 4. Festlegung Vorzugsbennenungen (USE) so wie eine 5. Darstellung von Beziehungen zwischen Begriffen(Used for (UF)), Related Term (RT), Broader Term (BT), Narrow Term (NT)),

Answer 14

Der Thesaurus kann zu umfangreich und unübersichtlich werden. Lösung UNITERM-Verfahrne. HIerbei werden nur Begriffe in Thesaurus aufgenommen, die nicht weiter zerlegbar sind. Bei dem Retrieval müssen viele Uniterms verkettet werden: Bsp Baum +Stamm = Baumstamm/ STammbaum (=Verkettung heisst Postkoordination)

Answer 15

Bei der Behandlung von Äquivalenzklassen gibt es Thesauri, die alle Elemente der Klasse gleich behandeln (ohne Vorzugsbennung) oder Thesauri, die Ein Element für die Klasse auswählen als Repräsentativ auswählen (mit Vorzugsbennung) = > Deskriptoren.

Answer 16

``` BS - Benutze Synonym (USE) BF - Benutzt für (Use for - UF) UB - Unterbegriff /Narrow Term NT OB - Oberbegriff / Broader Term BT VB - Verwandter Begriff / Related Term RT ```

Answer 17

``` "Hochschule" BT Bildungseinrichtung BT Forschungseinrichtung UF HS NT Fachhochschule RT Hochschulabschluss RT Leistung ```

Answer 18

``` Softwareentwicklung BS -Softwaretechnik VB Softwaretechnologie VB Software Engineering UB (narrower term) Agile-Softwareentwicklung ```

Answer 19

``` information retrieval: UF CD-ROM searching Data access Document retrieval Online literature searching Retrieval, information BT Information science NT Query formulation Query processing Relevance feedback RT Bibliographic systems Information analysis Information storage Query languages ```

Answer 20

Eine Ontologie ist eine Dokumentationssprache und hilft bei dem semantischen Ansatz der Textrepräsentation. Ontologien vereinigen Konzepte aus Datenbankschemata und Thesauri in sich. Die haben: Konzepte/Klassen. Klasse - Menge von Instanzen. Vererbung Slots: Eigenschaften/Relationen- Ein Konzept hat mehrere Slots. Ein Slot ist eine Eigenschaft oder Beziehung. Ein Slot hat einen Typ (range(obj_name) = string) und Wert.

Answer 21

``` Ding { GetrÃ¤nk { GetrÃ¤nk subClassOf Ding Alkoholisch { Alkoholisch subClassOf GetrÃ¤nk ``` ``` Wein { Wein subClassOf Alkoholisch } Bier { Bier subClassOf Alkoholisch } Whisky { Whisky subClassOf Alkoholisch } SLOT: Prozent { Prozent domain Alkoholisch Range(Prozent) = double } } Nicht-Alkoholisch { Nicht-Alkoholisch subClassOf GetrÃ¤nk Softdrink { Softdrink subClassOf Nicht-Alkoholisch } } } Lokal { Lokal subClassOf Ding Bar { Bar subClassOf Lokal } Restaurant { Restaurant subClassOf Lokal } } SLOT: Name { Name domain Ding Range(Name) = string } SLOT: Bewertung { Bewertung domain Ding Range(Bewertung) = string } } ```

Answer 22

Die Ontologie enthält Instanzen der Klassen. Für jede Klasse werden Werte der Slots gesetzt. Man sucht nach Instanzen, wo Slots-Werte passen.

Answer 23

YAGO: automatisch extrahierten Instanzen aus Wikipedia. Benutzer such im Ontologie Browser

Answer 24

Tagging ist eine Dokumentationssprache wo die Pflege des Vokabulars aund Zuordnung von Deskriptionen zu Dokumenten NICHT durch speziell geschulte Fachkräfte erfolgt sondern durch die Nutzer, die Elementen mit "Tags" die Dokumente in Beziehung bringen. Beispiel - Flicker (Tagging von Fotos), last.fm (Tagging von Genres)

Answer 25

Vorteile: 1. einfache, intuitive Nutzung 2. flexibel, erweiterbar (an neuen Trends) 3. inklusiv (populäre Themen obenso Spezialthemen) und spiegeln (Pop-)Vokabular der Nutzer 4. Gemeinschaftsgefühl 5. Gut für nicht-textuelle Dokumente Nachteile: 1. Inkonsistenzen bzgl. Terminologie und Abdeckung!! 2. Mehrdeutige Tags und Redundanzen "Tagging bulldozes the cost of classification and piles it into the price of discovery"