Kapitel 7: Unformatierte Datenbanken Flashcards
Was sind Dokumente in einer unformatierten Datenbank?
- unstrukturierter Aufbau der Dokumente
- Dokumente liegen verschieden vor, Basisdokumente oder Verbunddokumente
- Basisdokumente enthalten nur Daten eines Typs, Verbundobjekte kann aus mehreren Objekten bestehen, z.B. Text, Grafik und Tabelle
- es gibt strukturierte Dokumente, wenn Aufbau standardisierten Regeln folgt, HTML, XML
- Dokumente als Objekte sehen, objektorientierter Ansatz
- Dokumente, die zusammengehören, zu Dokumentenklasse zusammenfassen
Was ist Dokumentenmanagement?
- effiziente (wirtschaftliche) Verwaltung Beschaffung, Allokation und Distribution von Dokumenten als Ressource zur Unterstützung von Geschäfts- und Entscheidungsprozessen
- wird oft dem Wissensmanagement zugeordnet, beruht darauf, dass Mitarbeiter ihr Wissen in internen Dokumenten ablegen
Was ist das Dokumentenmanagementsystem (DMS)?
- kann oft dem Bereich Groupware zugeordnet werden
- Groupware Systeme dienen u.a. auch als Integrationsplattform für verschiedene Office Anwendungen
- DMS dient dazu, Informationsbasis der Groupware zu verwalten
Woraus besteht der Lebenszyklus von Dokumenten?
Eingabe, Ablage und Ausgabe
Wie funktioniert das Information Retrieval, also wie greift man auf unformatierte Datenbanken zu?
- Datenbank als eine Sammlung von Texten, Bildern und weiteren Daten
- Ziel: Dokumente finden, die komplett über das Unternehmen verteilt sind, da jeder Benutzer eine eigene Struktur seiner Dokumente hat
- gehen davon aus, dass Verzeichnisse mit entsprechende Verweisen existieren, z.B. Links im WWW (als externe Datenbank)
- im ungünstigen Fall muss am Namen der Dokumente gesucht werden, Suchmaschine erstelle „Verzeichnisse“ und sucht darin und strukturiert die Datenmengen
Was ist Searching?
Man unterscheidet:
- hierarchischer Zugriff (ausgehend vom Inhaltsverzeichnis entlang der Zweige)
- Suche in Indexdateien (mithilfe von Schlüsselwörtern)
- Volltextsuche
Volltextsuche wird verwendet, wenn man die gesamten Texte nach angegebenen Suchbegriffen auswertet. Man vergleicht die Dokumente im Speicher miteinander anhand Suchbegriffen oder Matchingparadigmen und stellt die gefundenen Daten bereit.
Was ist Browsing?
- Das Umherblättern zwischen Dokumenten in einen abgegrenzten Themenbereich ist eine wichtige Variante des Literaturzugriffs
- Dokementenverwaltung sollte ermöglichen, dass man zwischen Dokumenten hin und her springt, bis man Interesse hat
- dafür müssen alle Pfade (in Hypertextstrukturen) richtig gesetzt sein
Was sind Meta-Search Engines?
- konventionelle Suchmaschinen habe Probleme, da z.B. unterschiedliche Indizes, die unterschiedliche Bereiche abdecken, ein spezifisches Interface und Syntax, oft kommen nicht relevante, alte, ungültige Suchergebnisse
- > Meta Search Engines haben eine breitere Sicht
- die durchsuchen die Ergebnisse anderer Suchmaschinen und werten diese aus, jedoch zeitintensiv und hoher CPU-Verbrauch
Was ist das Problem bei der Verwaltung von unformatierten Datenbanken?
Problem: Suche nach normalen Ausdrücken in Daten ist flexibel, jedoch sehr aufwendig
Lösung: Volltextindex, jedes Wirt wird ein Schlüsselwort von einem Index (mit Referenzen zum Original, dadurch schneller aber weniger flexibel, Indes wird notwendig
Wie funktioniert die Volltext (Freitext) Indexierung?
GLIMPSE (GLobal IMPlicit Search)
-Ziel ist die Bereitstellung von Möglichkeiten für flexible und effiziente Anfragen auf großen Datenbasen, das heißt die Kombination der Volltextsuche und der index-basierten Methode
-GLIMPSE braucht i.d.R. weniger als 5% des Speicherbedarfs der Ursprungsdaten für die Indexdatei, bietet aber Funktionalitäten wie z.B.:
• Erweiterte reguläre Ausdrücke, Und/Oder Verknüpfung
• Groß-/Kleinschreibung, Wortteile, Phrasen, etc.
• Approximative Anfragen (z.B. bis zu einem Fehler im Wort)
-GLIMPSE Suche erfolgt in 2 Stufen. Ein Index beinhaltet Hinweise auf Dokumente, in denen die gesuchten Daten sein könnten, dann erfolgt über diese eine sequentielle Suche.
Was sind Probleme bei der Freitext Indexierung?
- das abgefragte Wort erscheint in verschiedener Form (Singular/Plural)
- das abgefragte Wort ist Teil eines zusammengefassten Terms
- das abgefragte Wirt erscheint nicht als Wort sondern als Bedeutung hinter dem Text
- das abgefragte Wort erscheint im Text, ist aber im Kontext unwichtig
Wie funktioniert eine automatische Inhaltserschließung?
- Voraussetzung für automatische Inhaltserschließung ist die Vergabe von Stichwörtern, Schlagwörtern, Deskriptoren
- automatische Inhaltserschließung umfasst wesentlich computerlinguistische und statistische Ansätze
- Computerlinguistische Verfahren sind darauf ausgerichtet, sprachliche Gesetzmäßigkeiten der Texte explizit zu berücksichtigen
- Grundlage ist Morphologie, die sich mit der internen Struktur von Wörtern beschäftigt
- man indexiert dann die Grundform eines Wortes, nachdem man diese angepasst hat
Wie klassifiziert man das verfahren auf Wortebene der automatischen Inhaltserschließung?
- Ergebnis: Wortformen, Grundformen oder Stammformen geliefert?
- Input: Ist die Suche kontextfrei (isolierte Wortformen) oder wird der Kontext berücksichtig (kontextsensitiv)
- Sprachebene: Werden nur syntaktische oder auch semantische Probleme behandelt?
- Technik: Ist das Verfahren regel- oder wörterbuchorientiert?
Wann sind Meta-Informationen sinnvoll?
-Meta-Informationen sind Informationen über Informationen, sinvoll wie z.B. bei einer Volltextsuche „Einstein“, welche zu einer nutzlosen Datenmenge führt, obwohl man nur Werke vom Autor „Einstein“ sucht
-Informationen wie z.B.
• Dokumenttyp
• Autor
• Institution
• Zeitliche Angaben
• Titel, Schlüsselwörter
-sinnvoll bei z.B. WWW-Suchmaschinen, man kann in HTML Dokumenten Meta-Informationen erstellen
Was ist das Harvest System?
- Das Harvest-System ist eine Sammlung von Programmen, mit denen man Stichwörter aus Dateien extrahiert, diese Stichwörter indexiert und den so gewonnen Index über eine Schnittstelle dann anbieten kann.
- „Harvest is an integrated set of tools to gather, extract, organize, search, cache, and replicate relevant information across the Internet. With modest effort users can tailor Harvest to digest information in many different formats from many different machines, and offer custom search services on the web.“
Wodurch ist das Harvest System gekennzeichnet?
Effizienz:
-Verwendung spezialisierter Methoden zur Datenindexierung und Interpretation
-Reduzierung der Server- bzw. Netzwerklast durch eine flexible Verteilung der gewonnenen Informationen
Flexibilität:
-Indexierungsmöglichkeit für verschiedene Datenformate
-Weitgehende Konfigurierbarkeit des Systems
->Modulare, verteilte, skalierbare Architektur
Woraus besteht die Architektur von Harvest?
- Broker: Erhält Index Informationen von einem oder mehreren Agenten, den sogenannten Gatherern, deren Funktion das Sammeln von Informationen aus verschiedenen Quellen ist
- Collector: Schnittstelle zu den Gatherern und verwaltet Informationen. Über Collector können auch andere Broker zur Informationsgewinnung eingesetzt werden
- Query Manager: Über ihn können dann gespeicherte Informationen erreicht werden, Nutzer formuliert Anfrage über flexible Schnittstelle
- Replicator: Vermehrt Broker Dienste
- Cache: (loakler) Internspeicher von Informationen
Wie ist der Ablauf einer Informationsextraktion?
- Typ des Dokuments ermitteln
- bei Zip wird erstmal entpackt (Presentation Unnesting)
- unterschiedliche wichtige Informationen werden selektiert
- dann zusammengefasst
- werden dann dem externen System, d.h. dem Broker übergeben
Wie funktioniert die Entwicklung von Indexes?
Möglichkeiten:
Automatisierte Verfahren, Webseiten werden automatisch gesammelt und mit computerlinguistischen und statistischen Verfahren klassifiziert
-Vorteil: Maschinenbasierte Prozesse, um zu sammeln, klassifizieren und indexieren mit geringem personellen Aufwand
-Anforderungen: Klassifikationsschema, Linguistische Klassifikation von Texten, statistische Auswertung
Was ist das Klassifikationsschema UDC (Universal Decimal Classification)?
- mehrsprachig (Deutsch, Englisch, Französisch)
- maschinenlesbar
- hierarchische Struktur
- Hierarchie ergibt sich aus ihrem nach dem Prinzip der Dezimalzahlen organisierten Aufbau, somit erhalten speziferische Themengebiete i.d.R. Notationen, durch deren Struktur die vorgenommene Klassifikation transparent ist, z.B. „536.11“ als Code für „Bsic Terms oft he Theory of Heat“ sagt aus, dass die Klassifikation zum Feld „Physik“ gehört
- hierarchisch aufgebaute Notation lässt sich bei der Klassifizierung der HTML-Dokumente und der Darstellung des Browsings ausnutzen
- daneben gibt es noch Typen von Relationen zwischen Notationen, also Querreferenzen, welche teilweise einen möglichen Zusatz der Browsing Struktur hinzufügen
Was sind die Klassifikationskomponenten von UDC?
-natürsprachliche Textphrasen aus HTML Dokumente auf das UDC
Anforderungen: UDC-Lexikon
-Standardisierung von Umlauten
-Entfernung von Stopwörtern
-einheitliche Nutzung der Kleinschreibung
-Löschung der Referenzen, Notizen, Kommentare und Klammern
-Extraktion von natürsprachlichen Phrasen
-morphologische Reduktion der Begriffe auf ungebeugte Stammformen
Was ist die linguistische Klassifikation von UDC?
-Texte müssen aufbereitet werden, damit ein „Nachschlagen“ im UDC-Lexikon möglich ist
Vorbereitung des Textes:
-Überführung zu einem ASCII Text ohne HTML Tags
-normalisierte Umlaute
-Kleinschreibung
-Entfernen von Stopwörtern
Verarbeitung des Textes:
-Vergleich von einem Präfix des Textes mit dem UDC-Lexikon
Ergebnis:
-eine Menge von Notationen mit der Häufigkeit des Auftretens und den passenden Einträgen
Was ist die statische Analyse bei UDC?
-je mehr Notationen mit einem gemeinsamen Präfix vorliegen, desto sicherer ist die Zuordnung zu dem entsprechenden Themenbereich der UDC
-je länger der Präfix ist, desto spezifischer ist die inhaltliche Klassifikation
-das Verfahren berücksichtigt beide Faktoren und selektiert die relevantesten Notationen
-Struktur wird auch berücksichtigt
-es werden 2 Klassifikationsanalysen vorgenommen: 1. Dokumententitel, 2. Dokumententext
->Notationen, die aufgrund einer Zuordnung zu dem Titel gefunden werden, gehen mit höherem Relevanzwert in das Gesamtergebnis ein
-so errechnete Relevanzfaktoren werden für jede gefundene Notation nochmal nachgewichtet, indem in der Datenbank geprüft wird, ob das Dokument damit zugleich einer Hauptklasse und einer oder mehrerer der ihr untergeordneten Klassen zugeordnet werden würde
->spezielleren Notationen werden in diesem Fall höher gewichtet
Ergebnis: Relevanzfaktoren für jede im Rahmen der linguistischen Analyse gefundene Notation, mit denen ein Dokument durchschnittlich 5 bis 6 verschiedenen UDC-Klassen zugeordnet werden kann und in die Datenbank importiert wird
Welche Probleme gibt es bei UDC?
- Dokumenttyp: Web-Ressourcen variieren stark
- Größe und Struktur der Dokumente: verschiedenste Typen
- Klassifikationsschema ist unterschiedlich stark ausgebaut, Natur- und Ingenieurwissenschaften dominieren
- Mehrsprachigkeit und Homonyme: „Windows“ führt nicht mehr zu OS, sondern auch zum Bauingenieurwissen Klasse „Fenster und Türen“, Homonymen wie chemische Elemente „PB“ als Blei in der Chemie und als Gebäudebezeichnung bei Lehrenden