Kapitel 7: Unformatierte Datenbanken Flashcards
Was sind Dokumente in einer unformatierten Datenbank?
- unstrukturierter Aufbau der Dokumente
- Dokumente liegen verschieden vor, Basisdokumente oder Verbunddokumente
- Basisdokumente enthalten nur Daten eines Typs, Verbundobjekte kann aus mehreren Objekten bestehen, z.B. Text, Grafik und Tabelle
- es gibt strukturierte Dokumente, wenn Aufbau standardisierten Regeln folgt, HTML, XML
- Dokumente als Objekte sehen, objektorientierter Ansatz
- Dokumente, die zusammengehören, zu Dokumentenklasse zusammenfassen
Was ist Dokumentenmanagement?
- effiziente (wirtschaftliche) Verwaltung Beschaffung, Allokation und Distribution von Dokumenten als Ressource zur Unterstützung von Geschäfts- und Entscheidungsprozessen
- wird oft dem Wissensmanagement zugeordnet, beruht darauf, dass Mitarbeiter ihr Wissen in internen Dokumenten ablegen
Was ist das Dokumentenmanagementsystem (DMS)?
- kann oft dem Bereich Groupware zugeordnet werden
- Groupware Systeme dienen u.a. auch als Integrationsplattform für verschiedene Office Anwendungen
- DMS dient dazu, Informationsbasis der Groupware zu verwalten
Woraus besteht der Lebenszyklus von Dokumenten?
Eingabe, Ablage und Ausgabe
Wie funktioniert das Information Retrieval, also wie greift man auf unformatierte Datenbanken zu?
- Datenbank als eine Sammlung von Texten, Bildern und weiteren Daten
- Ziel: Dokumente finden, die komplett über das Unternehmen verteilt sind, da jeder Benutzer eine eigene Struktur seiner Dokumente hat
- gehen davon aus, dass Verzeichnisse mit entsprechende Verweisen existieren, z.B. Links im WWW (als externe Datenbank)
- im ungünstigen Fall muss am Namen der Dokumente gesucht werden, Suchmaschine erstelle „Verzeichnisse“ und sucht darin und strukturiert die Datenmengen
Was ist Searching?
Man unterscheidet:
- hierarchischer Zugriff (ausgehend vom Inhaltsverzeichnis entlang der Zweige)
- Suche in Indexdateien (mithilfe von Schlüsselwörtern)
- Volltextsuche
Volltextsuche wird verwendet, wenn man die gesamten Texte nach angegebenen Suchbegriffen auswertet. Man vergleicht die Dokumente im Speicher miteinander anhand Suchbegriffen oder Matchingparadigmen und stellt die gefundenen Daten bereit.
Was ist Browsing?
- Das Umherblättern zwischen Dokumenten in einen abgegrenzten Themenbereich ist eine wichtige Variante des Literaturzugriffs
- Dokementenverwaltung sollte ermöglichen, dass man zwischen Dokumenten hin und her springt, bis man Interesse hat
- dafür müssen alle Pfade (in Hypertextstrukturen) richtig gesetzt sein
Was sind Meta-Search Engines?
- konventionelle Suchmaschinen habe Probleme, da z.B. unterschiedliche Indizes, die unterschiedliche Bereiche abdecken, ein spezifisches Interface und Syntax, oft kommen nicht relevante, alte, ungültige Suchergebnisse
- > Meta Search Engines haben eine breitere Sicht
- die durchsuchen die Ergebnisse anderer Suchmaschinen und werten diese aus, jedoch zeitintensiv und hoher CPU-Verbrauch
Was ist das Problem bei der Verwaltung von unformatierten Datenbanken?
Problem: Suche nach normalen Ausdrücken in Daten ist flexibel, jedoch sehr aufwendig
Lösung: Volltextindex, jedes Wirt wird ein Schlüsselwort von einem Index (mit Referenzen zum Original, dadurch schneller aber weniger flexibel, Indes wird notwendig
Wie funktioniert die Volltext (Freitext) Indexierung?
GLIMPSE (GLobal IMPlicit Search)
-Ziel ist die Bereitstellung von Möglichkeiten für flexible und effiziente Anfragen auf großen Datenbasen, das heißt die Kombination der Volltextsuche und der index-basierten Methode
-GLIMPSE braucht i.d.R. weniger als 5% des Speicherbedarfs der Ursprungsdaten für die Indexdatei, bietet aber Funktionalitäten wie z.B.:
• Erweiterte reguläre Ausdrücke, Und/Oder Verknüpfung
• Groß-/Kleinschreibung, Wortteile, Phrasen, etc.
• Approximative Anfragen (z.B. bis zu einem Fehler im Wort)
-GLIMPSE Suche erfolgt in 2 Stufen. Ein Index beinhaltet Hinweise auf Dokumente, in denen die gesuchten Daten sein könnten, dann erfolgt über diese eine sequentielle Suche.
Was sind Probleme bei der Freitext Indexierung?
- das abgefragte Wort erscheint in verschiedener Form (Singular/Plural)
- das abgefragte Wort ist Teil eines zusammengefassten Terms
- das abgefragte Wirt erscheint nicht als Wort sondern als Bedeutung hinter dem Text
- das abgefragte Wort erscheint im Text, ist aber im Kontext unwichtig
Wie funktioniert eine automatische Inhaltserschließung?
- Voraussetzung für automatische Inhaltserschließung ist die Vergabe von Stichwörtern, Schlagwörtern, Deskriptoren
- automatische Inhaltserschließung umfasst wesentlich computerlinguistische und statistische Ansätze
- Computerlinguistische Verfahren sind darauf ausgerichtet, sprachliche Gesetzmäßigkeiten der Texte explizit zu berücksichtigen
- Grundlage ist Morphologie, die sich mit der internen Struktur von Wörtern beschäftigt
- man indexiert dann die Grundform eines Wortes, nachdem man diese angepasst hat
Wie klassifiziert man das verfahren auf Wortebene der automatischen Inhaltserschließung?
- Ergebnis: Wortformen, Grundformen oder Stammformen geliefert?
- Input: Ist die Suche kontextfrei (isolierte Wortformen) oder wird der Kontext berücksichtig (kontextsensitiv)
- Sprachebene: Werden nur syntaktische oder auch semantische Probleme behandelt?
- Technik: Ist das Verfahren regel- oder wörterbuchorientiert?
Wann sind Meta-Informationen sinnvoll?
-Meta-Informationen sind Informationen über Informationen, sinvoll wie z.B. bei einer Volltextsuche „Einstein“, welche zu einer nutzlosen Datenmenge führt, obwohl man nur Werke vom Autor „Einstein“ sucht
-Informationen wie z.B.
• Dokumenttyp
• Autor
• Institution
• Zeitliche Angaben
• Titel, Schlüsselwörter
-sinnvoll bei z.B. WWW-Suchmaschinen, man kann in HTML Dokumenten Meta-Informationen erstellen
Was ist das Harvest System?
- Das Harvest-System ist eine Sammlung von Programmen, mit denen man Stichwörter aus Dateien extrahiert, diese Stichwörter indexiert und den so gewonnen Index über eine Schnittstelle dann anbieten kann.
- „Harvest is an integrated set of tools to gather, extract, organize, search, cache, and replicate relevant information across the Internet. With modest effort users can tailor Harvest to digest information in many different formats from many different machines, and offer custom search services on the web.“