Kapitel 7: Unformatierte Datenbanken Flashcards

1
Q

Was sind Dokumente in einer unformatierten Datenbank?

A
  • unstrukturierter Aufbau der Dokumente
  • Dokumente liegen verschieden vor, Basisdokumente oder Verbunddokumente
  • Basisdokumente enthalten nur Daten eines Typs, Verbundobjekte kann aus mehreren Objekten bestehen, z.B. Text, Grafik und Tabelle
  • es gibt strukturierte Dokumente, wenn Aufbau standardisierten Regeln folgt, HTML, XML
  • Dokumente als Objekte sehen, objektorientierter Ansatz
  • Dokumente, die zusammengehören, zu Dokumentenklasse zusammenfassen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist Dokumentenmanagement?

A
  • effiziente (wirtschaftliche) Verwaltung Beschaffung, Allokation und Distribution von Dokumenten als Ressource zur Unterstützung von Geschäfts- und Entscheidungsprozessen
  • wird oft dem Wissensmanagement zugeordnet, beruht darauf, dass Mitarbeiter ihr Wissen in internen Dokumenten ablegen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist das Dokumentenmanagementsystem (DMS)?

A
  • kann oft dem Bereich Groupware zugeordnet werden
  • Groupware Systeme dienen u.a. auch als Integrationsplattform für verschiedene Office Anwendungen
  • DMS dient dazu, Informationsbasis der Groupware zu verwalten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Woraus besteht der Lebenszyklus von Dokumenten?

A

Eingabe, Ablage und Ausgabe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie funktioniert das Information Retrieval, also wie greift man auf unformatierte Datenbanken zu?

A
  • Datenbank als eine Sammlung von Texten, Bildern und weiteren Daten
  • Ziel: Dokumente finden, die komplett über das Unternehmen verteilt sind, da jeder Benutzer eine eigene Struktur seiner Dokumente hat
  • gehen davon aus, dass Verzeichnisse mit entsprechende Verweisen existieren, z.B. Links im WWW (als externe Datenbank)
  • im ungünstigen Fall muss am Namen der Dokumente gesucht werden, Suchmaschine erstelle „Verzeichnisse“ und sucht darin und strukturiert die Datenmengen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist Searching?

A

Man unterscheidet:

  • hierarchischer Zugriff (ausgehend vom Inhaltsverzeichnis entlang der Zweige)
  • Suche in Indexdateien (mithilfe von Schlüsselwörtern)
  • Volltextsuche

Volltextsuche wird verwendet, wenn man die gesamten Texte nach angegebenen Suchbegriffen auswertet. Man vergleicht die Dokumente im Speicher miteinander anhand Suchbegriffen oder Matchingparadigmen und stellt die gefundenen Daten bereit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist Browsing?

A
  • Das Umherblättern zwischen Dokumenten in einen abgegrenzten Themenbereich ist eine wichtige Variante des Literaturzugriffs
  • Dokementenverwaltung sollte ermöglichen, dass man zwischen Dokumenten hin und her springt, bis man Interesse hat
  • dafür müssen alle Pfade (in Hypertextstrukturen) richtig gesetzt sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind Meta-Search Engines?

A
  • konventionelle Suchmaschinen habe Probleme, da z.B. unterschiedliche Indizes, die unterschiedliche Bereiche abdecken, ein spezifisches Interface und Syntax, oft kommen nicht relevante, alte, ungültige Suchergebnisse
  • > Meta Search Engines haben eine breitere Sicht
  • die durchsuchen die Ergebnisse anderer Suchmaschinen und werten diese aus, jedoch zeitintensiv und hoher CPU-Verbrauch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist das Problem bei der Verwaltung von unformatierten Datenbanken?

A

Problem: Suche nach normalen Ausdrücken in Daten ist flexibel, jedoch sehr aufwendig
Lösung: Volltextindex, jedes Wirt wird ein Schlüsselwort von einem Index (mit Referenzen zum Original, dadurch schneller aber weniger flexibel, Indes wird notwendig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie funktioniert die Volltext (Freitext) Indexierung?

A

GLIMPSE (GLobal IMPlicit Search)
-Ziel ist die Bereitstellung von Möglichkeiten für flexible und effiziente Anfragen auf großen Datenbasen, das heißt die Kombination der Volltextsuche und der index-basierten Methode
-GLIMPSE braucht i.d.R. weniger als 5% des Speicherbedarfs der Ursprungsdaten für die Indexdatei, bietet aber Funktionalitäten wie z.B.:
• Erweiterte reguläre Ausdrücke, Und/Oder Verknüpfung
• Groß-/Kleinschreibung, Wortteile, Phrasen, etc.
• Approximative Anfragen (z.B. bis zu einem Fehler im Wort)

-GLIMPSE Suche erfolgt in 2 Stufen. Ein Index beinhaltet Hinweise auf Dokumente, in denen die gesuchten Daten sein könnten, dann erfolgt über diese eine sequentielle Suche.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind Probleme bei der Freitext Indexierung?

A
  • das abgefragte Wort erscheint in verschiedener Form (Singular/Plural)
  • das abgefragte Wort ist Teil eines zusammengefassten Terms
  • das abgefragte Wirt erscheint nicht als Wort sondern als Bedeutung hinter dem Text
  • das abgefragte Wort erscheint im Text, ist aber im Kontext unwichtig
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie funktioniert eine automatische Inhaltserschließung?

A
  • Voraussetzung für automatische Inhaltserschließung ist die Vergabe von Stichwörtern, Schlagwörtern, Deskriptoren
  • automatische Inhaltserschließung umfasst wesentlich computerlinguistische und statistische Ansätze
  • Computerlinguistische Verfahren sind darauf ausgerichtet, sprachliche Gesetzmäßigkeiten der Texte explizit zu berücksichtigen
  • Grundlage ist Morphologie, die sich mit der internen Struktur von Wörtern beschäftigt
  • man indexiert dann die Grundform eines Wortes, nachdem man diese angepasst hat
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie klassifiziert man das verfahren auf Wortebene der automatischen Inhaltserschließung?

A
  • Ergebnis: Wortformen, Grundformen oder Stammformen geliefert?
  • Input: Ist die Suche kontextfrei (isolierte Wortformen) oder wird der Kontext berücksichtig (kontextsensitiv)
  • Sprachebene: Werden nur syntaktische oder auch semantische Probleme behandelt?
  • Technik: Ist das Verfahren regel- oder wörterbuchorientiert?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wann sind Meta-Informationen sinnvoll?

A

-Meta-Informationen sind Informationen über Informationen, sinvoll wie z.B. bei einer Volltextsuche „Einstein“, welche zu einer nutzlosen Datenmenge führt, obwohl man nur Werke vom Autor „Einstein“ sucht
-Informationen wie z.B.
• Dokumenttyp
• Autor
• Institution
• Zeitliche Angaben
• Titel, Schlüsselwörter
-sinnvoll bei z.B. WWW-Suchmaschinen, man kann in HTML Dokumenten Meta-Informationen erstellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist das Harvest System?

A
  • Das Harvest-System ist eine Sammlung von Programmen, mit denen man Stichwörter aus Dateien extrahiert, diese Stichwörter indexiert und den so gewonnen Index über eine Schnittstelle dann anbieten kann.
  • „Harvest is an integrated set of tools to gather, extract, organize, search, cache, and replicate relevant information across the Internet. With modest effort users can tailor Harvest to digest information in many different formats from many different machines, and offer custom search services on the web.“
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wodurch ist das Harvest System gekennzeichnet?

A

Effizienz:
-Verwendung spezialisierter Methoden zur Datenindexierung und Interpretation
-Reduzierung der Server- bzw. Netzwerklast durch eine flexible Verteilung der gewonnenen Informationen
Flexibilität:
-Indexierungsmöglichkeit für verschiedene Datenformate
-Weitgehende Konfigurierbarkeit des Systems
->Modulare, verteilte, skalierbare Architektur

17
Q

Woraus besteht die Architektur von Harvest?

A
  • Broker: Erhält Index Informationen von einem oder mehreren Agenten, den sogenannten Gatherern, deren Funktion das Sammeln von Informationen aus verschiedenen Quellen ist
  • Collector: Schnittstelle zu den Gatherern und verwaltet Informationen. Über Collector können auch andere Broker zur Informationsgewinnung eingesetzt werden
  • Query Manager: Über ihn können dann gespeicherte Informationen erreicht werden, Nutzer formuliert Anfrage über flexible Schnittstelle
  • Replicator: Vermehrt Broker Dienste
  • Cache: (loakler) Internspeicher von Informationen
18
Q

Wie ist der Ablauf einer Informationsextraktion?

A
  • Typ des Dokuments ermitteln
  • bei Zip wird erstmal entpackt (Presentation Unnesting)
  • unterschiedliche wichtige Informationen werden selektiert
  • dann zusammengefasst
  • werden dann dem externen System, d.h. dem Broker übergeben
19
Q

Wie funktioniert die Entwicklung von Indexes?

A

Möglichkeiten:
Automatisierte Verfahren, Webseiten werden automatisch gesammelt und mit computerlinguistischen und statistischen Verfahren klassifiziert
-Vorteil: Maschinenbasierte Prozesse, um zu sammeln, klassifizieren und indexieren mit geringem personellen Aufwand
-Anforderungen: Klassifikationsschema, Linguistische Klassifikation von Texten, statistische Auswertung

20
Q

Was ist das Klassifikationsschema UDC (Universal Decimal Classification)?

A
  • mehrsprachig (Deutsch, Englisch, Französisch)
  • maschinenlesbar
  • hierarchische Struktur
  • Hierarchie ergibt sich aus ihrem nach dem Prinzip der Dezimalzahlen organisierten Aufbau, somit erhalten speziferische Themengebiete i.d.R. Notationen, durch deren Struktur die vorgenommene Klassifikation transparent ist, z.B. „536.11“ als Code für „Bsic Terms oft he Theory of Heat“ sagt aus, dass die Klassifikation zum Feld „Physik“ gehört
  • hierarchisch aufgebaute Notation lässt sich bei der Klassifizierung der HTML-Dokumente und der Darstellung des Browsings ausnutzen
  • daneben gibt es noch Typen von Relationen zwischen Notationen, also Querreferenzen, welche teilweise einen möglichen Zusatz der Browsing Struktur hinzufügen
21
Q

Was sind die Klassifikationskomponenten von UDC?

A

-natürsprachliche Textphrasen aus HTML Dokumente auf das UDC
Anforderungen: UDC-Lexikon
-Standardisierung von Umlauten
-Entfernung von Stopwörtern
-einheitliche Nutzung der Kleinschreibung
-Löschung der Referenzen, Notizen, Kommentare und Klammern
-Extraktion von natürsprachlichen Phrasen
-morphologische Reduktion der Begriffe auf ungebeugte Stammformen

22
Q

Was ist die linguistische Klassifikation von UDC?

A

-Texte müssen aufbereitet werden, damit ein „Nachschlagen“ im UDC-Lexikon möglich ist
Vorbereitung des Textes:
-Überführung zu einem ASCII Text ohne HTML Tags
-normalisierte Umlaute
-Kleinschreibung
-Entfernen von Stopwörtern
Verarbeitung des Textes:
-Vergleich von einem Präfix des Textes mit dem UDC-Lexikon
Ergebnis:
-eine Menge von Notationen mit der Häufigkeit des Auftretens und den passenden Einträgen

23
Q

Was ist die statische Analyse bei UDC?

A

-je mehr Notationen mit einem gemeinsamen Präfix vorliegen, desto sicherer ist die Zuordnung zu dem entsprechenden Themenbereich der UDC
-je länger der Präfix ist, desto spezifischer ist die inhaltliche Klassifikation
-das Verfahren berücksichtigt beide Faktoren und selektiert die relevantesten Notationen
-Struktur wird auch berücksichtigt
-es werden 2 Klassifikationsanalysen vorgenommen: 1. Dokumententitel, 2. Dokumententext
->Notationen, die aufgrund einer Zuordnung zu dem Titel gefunden werden, gehen mit höherem Relevanzwert in das Gesamtergebnis ein
-so errechnete Relevanzfaktoren werden für jede gefundene Notation nochmal nachgewichtet, indem in der Datenbank geprüft wird, ob das Dokument damit zugleich einer Hauptklasse und einer oder mehrerer der ihr untergeordneten Klassen zugeordnet werden würde
->spezielleren Notationen werden in diesem Fall höher gewichtet
Ergebnis: Relevanzfaktoren für jede im Rahmen der linguistischen Analyse gefundene Notation, mit denen ein Dokument durchschnittlich 5 bis 6 verschiedenen UDC-Klassen zugeordnet werden kann und in die Datenbank importiert wird

24
Q

Welche Probleme gibt es bei UDC?

A
  • Dokumenttyp: Web-Ressourcen variieren stark
  • Größe und Struktur der Dokumente: verschiedenste Typen
  • Klassifikationsschema ist unterschiedlich stark ausgebaut, Natur- und Ingenieurwissenschaften dominieren
  • Mehrsprachigkeit und Homonyme: „Windows“ führt nicht mehr zu OS, sondern auch zum Bauingenieurwissen Klasse „Fenster und Türen“, Homonymen wie chemische Elemente „PB“ als Blei in der Chemie und als Gebäudebezeichnung bei Lehrenden
25
Q

Was sind die Definitonen von Big Data?

A

 “Big data is the term increasingly used to describe the process of applying serious computing power - the latest in machine learning and artificial intelligence - to seriously massive and often highly complex sets of information.” (Microsoft)
 Big data is data which “exceed(s) the capacity or capability of current or conventional methods and systems.” (NIST)
 Common to most definitions is that big data is a collection of data (sets) so large and complex that they are difficult or impossible to be processed with traditional database management tools or data processing applications. (cf. DOI 10.1007/s12599-014-0328-2)
 “Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.“ (Gartner) ->3 V‘s

26
Q

Was sind die 3 V’s von Big Data?

A

Variety: Die vielen Quellen und Typen von Daten, strukturiert oder unstrukturiert

Velocity: Behandelt die Geschwindigkeit der Datenflüsse von Quellen, Echtzeit, Ströme etc.

Volume: Verarbeitung von großen Mengen von Daten um bestimmte Probleme effizient zu lösen

Zusätzliches V: Viability/Veracity, Filterung von unrelevanten Daten, Extraktion von relevanten Informationen, Patterns und Einblick, Unnormale Daten müssen behandelt werden

27
Q

Was ist Hadoop?

A

-Hadoop ist ein Open-Source Framework für verteilten Speicher und der Verarbeitung von großen Datenmengen in einem verteilten Rechnerumgebung
Eigenschaften:
-Daten sind aufgeteilt in Stücke mit fixierten Längen
-Redundanz: Datenstücke sind redundant verteilt in verschiedenen Knoten um eine hohe Verfügbarkeit zu garantieren
-Skalierbarkeit: lineare Skalierbarkeit kann garantiert werden durch „share nothing“ concept
-Fehlertoleranz: Wiederherstellpunkte und Änderungslisten

Hadoop Core:

  • Hadoop Distributed File System (HDFS): Verteilte Speicher von Daten auf mehreren Rechnerknoten
  • MapReduce: Programmiermodell für verteilte Verarbeitung von Daten

Hadoop Ecosystem: hat verschiedene Erweiterungen der Kernkompetenzen

28
Q

Was ist Informationslogistik?

A
  • es treten Informationsflüsse auf, aufgrund der Reihenfolge, in der Entscheidungen getroffen werden
  • Ergebnis einer Entscheidung bildet dabei den Input für weitere Entscheidungen
  • zieht sich durch alle Schichten von IM, definiert die Anforderungen, die das IM erfüllen muss um Dienste zu unterstützen
  • institutionales IM sind von den funktionalen Anforderungen der Informationslogistik
29
Q

Was ist das Konzept der Informationslogistik?

A

Logistik als Summe aller Tätigkeiten, durch die Funktionen der Zeit- und Raumüberwindung (z.B. Transportieren, Umschlagen, Lagern) für Güter und Subjekte, einschließlich der Betrachtung zugehöriger Informationen und Energien, unter Verwendung von Arbeitskräften und –mitteln in Systemen untersucht, geplant und realisiert werden.

30
Q

Was ist das Ziel von Informationslogistik?

A

Implementation einer effizienten Informationskette, im Sinne der Transaktionskostentheorie, indem der Informationsfluss koordiniert wird, wobei explizit die definierten Informationskanäle und Schnittstellen gemeint sind.
->Informationslogistik ist ein Teil von IM, welcher in Beziehung zur Bereitstellung, Vertrieb und Allokalisierung steht

31
Q

Was sind Assignment Problems?

A

-Verteilung bestehender Informationen auf verschiedene Rechner muss gestaltet werden
-Analogie zur Lagerhaltung, z.B. haben große Zuliefererbetriebe das Problem, Artikel so auf Lager an unterschiedlichen Standorten zu verteilen, so dass alle Kundenaufträge termingerecht und kostengünstig erfüllt werden
-das gleiche wie z.B. bei Datenbeständen (schlecht genutzte Netzwerkkapazitäten)
-im Kontext von Echtzeitanwendungen von besonderer Bedeutung (niedrigerer Transaktionskosten durch kurze Antwortzeiten eines Informationssystems)
Basismodell:
-wenn jeder Entscheidungsträger Daten lokal speichert, muss jeder andere Knoten eine Anfrage an diesen Ursprung stellen
-nach dem Datei genutzt wurde kann es lokal als Kopie gespeichert werden oder, bei einem neuen Bedarf, wieder vom Ursprungsknoten angefragt werden
Kommunikationskosten:
=Kosten, um die Anfrage an den Bereitsteller zu übermitteln
+Kosten um Datei zu überbringen
+Kosten, um Kopie zu aktualisieren wenn Daten älter sind
Speicherkosten:
-Kosten um eine Kopie zu speichern beim Fragesteller, in Hoffnung, dass es wieder gebraucht wird und dadurch Kosten zu sparen

32
Q

Welche Probleme gibt es bei der Auswahl des Übertragungskanals?

A

Stehen mehrere Übertragungskanäle zur Verfügung, so handelt es sich um ein klassisches Entscheidungsproblem.
Analogie zur Realgüterlogistik: Problem der Verkehrsmittelwahl (Bahn, LKW, Schiff etc.), wobei man Lieferzeiten, Kosten und andere Restriktionen beachten muss (Sicherheit, nicht verfügbare LKWs……)

Beispiel:
Ein Mitarbeiter verlangt dokumentenbasierte Auskunft. Mehrere Möglichkeiten die Information zu übertragen: Brief, Fax, E-Mail, persönlich

Probleme um Kosten des Kommunikationskanals auszuwählen:
-Gehalt
-Porto- bzw. Reisekosten
-Opportunitätskosten
Hängt das Vorgehen des Empfängers allein von bestimmten Informationen ab und ist dieser gezwungen, auf sie zu warten, so umfassen die Opportunitätskosten seinen Arbeitslohn und ggf. den entgangenen Nutzen
-Lösung meist intuitiv, kann auf normatives Entscheidungsmodell basieren

33
Q

Was st das Auswahlproblem des Übertragungswege innerhalb eines Kanals?

A

Beispiel: Postzustellung innerhalb eines Unternehmens (Routenplanungsproblem)

  • in Kommunikationsnetzwerken können verschiedene Knoten genutzt werden, um Information von A und B
  • zeitabhängige Telefon und Betreiberkosten
  • > Informationstransport auf verschiedenen Wegen verursachen verschiedene Kosten
  • > Wahl des kostengünstigsten Weges
  • In Netzwerken ist die Kapazität ein wichtiger Aspekt für den effizienten Transport
34
Q

Was ist Schnittstellen Management?

A

Für die Übertragung von Informationen kann eine Veränderung oder Zwischenlagerung des Informationsträgers erforderlich sein.
Analogie: In Lagern kann dies mit der Umladung von Paletten auf Containern gleichgesetzt werden.
Ziel: Bei der Informationslogistik sind dies die Schnittstellen zwischen elektronischen Format oder zwischen elektronischen und nicht-elektronischen Format
-wichtig in Transportbranche oder vernetzten Unternehmen
-hohes Potential um Transaktionskosten zu reduzieren
Das Gesamtziel ist alle Funktionen und Transportverfügung und Transaktionen in einer zeitsparenden und transparenten Weise.