Kapitel 7: Datenmanagement Flashcards
Was sind die Ziele des Datenmanagements?
- Beschaffung und Bereitstellung (unternehmensinterner) Daten (für IS) zur Aufgabenerfüllung und Entscheidungsunterstützung
- alle relevanten Informationen im Unternehmen zu speichern, was zur Informationsproliferation führt
- Notwendigkeit von Werkzeugen für intelligenten Zugang (Selektion und Aggregation)
Was sind die Aufgaben des Datenmanagements?
Administrative und Operative Ebene:
- Datennutzungsadministration
- Datenschutz und Datensicherheit
- Datenspeicherungsadministration
- Meta Datenorganisation
Datennutzungsadministration:
- Bereitstellung von Daten in benötigtem Umfang und Qualität
- Management der Gewinnung von Daten
- View Management
Was sind die Merkmale formatierter Datenbanken?
- gemeinsames Schema für alle abgelegten Daten
- Gruppierung der Daten erfolgt dabei nach Maßgabe gemeinsamer Datentypen, z.B. nach Maßgabe der Attribute oder von Gruppen von Attributen in einer Relation in relationalen Datenbanksystemen
- gemeinsame Verwaltung der Daten durch DBMS
- Redundanzarmut, jedes Datenelement braucht im Extremfall nur einmal gespeichert werden
- Flexibilität bei Datenbankabfragen, beliebige Verknüpfbarkeit der Daten in Anfragen über spezielle Datenbankabfragesprachen realisierbar
- Effizienz: Zeiten für Abfragen, für die Verarbeitung sowie für Änderungen und Ergänzungen des Datenbestands sind dank des verwendeten Formalismus „kurz“
Was sind die Merkmale unformatierter Datenbanken?
- keine gemeinsamen Formate auf semantischen Level
- kein DBMS
- keine formale Abfragesprache, Suche erfolgt textorientiert
- Beispiel: WWW, Suche von Dokumenten über Suchmaschine
- Vorteil: Benutzer braucht nur wenig Wissen über Daten- und Datenbankstrukturen bzw. Abfragesprache, kann bei Suche intuitiv vorgehen
- Nachteil: schlechtes Laufzeitverhalten, Größe der Suchergebnisse (Informationsproliferation)
- wird aber wichtiger, da Internet wächst und der Aufbau von unternehmenseigenen Intranet teilweise ersetzt
Was sind die Unterschiede zwischen formatierten und unformatierten Datenbanken?
Vergleich formatierter und unformatierter Datenbanken:
- im geschäftsinternen Level haben formatierte DB eine höhere Bedeutung (Effizienz)
- im geschäftsexternen Level (Entscheidungsunterstützung) bekommen unformatierte DB Bedeutung
- IM beschäftigt sich mit Datenverwaltung (intern)
- Data Warehouse als ein Konzept für formatierte Datenbanken für verbesserte Entscheidungsunterstützung
- IM beschäftigt sich mit Informationsbeschaffung (extern) es beschäftigt sich also auch mit Suchmaschinen
Was enthält ein Systemkatalog?
- Beschreibung der Datenbankschemata (Datentypen, relationale Schemata)
- Beschreibung externer Schemata (Indizes, Speicherstrukturen)
- Integritätsbedingungen
- Zugriffsrechte (Datenschutz)
- GUI Definition und Programmfragmente bei 4GL Systemen
- > Ein Systemkatalog ist somit selbst eine DB, an die Anfragen bzgl. der Datenstrukturen gestellt werden können, besondere Bedeutung für große Datenbanken (auch Data Warehouses)
Was ist das Data Warehouse Konzept?
Data Warehouse ist eine spezielle Ausprägung von formatierten Datenbanken.
Motivation ist, dass das Management im Rahmen seiner Entscheidungsprozesse auf Daten aus operativen Systemen (Transaktionssystemen) zugreifen muss.
Transaktionssysteme dienen der Abwicklung und Bewältigung laufender Geschäftsvorfälle auf der unteren bzw. mittleren Hierarchieebene im Unternehmen, also der Unterstützung zwischenbetrieblicher Datenflüsse. Analysesysteme haben übergeordnete Planungsfunktionalitäten. Diese umfassen sowohl für Analysen geeignete und quasi direkt nutzbare Daten aus den Transaktionssystemen als auch Modellierungs- und Entscheidungssystemen.
Welche Phasen von Analyse gibt es?
Phase 1: Beschreibende Analyse (Daten analysieren um Geschehen besser zu beschreiben)
Phase 2: Vorrausschauende Analyse (Modelle um Zukunft vorherzusagen)
Phase 3: Präskriptive Analyse (Wie können wir etwas geschehen lassen?, Optimierungsmodelle nutzen um Entscheidungen zu unterstützen)
Welche Merkmale müssen Daten erfüllen, die in einem Data Warehouse abgespeichert werden sollen?
- Anwendungsbezogen: Operative Daten beschreiben eine bestimmte Funktion. Im Data Warehouse werden Daten mit Relation zu einem bestimmten Thema gesammelt und gespeichert.
- Integration: Daten ist in normierter Form gespeichert
- Zeitdarstellung: Daten in operativen Systemen sind i.d.R. nur zum Zeitpunkt der Bearbeitung aktuell. Data-Warehouse-Daten sollen Unternehmen zu vielen verschiedenen Zeitpunkten abbilden
- Archivfunktion: Daten werden über längere Zeiträume gespeichert als in operativen Systemen (5 bis 10 Jahre)
Welche Arten von Daten gibt es in einem Data Warehouse?
- detaillierte Daten (aus operativen Systemen ohne Veränderung des Aggregationszustands gespeichert, mit einem Zeitstempel versehen)
- aggregierte Daten, direkt aus operativen Daten abgeleitet sind
- externe Daten
- historische Daten (detailliert oder aggregiert aus der Vergangenheit)
- operative Daten (sind per Definition nicht enthalten, aber für einige Daten sind Zeitstempel sinnlos, z.B. Kundenstammdaten)
Welche Data Warehouse Architekturansätze gibt es?
- Virtuelles Data Warehouse
- Zentrales Data Warehouse
- Data Marts
Was ist das virtuelle Data Warehouse?
-greifen direkt auf die operativen oder externen Daten zu, Zugriff ausschließlich lesend
-keine eigene redundante Datensammlung
-Middleware braucht alle notwendigen Meta-Daten (speziell Systemkataloge)
-Vorteile:
• schnelle Implementation,
• Aktualität der Daten durch direkten Zugriff
-Nachteile:
• geringe Performance
• Klient verarbeitet die Daten,
• Anfragen für unterschiedliche DBMS nicht optimierbar,
• beeinflusst operativen Betrieb bei rechenintensiven Anfragen,
• hohe Komplexität der Meta-Daten,
• Applikationen werden bei Weiterentwicklung sehr kompliziert,
• Daten nicht in transformierter oder aggregierter Form speicherbar,
• keine Chronik von historischen Daten
Was ist das zentrale Data Warehouse?
- eigene redundante Datenbasis
- Hauptmerkmal ist das zentrale Data Warehouse Management System, das eine einheitliche Sicht aller Anwendungen auf die Datenbasis bietet
- > heutzutage ist das Data Warehouse normalerweise ein Zwischenlayer zwischen Endnutzer und (relationalen) Datenbanken
Vorteile:
- Performance verbessert (Antwortzeit und Netzwerkbelastung)
- einheitliche Meta-Daten (Daten über Daten)
- einheitliches Betrachtungsmanagement
- Aufnahme von historischen und aggregierten Daten
- Integration von externen Daten
- Front End (Report Tools, OLAP Server, spread sheets, 4GLs)
Nachteile:
- kostenintensive Einführung (auch Kosten für Hard- und Software)
- mögliche Probleme bei Zusammenlegung von Daten
Wie erfolgt ein Datenimport in ein Data Warehouse?
- erfolgt durch regelmäßige Momentaufnahmen des operativen Datenbestandes
- hier erfolgt dann Überführung, Transformation und Konsolidierung in das Data Warehouse
- während dem Prozess können verschiedene historische Zustände aufgenommen werden und miteinander dann vergleichen (Trendanalyse)
Welche Probleme können beim Datenimport in ein Data Warehouse auftreten?
- notwendige Transformation ist bereits beim Aufbau des Data Warehouse vorzunehmen, damit Datenzugriff später erleichtert wird
- Beispiel: Namenskonflikte (Synonyme – gleicher Sachverhalt unterschiedlicher Name, Homonyme – gleiche Bezeichnung unterschiedlicher Sachverhalt, Definitorische Abgrenzungen – unterschiedliche fachbezogene Sichten)