Kapitel 7: Datenmanagement Flashcards

1
Q

Was sind die Ziele des Datenmanagements?

A
  • Beschaffung und Bereitstellung (unternehmensinterner) Daten (für IS) zur Aufgabenerfüllung und Entscheidungsunterstützung
  • alle relevanten Informationen im Unternehmen zu speichern, was zur Informationsproliferation führt
  • Notwendigkeit von Werkzeugen für intelligenten Zugang (Selektion und Aggregation)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind die Aufgaben des Datenmanagements?

A

Administrative und Operative Ebene:

  • Datennutzungsadministration
  • Datenschutz und Datensicherheit
  • Datenspeicherungsadministration
  • Meta Datenorganisation

Datennutzungsadministration:

  • Bereitstellung von Daten in benötigtem Umfang und Qualität
  • Management der Gewinnung von Daten
  • View Management
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind die Merkmale formatierter Datenbanken?

A
  • gemeinsames Schema für alle abgelegten Daten
  • Gruppierung der Daten erfolgt dabei nach Maßgabe gemeinsamer Datentypen, z.B. nach Maßgabe der Attribute oder von Gruppen von Attributen in einer Relation in relationalen Datenbanksystemen
  • gemeinsame Verwaltung der Daten durch DBMS
  • Redundanzarmut, jedes Datenelement braucht im Extremfall nur einmal gespeichert werden
  • Flexibilität bei Datenbankabfragen, beliebige Verknüpfbarkeit der Daten in Anfragen über spezielle Datenbankabfragesprachen realisierbar
  • Effizienz: Zeiten für Abfragen, für die Verarbeitung sowie für Änderungen und Ergänzungen des Datenbestands sind dank des verwendeten Formalismus „kurz“
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind die Merkmale unformatierter Datenbanken?

A
  • keine gemeinsamen Formate auf semantischen Level
  • kein DBMS
  • keine formale Abfragesprache, Suche erfolgt textorientiert
  • Beispiel: WWW, Suche von Dokumenten über Suchmaschine
  • Vorteil: Benutzer braucht nur wenig Wissen über Daten- und Datenbankstrukturen bzw. Abfragesprache, kann bei Suche intuitiv vorgehen
  • Nachteil: schlechtes Laufzeitverhalten, Größe der Suchergebnisse (Informationsproliferation)
  • wird aber wichtiger, da Internet wächst und der Aufbau von unternehmenseigenen Intranet teilweise ersetzt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was sind die Unterschiede zwischen formatierten und unformatierten Datenbanken?

A

Vergleich formatierter und unformatierter Datenbanken:

  • im geschäftsinternen Level haben formatierte DB eine höhere Bedeutung (Effizienz)
  • im geschäftsexternen Level (Entscheidungsunterstützung) bekommen unformatierte DB Bedeutung
  • IM beschäftigt sich mit Datenverwaltung (intern)
  • Data Warehouse als ein Konzept für formatierte Datenbanken für verbesserte Entscheidungsunterstützung
  • IM beschäftigt sich mit Informationsbeschaffung (extern) es beschäftigt sich also auch mit Suchmaschinen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was enthält ein Systemkatalog?

A
  • Beschreibung der Datenbankschemata (Datentypen, relationale Schemata)
  • Beschreibung externer Schemata (Indizes, Speicherstrukturen)
  • Integritätsbedingungen
  • Zugriffsrechte (Datenschutz)
  • GUI Definition und Programmfragmente bei 4GL Systemen
  • > Ein Systemkatalog ist somit selbst eine DB, an die Anfragen bzgl. der Datenstrukturen gestellt werden können, besondere Bedeutung für große Datenbanken (auch Data Warehouses)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist das Data Warehouse Konzept?

A

Data Warehouse ist eine spezielle Ausprägung von formatierten Datenbanken.
Motivation ist, dass das Management im Rahmen seiner Entscheidungsprozesse auf Daten aus operativen Systemen (Transaktionssystemen) zugreifen muss.
Transaktionssysteme dienen der Abwicklung und Bewältigung laufender Geschäftsvorfälle auf der unteren bzw. mittleren Hierarchieebene im Unternehmen, also der Unterstützung zwischenbetrieblicher Datenflüsse. Analysesysteme haben übergeordnete Planungsfunktionalitäten. Diese umfassen sowohl für Analysen geeignete und quasi direkt nutzbare Daten aus den Transaktionssystemen als auch Modellierungs- und Entscheidungssystemen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welche Phasen von Analyse gibt es?

A

Phase 1: Beschreibende Analyse (Daten analysieren um Geschehen besser zu beschreiben)
Phase 2: Vorrausschauende Analyse (Modelle um Zukunft vorherzusagen)
Phase 3: Präskriptive Analyse (Wie können wir etwas geschehen lassen?, Optimierungsmodelle nutzen um Entscheidungen zu unterstützen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Welche Merkmale müssen Daten erfüllen, die in einem Data Warehouse abgespeichert werden sollen?

A
  1. Anwendungsbezogen: Operative Daten beschreiben eine bestimmte Funktion. Im Data Warehouse werden Daten mit Relation zu einem bestimmten Thema gesammelt und gespeichert.
  2. Integration: Daten ist in normierter Form gespeichert
  3. Zeitdarstellung: Daten in operativen Systemen sind i.d.R. nur zum Zeitpunkt der Bearbeitung aktuell. Data-Warehouse-Daten sollen Unternehmen zu vielen verschiedenen Zeitpunkten abbilden
  4. Archivfunktion: Daten werden über längere Zeiträume gespeichert als in operativen Systemen (5 bis 10 Jahre)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche Arten von Daten gibt es in einem Data Warehouse?

A
  • detaillierte Daten (aus operativen Systemen ohne Veränderung des Aggregationszustands gespeichert, mit einem Zeitstempel versehen)
  • aggregierte Daten, direkt aus operativen Daten abgeleitet sind
  • externe Daten
  • historische Daten (detailliert oder aggregiert aus der Vergangenheit)
  • operative Daten (sind per Definition nicht enthalten, aber für einige Daten sind Zeitstempel sinnlos, z.B. Kundenstammdaten)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Data Warehouse Architekturansätze gibt es?

A
  1. Virtuelles Data Warehouse
  2. Zentrales Data Warehouse
  3. Data Marts
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist das virtuelle Data Warehouse?

A

-greifen direkt auf die operativen oder externen Daten zu, Zugriff ausschließlich lesend
-keine eigene redundante Datensammlung
-Middleware braucht alle notwendigen Meta-Daten (speziell Systemkataloge)
-Vorteile:
• schnelle Implementation,
• Aktualität der Daten durch direkten Zugriff
-Nachteile:
• geringe Performance
• Klient verarbeitet die Daten,
• Anfragen für unterschiedliche DBMS nicht optimierbar,
• beeinflusst operativen Betrieb bei rechenintensiven Anfragen,
• hohe Komplexität der Meta-Daten,
• Applikationen werden bei Weiterentwicklung sehr kompliziert,
• Daten nicht in transformierter oder aggregierter Form speicherbar,
• keine Chronik von historischen Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist das zentrale Data Warehouse?

A
  • eigene redundante Datenbasis
  • Hauptmerkmal ist das zentrale Data Warehouse Management System, das eine einheitliche Sicht aller Anwendungen auf die Datenbasis bietet
  • > heutzutage ist das Data Warehouse normalerweise ein Zwischenlayer zwischen Endnutzer und (relationalen) Datenbanken

Vorteile:

  • Performance verbessert (Antwortzeit und Netzwerkbelastung)
  • einheitliche Meta-Daten (Daten über Daten)
  • einheitliches Betrachtungsmanagement
  • Aufnahme von historischen und aggregierten Daten
  • Integration von externen Daten
  • Front End (Report Tools, OLAP Server, spread sheets, 4GLs)

Nachteile:

  • kostenintensive Einführung (auch Kosten für Hard- und Software)
  • mögliche Probleme bei Zusammenlegung von Daten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie erfolgt ein Datenimport in ein Data Warehouse?

A
  • erfolgt durch regelmäßige Momentaufnahmen des operativen Datenbestandes
  • hier erfolgt dann Überführung, Transformation und Konsolidierung in das Data Warehouse
  • während dem Prozess können verschiedene historische Zustände aufgenommen werden und miteinander dann vergleichen (Trendanalyse)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche Probleme können beim Datenimport in ein Data Warehouse auftreten?

A
  • notwendige Transformation ist bereits beim Aufbau des Data Warehouse vorzunehmen, damit Datenzugriff später erleichtert wird
  • Beispiel: Namenskonflikte (Synonyme – gleicher Sachverhalt unterschiedlicher Name, Homonyme – gleiche Bezeichnung unterschiedlicher Sachverhalt, Definitorische Abgrenzungen – unterschiedliche fachbezogene Sichten)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind Data Marts?

A

Data Marts als funktionsbereichs- oder personengruppenspezifische Ausschnitte aus der zentralen Datenbasis entnommen und auf kleinen Data Warehouse Servern gespeichert.

Kann definiert sein als:

  • Abteilungsdatenbanken (mit abgegrenztem Themenbereich)
  • vertikale oder horizontale Partitionierung der Gesamtdatenbank, vertikal wenn z.B. Geschäftsbereiche örtlich getrennt sind, horizontale sind überall gleiche Meta-Daten, lediglich dezentral gespeichert
  • redundant gehaltene Ausschnitte des Data Warehouse
17
Q

Welche Ansätze zur Entwicklung eines Data Warehouse gibt es?

A

-man kann zunächst mit Data Marts beginnen, und diese schrittweise zu einem Data Warehouse ausbauen, entspricht der Forderung „beginne klein und erweitere“
-Vorteile des Ansatzes:
• Schnelle Implementierung, frühe Einbindung der Fachbereiche in die Entwicklung
• Lokale Autonomie (der Datenpflege)

  1. Ansatz: Gesamtmodell erstellen und von dort aus Data Marts extrahieren
    -Vorteile dieses Ansatzes:
    • Gesamtkonzept bleibt im Vordergrund der Betrachtung
    • Gefahr der Insellösungen (der Data Marts) ist nicht gegeben, da ein konsistentes Datenmodell der dezentralen Datenhaltung zugrunde liegt
18
Q

Was ist OLAP (Online Analytical Processing)?

A

Daten werden in einem Datenwürfel mit mehreren Dimensionen gespeichert. Typisch ist eine dynamische, multidimensionale Analyse basierend auf konsolidierten Geschäftsdatenbestände

19
Q

Welche typischen Dimensionen hat ein OLAP System?

A

Eine Dimension kann als die höchste Ebene eines hierarchisch aufgebauten Konsolidierungsbaums verstanden werden.

1.Typische betriebswirtschaftliche Dimensionstypen:
• Zeitstruktur (Tag, Monat, Quartal, Jahr)
• Ausprägung (Plan, Soll, Ist)
• Maßeinheiten (Währungen, Stückzahl etc.)
• Unternehmensstruktur (Geschäftsbereiche, Organisationsstruktur)
• Produktstruktur (Artikel, Produktgruppen)
• Regionalstruktur (Bezirke, Gebiete, Länder)
• Kundenstruktur (Kunden, Kundengruppen)
• Kontenrahmen

2.Aggregierender Dimensionstyp
• Direkter, hierarchischer Zusammenhang, z.B. Regional- oder Produktstruktur
• Bildet unterschiedliche Verdichtungsstufen bzw. Konsolidierungspfade ab

3.Partitionierender Dimensionstyp
• Objekte gehören logisch zusammen, stehen aber unabhängig nebeneinander, z.B. Ausprägungen wie Soll, Ist, Plan
• Bildet unterschiedliche Szenarien der anderen betrachteten Dimensionen ab

4.Kategorischer Dimensionstyp
• Daten werden nach Analysegesichtspunkten organisiert

20
Q

Welche Operationen muss ein OLAP-Würfel haben?

A
  • Drill Down: Diese Operation beschreibt den Wechsel in eine tiefere Konsolidierungsebene
  • Drill Up: Wechsel in eine höhere Konsolidierungsebene
  • Drill Across: Innerhalb einer Konsolidierungsebene von einem Element zum anderen Element wechseln
  • Slicing: Sollen Daten eines Würfels, der mehr als zwei Dimensionen besitzt, in einer Tabelle angezeigt werden, so müssen die Daten auf eine Ebene projiziert werden, diese Projektion wird als Slicing bezeichnet.
  • Dicing: auf einen Teil des Würfels gucken
21
Q

Was sind die Grundregeln des OLAP-Konzepts, basieren auf Codd (1999)?

A
  1. Multidimensionalität
  2. Transparenz (Kapselung, Anwender sollte die Implementierung und Änderung vorborgen bleiben)
  3. Zugriffsmöglichkeiten (Darstellung der Daten in einheitlicher und konsistenter Form)
  4. Akzeptables Antwortzeitverhalten
  5. Unterstützung von Client-Server-Architekturen
  6. Einheitliche Struktur und Funktionalität der Datendimensionen
  7. Dynamische Handhabung dünnbesetzter Matrizen (physikalisches Schema des Systems) (wenn bei Matrizen weniger als 90% der Zellen besetzt sind)
  8. Mehrbenutzerunterstützung
  9. Unbeschränkte Durchführung dimensionsübergreifender Operationen
  10. Intuitive Datenanalyse
  11. Flexible Berichtsgenerierung
  12. Unbegrenzte Anzahl von Aggregationsebenen und Dimensionen
22
Q

Welche Architekturansätze gibt es für OLAP?

A
  • ROLAP
  • MOLAP
  • DOLAP
  • HOLAP
23
Q

Was ist ROLAP?

A
  • setzt direkt auf operative Systeme auf
  • baut auf einen ROLAP (relational OLAP) auf, die geforderte multidimensionale Sicht wird aus zweidimensionalen Tabellen (Relationen) erzeugt, also aus SQL Datenbanken
  • spezielles Meta-Daten-Repository, das der Speicherung der Dimensionen in relationalen Tabellen dient
  • bietet weiterhin Funktionalitäten zur Analyse der Datenbank und Optimierung der Zugriffszeiten
  • wird dynamisch im Hauptspeicher gebildet
  • einfache Implementation
  • gute Skalierbarkeit
  • Geschwindigkeitsverlust bei Warteschlagen
  • hohe Geschwindigkeit beim Füllen des Würfels
24
Q

Was ist MOLAP?

A
  • Daten in mehrdimensionalen Array Strukturen
  • hohe Performance für Warteschlangen und Navigation im Würfel
  • Speichertechnologie ist unausgereift
  • gering skalierbar
  • geringe Geschwindigkeit beim Update des Würfels
25
Q

Was ist DOLAP?

A
  • Import der Basisdaten zum Klienten

- lokale Analyse

26
Q

Was ist das Star Schema?

A
  • spezielle Form vom multidimensionalen Datenmodell
  • Standard für ROLAP
  • Reduzierung der großen Mengen an Tabellen
  • effiziente Warteschlangen Operationen
  • man unterscheidet Fact-Tables und Dimension-Tables
  • Fact-Tables enthalten Elemente der Dimensionen und die eigentlichen Daten
  • Dimension-Tables enthalten Dimensionen mit allen Aggregationsstufen
  • wichtige Entscheidung während der Gestaltung ist die Feinheit der Daten, sollen diese detailliert (z.B. einzelne Verkaufsdaten) oder aggregiert (Verkaufsdaten einer Produktgruppe) abgebildet werden
27
Q

Was ist das Snowflake Schema?

A
  • Weiterentwicklung des Star Schemas
  • Dimension-Tables werden durch Normalisierung weiter zerlegt, für jedes Dimensionsattribut existiert dann eine eigenen Attribut Tabelle
  • > bessere Performance, da weniger Speicherbedarf, weniger Redundanz, besser strukturiert
28
Q

Was ist Data Mining?

A

Beim Data Mining werden neue, gültige, verständliche und relevante Daten von großen Datenbanken extrahiert und für betriebswirtschaftliche Entscheidungen verwendet.

  • wichtig bei CRM (Customer-Relationship-Management)
  • große Mengen an Daten
  • Data Warehouses stellen große Mengen an Daten in angemessener Form bereit
  • mittlerweile gibt es effiziente, wirtschaftliche Hardware
  • es gibt effiziente Datenanalyse Algorithmen
  • Verfügbarkeit von Data Mining Software