Kapitel 7: Unformatierte Datenbanken Flashcards

Question

Was sind die Definitonen von Big Data?

Answer 1

 “Big data is the term increasingly used to describe the process of applying serious computing power - the latest in machine learning and artificial intelligence - to seriously massive and often highly complex sets of information.” (Microsoft)  Big data is data which “exceed(s) the capacity or capability of current or conventional methods and systems.” (NIST)  Common to most definitions is that big data is a collection of data (sets) so large and complex that they are difficult or impossible to be processed with traditional database management tools or data processing applications. (cf. DOI 10.1007/s12599-014-0328-2)  “Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.“ (Gartner) ->3 V‘s

Answer 2

Variety: Die vielen Quellen und Typen von Daten, strukturiert oder unstrukturiert Velocity: Behandelt die Geschwindigkeit der Datenflüsse von Quellen, Echtzeit, Ströme etc. Volume: Verarbeitung von großen Mengen von Daten um bestimmte Probleme effizient zu lösen Zusätzliches V: Viability/Veracity, Filterung von unrelevanten Daten, Extraktion von relevanten Informationen, Patterns und Einblick, Unnormale Daten müssen behandelt werden

Answer 3

-Hadoop ist ein Open-Source Framework für verteilten Speicher und der Verarbeitung von großen Datenmengen in einem verteilten Rechnerumgebung Eigenschaften: -Daten sind aufgeteilt in Stücke mit fixierten Längen -Redundanz: Datenstücke sind redundant verteilt in verschiedenen Knoten um eine hohe Verfügbarkeit zu garantieren -Skalierbarkeit: lineare Skalierbarkeit kann garantiert werden durch „share nothing“ concept -Fehlertoleranz: Wiederherstellpunkte und Änderungslisten Hadoop Core: - Hadoop Distributed File System (HDFS): Verteilte Speicher von Daten auf mehreren Rechnerknoten - MapReduce: Programmiermodell für verteilte Verarbeitung von Daten Hadoop Ecosystem: hat verschiedene Erweiterungen der Kernkompetenzen

Answer 4

- es treten Informationsflüsse auf, aufgrund der Reihenfolge, in der Entscheidungen getroffen werden - Ergebnis einer Entscheidung bildet dabei den Input für weitere Entscheidungen - zieht sich durch alle Schichten von IM, definiert die Anforderungen, die das IM erfüllen muss um Dienste zu unterstützen - institutionales IM sind von den funktionalen Anforderungen der Informationslogistik

Answer 5

Logistik als Summe aller Tätigkeiten, durch die Funktionen der Zeit- und Raumüberwindung (z.B. Transportieren, Umschlagen, Lagern) für Güter und Subjekte, einschließlich der Betrachtung zugehöriger Informationen und Energien, unter Verwendung von Arbeitskräften und –mitteln in Systemen untersucht, geplant und realisiert werden.

Answer 6

Implementation einer effizienten Informationskette, im Sinne der Transaktionskostentheorie, indem der Informationsfluss koordiniert wird, wobei explizit die definierten Informationskanäle und Schnittstellen gemeint sind. ->Informationslogistik ist ein Teil von IM, welcher in Beziehung zur Bereitstellung, Vertrieb und Allokalisierung steht

Answer 7

-Verteilung bestehender Informationen auf verschiedene Rechner muss gestaltet werden -Analogie zur Lagerhaltung, z.B. haben große Zuliefererbetriebe das Problem, Artikel so auf Lager an unterschiedlichen Standorten zu verteilen, so dass alle Kundenaufträge termingerecht und kostengünstig erfüllt werden -das gleiche wie z.B. bei Datenbeständen (schlecht genutzte Netzwerkkapazitäten) -im Kontext von Echtzeitanwendungen von besonderer Bedeutung (niedrigerer Transaktionskosten durch kurze Antwortzeiten eines Informationssystems) Basismodell: -wenn jeder Entscheidungsträger Daten lokal speichert, muss jeder andere Knoten eine Anfrage an diesen Ursprung stellen -nach dem Datei genutzt wurde kann es lokal als Kopie gespeichert werden oder, bei einem neuen Bedarf, wieder vom Ursprungsknoten angefragt werden Kommunikationskosten: =Kosten, um die Anfrage an den Bereitsteller zu übermitteln +Kosten um Datei zu überbringen +Kosten, um Kopie zu aktualisieren wenn Daten älter sind Speicherkosten: -Kosten um eine Kopie zu speichern beim Fragesteller, in Hoffnung, dass es wieder gebraucht wird und dadurch Kosten zu sparen

Answer 8

Stehen mehrere Übertragungskanäle zur Verfügung, so handelt es sich um ein klassisches Entscheidungsproblem. Analogie zur Realgüterlogistik: Problem der Verkehrsmittelwahl (Bahn, LKW, Schiff etc.), wobei man Lieferzeiten, Kosten und andere Restriktionen beachten muss (Sicherheit, nicht verfügbare LKWs……) Beispiel: Ein Mitarbeiter verlangt dokumentenbasierte Auskunft. Mehrere Möglichkeiten die Information zu übertragen: Brief, Fax, E-Mail, persönlich Probleme um Kosten des Kommunikationskanals auszuwählen: -Gehalt -Porto- bzw. Reisekosten -Opportunitätskosten Hängt das Vorgehen des Empfängers allein von bestimmten Informationen ab und ist dieser gezwungen, auf sie zu warten, so umfassen die Opportunitätskosten seinen Arbeitslohn und ggf. den entgangenen Nutzen -Lösung meist intuitiv, kann auf normatives Entscheidungsmodell basieren

Answer 9

Beispiel: Postzustellung innerhalb eines Unternehmens (Routenplanungsproblem) - in Kommunikationsnetzwerken können verschiedene Knoten genutzt werden, um Information von A und B - zeitabhängige Telefon und Betreiberkosten - >Informationstransport auf verschiedenen Wegen verursachen verschiedene Kosten - >Wahl des kostengünstigsten Weges - In Netzwerken ist die Kapazität ein wichtiger Aspekt für den effizienten Transport

Answer 10

Für die Übertragung von Informationen kann eine Veränderung oder Zwischenlagerung des Informationsträgers erforderlich sein. Analogie: In Lagern kann dies mit der Umladung von Paletten auf Containern gleichgesetzt werden. Ziel: Bei der Informationslogistik sind dies die Schnittstellen zwischen elektronischen Format oder zwischen elektronischen und nicht-elektronischen Format -wichtig in Transportbranche oder vernetzten Unternehmen -hohes Potential um Transaktionskosten zu reduzieren Das Gesamtziel ist alle Funktionen und Transportverfügung und Transaktionen in einer zeitsparenden und transparenten Weise.