Einheit 8 Flashcards

1
Q

Nutzen Datenanalyse

A

Nur durch eine effiziente und
effektive Datenanalyse
können Sie aus Daten einen
Wettbewerbsvorteil
generieren.

Stichwort: Entscheidungsunterstützung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Big Data

A

Unter Big Data (engl.: big data) versteht man Datenkollektionen,
deren Größe die Fähigkeiten einzelner Rechnersysteme überschreiten,
um diese Datenmenge zu speichern, zu durchsuchen, zu analysieren
und zu verwalten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

4 Vs of Big Data

A

Volume: MEnge
-gesamte Menge an Daten steigt rasant

Velocity: Geschwindigkeit: erhöhtes Datenaufkommen pro Sekunde

Variety: Vielfalt
-Vielfalt an neuen Daten und Datentypen

Veracity: Bestimmtheit:
-Grad der Richtigkeit der Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

strukturierte vs unstrukturierte Daten

A

Strukturierte Daten:
-Maschinell oder manuell für bestimmten
Kontext aufbereitete Daten
-Aufbereitung der Daten basiert auf einem
Schema oder einer Kodierung
-> u.a. relevant für Suchmaschinen

Unstrukturierte Daten:
Daten, die vom Datentyp zwar
zugeordnet werden können, jedoch
(noch) keine weiteren identifizierbaren
Informationen bereitstellen.
-> Semantisch noch nicht für die Maschine aufbereitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Datenquellen Big Data

A

Operationale Daten
Historische Daten
Internet of Things Daten
Web & Social Media Daten

Log Dateien von Systemen
-Klickpfade von Kundenverhalten auf Websites
-Fehlercodes von Server Responses (500, 404 etc.)

Sensor Daten
-Wetter Daten (Temperatur, Druck, Luftfeuchtigkeit, etc.)
-Lärmdaten, Luftqualität, etc.

Webbasierte Dokumente
-E-Mail, Website Inhalte, Nachrichten, etc.
-Daten mit geobasierten Inhalten
-GPS-Koordinaten wie z.B.: Points of Interests, Strecken, etc.

Multimedia
-Videos, Audio, Bilder, Grafiken, Animationen, etc.

Soziale Medien
-Kommentare, Likes, Shares, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Interne und externe Daten

A

Interne Daten:
-operative Informationssysteme
-Datenbanken
-Dokumente

Externe Daten:
-soziale Medien & andere Netzwerke
-externe Organisationen
-externe Speicher
-diverse Quellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Open Data

A

Datennutzung, -weiterverbreitung
und -weiterverwendung ohne
Einschränkung.

Bereitstellung in
maschinenlesbarem Format.

Keine Einschränkungen:
Jede/r sollte die Möglichkeit haben, die
Daten zu nutzen, zu modifizieren, sie mit
anderen zusammenzuführen und
weiterzugeben, auch zu kommerziellen
Zwecken. à ermöglicht durch Lizenzen

Wiederverwendbarkeit
vgl oben

Freie Nutzbarkeit
Frei nutzbar heißt jedoch nicht gratis
bzw. frei verfügbar oder frei zugänglich. Es
können Kosten entstehen durch Erstellung,
Pflege und Veröffentlichung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Business Intelligence

A

Wir haben die Daten. Wie können wir mit diesen Daten effizient und
systematisch Entscheidungen unterstützen?

Business-Intelligence (Abkürzung: BI) beschreibt ein integriertes,
betriebsindividuell zu entwickelndes Gesamtkonzept zur ITUnterstützung
des Managements. „Intelligence“ ist Wissen, welches durch die Erfassung, Integration, Transformation, Speicherung, Analyse
und Interpretation geschäftsrelevanter Information generiert wird.

beispiel:
kein einzelnes Anwendungssystem, sondern eine Architektur von aufeinander abgestimmten Anwendungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Entscheidungsunterstützungssystems

A

Im Kontext von Business Intelligence Systemen, welche eher generisch gedacht sind, kann für domänenspezifische Anwendungen noch weiter abgegrenzt werden.

Ein klassisches Entscheidungsunterstützungssystem (Abkürzung: EUS, engl.: decision support system) hilft vor allem Fachspezialisten
(Beratern, Stäben) bei der Entscheidungsvorbereitung für eng
abgegrenzte Aufgabenstellungen.

Schwerpunkt ist die Untersuchung
möglicher Handlungsalternativen mit mathematischen Methoden und
Modellen (Prognosen, Simulationen und Optimierungen).

englische
Bezeichnung Decision Support System (Abkürzung: DSS) ist auch
im deutschen Sprachraum gebräuchlich.

Beispiel:
Anwendungssysteme, die für spezifische Branche bei der Entscheidungsfindung unterstützen
zb Lufthansa Systems in Luffahrtsbranche
zb Nielsen IQ, Branche: Konsumgüter des täglichen Bedarfs zb Shelf Architect, Smart Store

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

5 Komponenten Business Intelligence Systems

A

1 Datenquellen
2 Datensammlung- und transformation
3 Datenbereitstellung
4 Datenanalyse
5 Daten- & Informationszugriff

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Datensammlung und -transformation

A

Bevor mit den operationalen Daten analytisch gearbeitet werden kann, müssen diese in ein kompatibles Format umgewandelt werden:

Komponente die als Schnittstelle zwischen Ursprungsdaten und Zieldatenbank dient.

In mehreren Schritten werden die Daten
extrahiert (z.B.: 1:1 Kopie in eine
Arbeitsdatenbank) um dann transformiert
(clean, merge, translate etc.) zu werden, um
schließlich in eine Zieldatenbank geladen zu werden.
-> Extract, Transform, Load (ETL)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Datenbereitstellung

A

(3) Die Datenbereitstellung findet über eine
Datenbank statt. Hier kann unterschieden werden:

(a) Data Warehouse / Data Mart
-> Konzepte, um große Datenmengen zentral,
einheitlich und konsistent zu organisieren (Data Warehouse) bzw. Teile daraus bereitzustellen (Data
Mart).

(b) Data Lake
-> Konzepte, um große Datenmengen in ihrer Ursprungsform mit unterschiedlichen Datentypen und Strukturen zu speichern. Die Bereitstellung findet meist über verteilte Datenbanken in Server-
Clustern statt. Aufbereitung bei konkretem Bedarf.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Datenanalyse

A

(4) Datenanalyse
Ebene in der mithilfe von methodischen
Grundlagen des Data-Science, Fragestellungen bearbeitet werden:

(a) Online Analytical Processing (OLAP)
-> Konzepte zur Formulierung und Auswertung
von komplexen Datenabfragen auf Basis von multidimensionalen Modellen.
(b) Data Mining
-> Techniken um mit vorhandenen
Datenbeständen (unstrukturiert od. strukturiert) analytischen Fragestellungen nachzugehen.
Zum Beispiel die Erkennung von unbekannten Zusammenhängen, Mustern oder Trends.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Daten- und Informationszugriff

A

(5) Daten- & Informationszugriff
Zugriff und Präsentation von Informationen über verschiedene Schnittstellen zu
webbasierten Portalen (Dashboards, Simulationen), spezialisierten Applikationen
oder geteilten Datensätze (und viele andere).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Arbeit mit Daten und Zahlen

A

verschiedensten Komponenten
eines Business Intelligence
Systems steckt vor allem viel
integrative Datenarbeit, um
u.a. für das Management
Reports einfach zugänglich zu
machen.
Dahinter steht ein Prozess der
auch bekannt als OSEMN ist
(Obtain, Scrub, Explore,
Model, Interpret)

Berufsbild:
Data-Scientist
-> Hochschulstudium der
Wirtschaftsinformatik
-> Sehr gute Kenntnisse über
Mathematik, Statistik und
Datenbanksystemen
Aufgaben:
Beschreibung, Diagnose und
Vorhersage von
Zusammenhängen, Muster
und Trends.
Datenintegration,
Modellbildung, -auswertung
und Ergebnisdarstellung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Data Science

A

Data-Science (unübliche deutsche Übersetzung:
Datenwissenschaften) bezeichnet die Lehre von der Extraktion von
Sachverhalten durch die Aufbereitung und Analyse von sehr großen,
heterogenen Datenbeständen, um daraus Handlungsempfehlungen für
das Management abzuleiten.

Integrativer Ansatz der Inhalte aus
Referenzdisziplinen Mathematik, Statistik,
Operations Research und Informatik vereint.

Mathematik, Statistik:
-Regression, Klassifikation, Clustering, Test-Mining, Process-Mining

Informatik:
-evolutionäre Algorithmen, maschinelles Lernen, künstliche Intelligenz

Operations Research:
-Optimierung, Simulation

17
Q

Modellierung im Kontext von Data Science

A

Das Modell verfolgt als Ziel ebenfalls die vereinfachende und zweckorientierte
Abbildung eines Sachverhalts. Macht dies jedoch nicht mit einer grafischen
Modellierungssprache sondern auf Basis mathematisch formaler Beschreibungen.

Ein statistisches Modell versucht
beobachtete Werte durch ein
mathematisches Modell mit einer
Fehlerkomponente zu erklären.

unabhängige Variable -> Modell -> abhängige Variable

18
Q

methodische Grundlagen Data Science

A

Regressionsanalyse
Statistisches Verfahren, um Beziehung
zwischen einer abhängigen und mehreren
unabhängigen Variablen zu bestimmen.
Bsp: Verwendung Preis- od. Absatzprognose

Klassifikation
Statistisches Verfahren, um dichotomes oder kategoriales Merkmal mithilfe von verschiedenen
unabhängigen Variablen zu erklären.
Bsp.: Tumorerkennung aus Bilddaten

Segmentierung (Clustering)
Statistisches Verfahren, um Ähnlichkeiten
zwischen Datenelementen zu erkennen
und in Gruppen zusammenzufassen
Bsp.: Markt- oder Kundensegmentierung

Künstliche Neuronale Netze:
Berechnungsverfahren, die inspiriert sind
vom menschlichen Nervensystem.
Künstliche Neuronen die als Knoten in
einem gerichteten Graph mehrere Modelle
miteinander verbinden, um in riesigen
Datenmengen Muster zu erkennen.
Bspw. Erkennung von handgeschriebenen Ziffern

Text Mining:
Analyseverfahren bei dem inhaltliche
Zusammenhänge in Textdaten mithilfe
von Algorithmen erkannt werden.
Bspw. Sentimentanalyse von
Foreneinträgen eines Produktforums
um Ideen für Verbesserungen zu gewinnen.

19
Q

Künstliche Intelligenz

A

Der Begriff Künstliche Intelligenz (engl.: artificial intelligence; kurz:
AI) subsummiert das Bestreben, computerbasierte Systeme zu
entwickeln, die sich wie Menschen verhalten. Diese Systeme sind in der
Lage, Aufgaben auszuführen und menschliche Erfahrung und
Entscheidungsfindung zu emulieren.

Maschinelles Lernen (engl.: machine learning) ist Teil von KI: Wenn wir also
von KI-basierten Systemen sprechen, so verwenden diese Systeme Methoden
des maschinellen Lernens. Diese umfassen u.a. Verfahren, die Sie in den
methodischen Grundlagen kennengelernt haben (Regression, Klassifikation, etc.)

20
Q

Anwendungsbereiche Machine Learning

A

Spam filter -> Identifikation von unerwünschter E-Mail als
Spam. (Natural Language Processing & Klassifikation)

Optical Character Recognition (OCR) à Identifikation von
Zeichen in einem Bild, um dieses in ein maschinenlesbares Format umzuwandeln. (Mustererkennung und Klassifikation)

Recommender Systems -> Empfehlung von Elementen (Filme, Bücher etc.) basierend auf Nutzerprofilen und Kaufverhalten.
(Prognose)

Wichtig zu verstehen ist, dass maschinelles Lernen als Ansatz kein einmaliges
Einsetzen eines Werkzeugs beinhaltet sondern einen iterativen Prozess
darstellt, welcher verfeinert wird.

21
Q

Supervised Learning

A

Nutzt Trainingsdaten, die von
Menschen überprüft wurden
(engl.: labeled data) um
Zusammenhang von
Datenpunkten zu „erlernen“
und das Erlernte auf neue
Eingabewerte anzuwenden.

Typische Anwendungen
-Klassifikation
(Einordnung in Kategorie)
-Regression
(Prognose eines numerischen Werts)

bsp.: Klassifikation von Email:

Mail -> Modell -> Spam oder Inbox

22
Q

Unsupervised Learning

A

Nutzt Trainingsdaten, die
nicht überprüft wurden
(engl.: unlabeled data) um
Muster in den Datenpunkten
zu „erkennen“ und das
Erlernte auf neue
Eingabewerte anzuwenden.

Typische Anwendungen
-Clustering
(Segmentierung von Datenpunkten)
-Assoziationsanalyse
(Warenkorbanalyse)

Bsp.: Analyse der Besucher:innen
einer Website

23
Q

semi supervised learning

A

Nutzt Kombination aus
kleinem Anteil an labeled data
und großem Anteil an
unlabeled data.
Beispiel für Anwendung:
Cloud basierter Foto Hosting Dienst
(z.B.: Google Photos) erkennt
wiederkehrende Gesichter
(Clustering/unlabeled) und benötigt nur
geringen menschlich überprüften Input
(Benennung von Gesicht) um weitere
Gesichter zu identifizieren.

24
Q

Reinforcement Learning

A

System (agent) analysiert
Kontextumgebung, wählt
Aktionen auf welche
Rückmeldungen erfolgen
(reward/penalty) und lernt
daraus (policy). Nach mehreren
Iterationen wird policy optimiert.
Beispiel für Anwendung
DeepMind AlphaGo ist ein Beispiel für
reinforcement learning. Eine “Winning policy“ wurde auf Basis der Analyse von sehr vielen Spielen, in Kombination mit dem Spiel gegen
sich selbst entwickelt.

25
Q

Trainingsdaten

A

Unabhängig ob labeled oder unlabeled wird beim Trainieren
eines Modells der Datensatz geteilt (split data) um die
Qualität eines Modells zu überprüfen (Fehlerrate). Mit einem
Teil der Daten wird das Modell trainiert und mit dem anderen Teil der Daten wird das Modell getestet. Man spricht
von einem training set und einem test set.

26
Q

Werkzeuge und Frameworks

A

Programmiersprachen:
-R ist eine freie Softwareumgebung
für statistische Berechnungen und
Grafiken.
-Python ist eine Programmiersprache,
mit der Sie schneller arbeiten und
Ihre Systeme besser integrieren
können.
-Apache Spark ist eine
Programmiersprache, die in Scala
geschrieben wurde und für
hochskalierbare Systeme
entworfen wurde.

Frameworks:
-pandas
-NumPy
-Tensor Flow

Integrated Development Environments (IDE)
-R Studio
-Jupyter
-Visual Studio Code

27
Q

Date Warehouse

A

Data-Warehouse (unübliche deutsche Übersetzung:
Datenlagerhaus) ist eine betriebsweite Datenbank, die als logisch
zentraler Speicher eine einheitliche und konsistente Datenbasis zur
Entscheidungsunterstützung von Fach- und Führungskräften aller
Bereiche und Ebenen bietet und losgelöst von den operativen
Datenbanken betrieben wird. In einem Data-Warehouse werden Daten
aus unterschiedlichen Quellen eingepflegt und zur Datenanalyse über
kurze, mittlere und längere Zeiträume (Wochen-, Monats-,
Jahresbetrachtungen) gespeichert. Die Datenanalyse kann nach
betrieblichen Kriterien in unterschiedlichen Dimensionen erfolgen (etwa
nach Zeit, Regionen, Produkten, Lieferanten oder Kunden).

28
Q

Data Mart

A

Data-Mart (unübliche deutsche Übersetzung: Datenmarkt) ist ein
aggregierter Teilausschnitt aus dem betriebsweiten Data-Warehouse,
mit dem sich ein Großteil der Abfragen eines Funktionsbereichs oder
einer Personengruppe einfach und schnell bedienen lässt. Die Vorteile
liegen bei einer verbesserten Leistung (geringerer Datenumfang),
erhöhter Flexibilität für den Funktionsbereich bei der
Weiterentwicklung, geringerem Abstimmungsaufwand und
vereinfachtem Zugriffsschutz.

29
Q

Data Lake

A

Data-Lake (unübliche deutsche Übersetzung: Datensee) ist eine
betriebsweite Datenbank, in der betriebsrelevante Daten in ihrer
Ursprungsform kostengünstig gespeichert und dann aufbereitet
werden, wenn ein konkreter Bedarf besteht.