Big Data Flashcards
1
Q
Definieren Sie den Begriff Big Data.
A
- Jede Art von Daten, die in Beziehung zum Geschäftsmodell des Unternehmens stehen
- Schnelles Anwachsen von strukturierten/unstrukturierten Daten, Daten verändern sich mit hoher Geschwindigkeit
- Einsatz der Datenmengen für wirtschaftlichen Nutzen
2
Q
Nennen Sie die Einsatzgebiete von Big Data im CRM.
A
- Wie verhalten sich meine Kunden auf unterschiedlichen Plattformen?
- Welche Produkte/ Services suchen sie? Für welche entscheiden sie sich?
- Wie kann ich meine Kunden über verschiedene Kanäle hinweg noch gezielter ansprechen?
- Welche Trends zeichnen sich ab?
- An welcher Stelle kann ich Abläufe, Services und Angebote noch optimieren?
3
Q
Definieren Sie den Begriff Smart Data.
A
- Selektion und Transformation der Daten hin zu Gehalt und Relevanz
- Zuküftiges KD Verhalten
4
Q
Erklären Sie die 4 Vs von BD.
A
- Volumen –> Anzahl von Datensätzen und Files
- Variety –> Fremddaten, Firmendaten, unstrukturierte, semistrukturierte, strukturierte Datensätze
- Velocity –> Datengenerierung in hoher Geschwindigkeit, Datenübertragung der konstant erzeugnten Daten
- Analytics –> Erkennen von Zusammenhängen, Bedeutungen, Mustern, Vorhersagemodelle
- Veracity –> Wahrhaftigkeit
5
Q
Erklären Sie den Begriff NOSQL.
A
- Not Only SQL
- Kann ich Echtzeit große Mengen unstrukturierter Daten erfassen, lesen und analysieren, z.B. Click Streams, Social Media Daten
6
Q
Nennen Sie die Vorteile und Potentiale von Big Data.
A
- Bessere strategische Entscheidungen
- Bessere Steuerung operativer Prozesse
- Schnellere und detailliertere Analysen von Daten
- Zielgerichtete Marketingaktionen
- Besseres Verständnis des Marktes/ Wettbewerbs
7
Q
Grenzen Sie DMS von BD ab.
A
8
Q
Nennen Sie die allgemeinen Einsatzgebiete von BD.
A
- Gesundheitswesen: Wearables
- Produktionsgesellschaften: Stauvorhersagen
- Controlling: Prävention von Betrug
- Proliferation von Smartphones: Individual Marketing
- Social Media: Geschäftsmodell basiert auf Big Data
9
Q
Nennen Sie Probleme und Herausforderungen von BD.
A
- Fehlendes Technisches/fachliches Know How
- Datenschutz
- Big Data nicht für Fachanwender im Unternehmen nutzbar
- IT Infrastruktur nicht flexibel und skalierbar genug
- Netzwerkkapazität und Performance nicht auf neue Datenvolumen und -Strukturen ausgelegt
- Traditionelle, relationale Datenbank- und Storage-Systeme verhindern Analysen in Echtzeit und Analysen großer, unstrukturierter Datenmengen
10
Q
Erklären Sie das Map/ Reduce Modell.
A
- Programmiermodell + Ausführungsumgebung für Datanparallelismus
- Entwickelt für Daten-intensive Anwendungen
- Verarbeitung sehr großer Datenmengen auf tausenden von Prozessoren
- Daten sequentiell lesen
- Keine Abhängigkeiten zwischen Daten
- Daten können in gleichgroße Datensätze geteilt werden
- Jeder Prozess verarbeitet einen Datensatz
- Master/ Worker Ansatz
- Master
- Teilt Daten in Datensätze
- Verteilt diese an Worker
- Erhält Ergebnisse von Workern
- Worker
- Erhält Datensätze von Master
- Verarbeitet diese
- Sendet Ergebnisse an Master
- Master
- Map-Schritt
- Schlüssel/ Wert-Paare als Eingabe mit geg. Funktion verarbeiten
- Schlüssel/ Wert-Paare als Zwischenergebnis speichern
- Reduce-Schritt
- Zwischenergebnisse mit dem gleichen Schlüssel mit geg. Funktion
- Zusammenfassen
11
Q
Erklären Sie die Verarbeitungsschritte der Sprachtechnologie.
A
- Dokumentenspezifische Verarbeitung
- Bereinigung und Normalisierung der Daten
- Anreicherung der Dokumente mit Metadaten
- Sprachspezifische Verarbeitung
- Sprachenerkennung
- Satzsegmentierung
- Domänenspezifische Verarbeitung
- Part-of-Speech Tagging
- Koreferenzauflösung
12
Q
Skizzieren Sie die Risiken von BD.
A
- Data-Compliance-Risiko
- Nationale/ Internationale Rahmenbedingungen
- Sozialrisiko
- Datenrisiko
- Modellbildungsrisiko
- Interpretationsrisiko