Data Science & AI Flashcards
Wie werden Daten zu strategische Ressourcen?
Daten als Prozessergebnis => Daten als Befähiger von Prozessen => Daten als Befähiger von produkten => Daten als Produkt
Welche Datenkategorien gibt es im Datenschutz?
Allgemeine Daten (Inkl. Wirtschaftsdaten): Statistiken, Konstruktionsdaten, Produktionsdaten, Verkaufsdaten, etc.
Verstärkter Schutz
Personenbezogene Daten: Anschrift, Name, Geburtsdatum
Besonderer Schutz
Persönliche Daten: Telefongespräche, E-Mail
Besondere Arten: Gesundheit, Rasse, Religion
Weitere: Berufsgeheimnisse, Bankdaten, etc.
Was sind die Inhalte der DSGVO?
Aus Unternehmensperspektive:
Transparenz, Einwilligung, Zweckbindung, Gebot der Datenminimierung, Zeitbezug, Rechenschaftspflicht
Aus Data Science Perspektive:
Anonymisierung, Pseudonymisierung
- Was sind die wichtigsten Faktoren der IT-Sicherheit?
- Vetraulichkeit: Nicht von unbefugten einsehbar
- Integrität: Systeme können nicht unbemerkt verändert werden
- Verfügbarkeit: Die Systeme, Informationen, Netze sind verfügbar.
Was bedeutet Informaionsethik? (Def.)
Es beschäftigt sich mit der Moral im Bezug auf Informationstechnolofgien. Damit verbunden, wie wir uns hinsichlich dieser Technologie verhalten oder verhalten sollen.
Was sind die vier V’s und “Value within the Data”
Volume: Data at rest (Terabytes, Petabytes, Exabytes)
Velocity: Data in motion (Echtzeit, neartime, Streams)
Variety: Data in many forms (Strukturierte, Semi-, Unstrukturierte Daten)
Veracity: Data in doubt (Fehlende, ungenaue, fehlerhaft Daten)
Value: Siehe Value Karte
Welche Ebenen von Nachsicht, Aktuell bis zur Vorhersage gibt es im Data Science im Sinne des “Value”? Und welche Frage steht dort im Fokus?
Prescriptive Analytics: Wie können wir es bewerkstelligen?
Predictive Analytics: Was wird passieren?
Diagnostic Analytics: Warum ist es passiert?
Descriptive Analytics: Was war geschehen?
Was ist eine mögliche Definition von Data Mining & Knowledge Discovery in Databases (KDD)?
Data Mining ist ein Schritt im KDD-Prozess; es ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten.
Data Mining ist die Extraktion und Entdeckung von implizitem, bisher nicht bekanntem und potenziell nützlichem Wissen aus Daten.
Was ist ein Algorithmus?
Ein Algorithmus ist eine aus endlich vielen Schritten bestehende eindeutige Handlungsvorschrift zur Lösung eines Problems oder einer Klasse von Problemen
Was sind Expertensysteme? Was ist Machine learning?
Expertensysteme: Expertenwissen (Kausalität: Ursache-Wirkung) Festes, definiertes Regelwerk Viele Zeilen Quellcode Es gibt keinen fehlerfreien Quelltext
Machinelles Lernen (ML):
Input-Output-Daten (statistische Korrelation)
Training, Validierung, Anwendung (dynamisch)
Wenige Zeilen Quellcode
Fehler? Daten, Training, Validierung, Anwendung
Welche Arten von ML gibt es?
- Supervised Learning: Trainiert algorithmen, um klassification oder regressen mit einem labelled data set zu machen
- Unsupervised Learning: Trainiert algorithmen um Cluster oder assoziationen mit einem ungelabelden Dataset zu finden.
- Reinforcement Learning: Trainiert einen agenten um gewisse aktionen in einem Umgebebung ohne data set durchzuführen
Wie heißen die Phasen des CRISP-DM Modells? (DE/EN)
Geschäftsverständnis (Business Understanding) Datenverständnis (Data Understanding) Datenaufbereitung (Data Preparation) Modellbildung (Data modelling) Modellbewertung ( Evaluation) Einsatz der Ergebnisse (Deployment)
Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Business Understanding?
Ziele: Domänenwissen aufbauen, Geschäftsverständnis entwickeln, Projektziele formulieren
Schritte / Aktivitäten: Geschäftsziel bestimmen, IST-Zustand analysieren, Analyseziele festlegen, Projektplan erstellen
*Fragen: *Was ist das Ziel dieser DM-Analyse? Welche Ergebnisse werden von wem wozu benötigt?
Zu welcher DM-Kategorie gehört diese Analyse? GIbt es erste Ideen/ Hypothesen, die übeprüft werden?
Antworten: Analyseziel: Vorhersage, ob ein Passagier überlebt oder nicht (Klassfikationsanalyse)
Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data Understanding?
- Ziele: *Datenverständnis entwickeln, Datenqualität analysieren und bewerten
- Schritte / Aktivitäten: *Daten sammeln, Daten beschreiben, Daten untersuchen, Datenqualität prüfen
- Fragen: *In welcher Form und Formaten sind die Daten gegeben? Können diese so verarbeitet werden?Wie können ggf. weiteren Daten beschafft werden? Sind die Datenwerte korrekt oder gibt es noch fehlerhafte Daten?
- Antworten: *KNIME (bzw. Anaconda)
Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data Preparation?
- Ziele: *Datenqualität erhöhen und Daten für die Modellbildung vorbereiten
- Schritte/Ziele: *Daten auswählen, Daten reinigen, Features extrahieren, Daten integrieren, Daten formatieren
- Fragen: *In welcher Form werden die Daten vom Modell benötigt? Müssen Daten hierzu angepasst
bzw. korrigiert werden? Sind die Daten konsistent? Wie gehen wir mit fehlenden Werten um? - Antworten: *KNIME (bzw. Anaconda)
Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data modelling?*
- Ziele: *Modell trainieren (mittels Lernalgorithmus) und validieren
- Schritte/Ziele: *Verfahren auswählen, Testdesign aufbauen, Modell bilden, Modell bewerten
- Fragen: *Gibt es bereits Verfahren und Lernalgorithmen, die wir als Modell verwenden können? Wie teilen wir unsere Daten für das Training und die Validierung auf? Welche Gütekriterien lassen sich berechnen? Wie kann man diese Werte interpretieren?
- Antworten: *Klassifikationsverfahren: Naive Bayes, Entscheidungsbaum (Decision Tree), k Nearest Neighbor (kNN), Support Vector Machine (SVM), Künstliches Neuronales Netzwerk (KNN), Random Forrest, Gradient Boosted Trees usw. Als Gütekriterien können bspw. die Genauigkeit (Accuracy) und die Area under ROC curve (AURC) verwendet werden.
Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Deployment?
- Ziele:*Anwendung des „besten“ Modells
- Schritte / Aktivitäten:* Einsatz planen, Kontrolle und Wartung planen, Bericht erstellen, Projekt validieren
- Fragen:* Wie soll das „beste“ Modell nun eingesetzt werden? In welcher Form werden die Ergebnisse benötigt? Wie werden diese Ergebnisse dann weiterverarbeitet bzw. wer bekommt die Ergebnisse? Muss dieses ggf. in zeitlichen Abständen nachtrainiert werden?
- Antworten:* Mit dem „besten“ Modell werden nun die Klassen (Überlebt, Nicht-überlebt) für die neuen Datenobjekte in den Testdaten berechnet. Die Ergebnisse werden als CSV-Datei (Spalten: ID, Survived) gespeichert und bei der Data Science Plattform Kaggle hochgeladen. Abschließend bekommt man einen Score als Bewertung / Feedback.
Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Evaluation?
- Ziele:* Finden des besten Models
- Schritte / Aktivitäten:* Ergebnisse beurteilen, Prozess validieren, nächste Schritte festlegen
- Fragen:* Welches ist das beste “Modell”? Ist das “beste” Modell genug? SInd weitere Iterationen nötig? Gibt es ggf. Schwächen im Prozess?
- Antworten:* Die Frage muss im Kontext der jeweiligen Aufgabe & Ziele beantwortet werden
Was führte dazu, dass Daten so ein Bedeutung gewinnen?
- Datenvokumen nimmt exponentiell zu
- Mooeresches Gesetz (exponentieller Wachstum)
- CRM => Viele Daten
- Daten als Kapital
Beschreibe eine Assoziationsanalyse und nennen ein Bespiel.
Suche nach Abhängigkeiten zwischen den Objekten.
z.B Warenkorbanalyse
Beschreibe eine Clusteranalyse und nennen ein Bespiel.
Erschafffe einheitlicher, homogener Objektteilmengen. zB. Erstellen eines Kunden-Portfolios
Beschreibe eine Klassifikationsanalyse und nennen ein Bespiel.
Aufteilung der Objekte in vordefinierten Klassen.
Z.B. Abwanderungsrate => Kundenbindungsmaßnahmen
Beschreibe eine Regressionsanalyse und nennen ein Bespiel.
Identifikation von Trends im Datenzeitbezug. => Vorhersagen in Verkauf und Umstaz (Absatz- / Produktionsplanung)
1) Bivariate lineare Regression: Geradengleichung -> Minimierung Fehlerquote, Regressionskoedffizient, Korrelationskoeffizient und Bestimmtheitsmaß berechnen
2) Multivariate lineare Regresssion: Linearkombination, Berechnung des korrigierten Bestimmheitsmaßes
Was ist die Verbindung von Data Science zu KI?
Data Science verwendet und passt die Algorithmen und Methoden der KI an, um aufgrund von zugrunde liegenden Daten vorhersagen treffen zu können => ML & Neuronale Netze
Was ist die Verbindung von Big Data zu KI?
Für KI wird eine große Datenmenge beötigt, erst hier durch kann der Mehrwert generiert werden. Wichtigste Technoligen -> Neuronale Netze
Welche Zeichen und Datentypen gibt es?
1) Arabische Zahlen, ASCII
2) Ganze Zhalen, Gleitkommazahlen, etc.
Welche Skalenniveaus gibt es?
Daten:
- > Norminalskala (keine Rangordnung)
- > Ordinalskala (Rangordnung ohne Abstände) -> Meist diskutiert
- > Kardinal-Metrische Skala (Rangordnung) -> Meist stetig
Was sind kriterien für gute Datenqualität?
- Glaubwürdigkeit -> Korrektheit, Konsistenz
- Nützlichkeit -> Vollständig, Genauigkeit
- Interpretierbarkeit -> Einheitlichkeit, Eindeutigkeit
- Schlüssenintegrität (relationel) -> Eindeutig zurordnenbar
Wie können Daten visualisiert werden?
Balken, Torte, Linie, Fläche, Scatterplot, Blasen
Wie sieht eine Modellierung aus vom Ablauf?
Partitionierung/Sampling: Trainingsdaten [Modell]
=>
Daten: Validierungsdaten [Trainiertes Modell] -> Testdaten [Finales Modell]
=>
Neue Daten [Finales Modell]