Altklausur Flashcards
Was ist Data Mining?
Data Mining ist der Prozess des Entdeckens bedeutsamer neuer Zusammenhänge, Muster
und Trends durch die Analyse großer Datensätze mittels Mustererkennung sowie statistischer
und mathematischer Verfahren.
Welche 2 Aspekte führen zu einer immer größer werdenden Datenmenge?
Digitalisierung und Vernetzung
Beispiele für DM-Anwendungen aus unterschiedlichen Branchen
- Handel:
-> Warenkorb Analysen, Auswertung der Nutzung von Kunden –/Rabatt Karten, Customer Relationship Management (CRM) - Finanzbereich:
-> Kredit Bewertungen/ Scoring, Entdeckung von Betrugsfällen - Produktion:
-> Optimierung von Parametern die den Produktionsprozess positiv beeinflussen, Qualitätssicherung - Telekommunikation:
-> Kündigerprävention, Untersuchung des Kommunikations und
Nutzungsverhaltens, soziale Netzwerke - Bioinformatik:
-> Analyse und Verstehen von Sequenzen (DNS), Abhängigkeit von Genen, Proteinen - Forensik:
-> Spurensicherung, (digitale) Fingerabdrücke und Muster, Erkennung von Fälschungen, Lügen, Manipulationen, Deep Fakes - Web und Text Mining:
-> Search Engines, Analyse von Netzwerken (Web Sites, soziale Netze,Social Media),automatisches Klassifizieren und Sortieren, E Mail Spamerkennung, Identifikation von Plagiaten
DM im CRM-Umfeld: Welche 5 Angebotsdimensionen kennen Sie?
Produkt, Kunde, Kommunikationskanal, Preis und Zeitpunkt
Was bedeutet die Abkürzung CRISP-DM und was ist das?
- CRISP-DM = CRoss Industry Standard Process for Data Mining
- Industrie-Standard für einen klassischen Data-Mining-Prozess
Wieviel Phasen des CRISP-DM Referenz-Modells gibt es und wie heißen diese?
- 6 Phasen
- Business Understanding
- Data Understanding
- Data Preparation
- Modeling
- Evaluation
- Deployment
Welche Aufgaben müssen in der “Data-Preparation-Phase“ durchgeführt werden?
- Daten-Integration
- Daten-Selektion
- Daten-Formatierungen
- Daten-Transformation
- Daten-Bereinigung
- Daten-Konstruktion
Gegeben: Merkmal mit den Namen deutscher Städte, Gesucht: davon abgeleitete weitere, zusätzliche Merkmale!
- Längen- und Breitengrade (räumliche Beziehung)
- Zuordnung zu Bundesländern
- Einwohnerzahl
- Fläche
- Alter
- Entwicklung der Einwohnerzahl, Bevölkerungsdichte, etc.
Gegeben: Merkmal mit Vornamen von Kunden, Gesucht: davon abgeleitete weitere, zusätzliche Merkmale
Geschlecht, Regionale Herkunft, Alter (mit Wahrscheinlichkeiten)
Wie erfolgt die Entwicklung eines Test-Regimes in der Phase „Modeling“?
- Evtl. Stichprobenauswahl
- Zufallsauswahl und Einteilung des Datenbestandes in Lern-/Trainingsdaten
- Evaluierungs-/Validierungsdaten und Testdaten-Menge;
- Überprüfung, ob die Stichproben/Auswahlen ähnliche Charakteristiken haben wie die Gesamtpopulation
Wofür steht die Abkürzung ROC?
Receiver Operating Characteristics
Wie ist eine Konfusion Matrix / Kontingenz Tabelle aufgebaut?
- Spalte: True Class
- Zeilen: Hypothesized Class
- tp fp
- np tp
- fp rate = fp/n
- tp rate = tp/n
- precision= tp/(tp+fp)
- recall = tp/p
- accuracy = (tp+tn)/(tp+tn+fp+fn)
- F-measure = 2/ (1/precision)+(1/recall)
Wie lautet die Bayes‘sche Regel?
P(H|D) = P(D|H) * (P(H)/P(D))
Wie ist ein Bayes‘scher Klassifikator formal definiert?
Funktion b, die einen f-dimensionalen Vektor (Beispiel, Datenpunkt, etc.) auf die Menge C aller Klassen abbildet.