Altklausur Flashcards

1
Q

Was ist Data Mining?

A

Data Mining ist der Prozess des Entdeckens bedeutsamer neuer Zusammenhänge, Muster
und Trends durch die Analyse großer Datensätze mittels Mustererkennung sowie statistischer
und mathematischer Verfahren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche 2 Aspekte führen zu einer immer größer werdenden Datenmenge?

A

Digitalisierung und Vernetzung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Beispiele für DM-Anwendungen aus unterschiedlichen Branchen

A
  • Handel:
    -> Warenkorb Analysen, Auswertung der Nutzung von Kunden –/Rabatt Karten, Customer Relationship Management (CRM)
  • Finanzbereich:
    -> Kredit Bewertungen/ Scoring, Entdeckung von Betrugsfällen
  • Produktion:
    -> Optimierung von Parametern die den Produktionsprozess positiv beeinflussen, Qualitätssicherung
  • Telekommunikation:
    -> Kündigerprävention, Untersuchung des Kommunikations und
    Nutzungsverhaltens, soziale Netzwerke
  • Bioinformatik:
    -> Analyse und Verstehen von Sequenzen (DNS), Abhängigkeit von Genen, Proteinen
  • Forensik:
    -> Spurensicherung, (digitale) Fingerabdrücke und Muster, Erkennung von Fälschungen, Lügen, Manipulationen, Deep Fakes
  • Web und Text Mining:
    -> Search Engines, Analyse von Netzwerken (Web Sites, soziale Netze,Social Media),automatisches Klassifizieren und Sortieren, E Mail Spamerkennung, Identifikation von Plagiaten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

DM im CRM-Umfeld: Welche 5 Angebotsdimensionen kennen Sie?

A

Produkt, Kunde, Kommunikationskanal, Preis und Zeitpunkt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was bedeutet die Abkürzung CRISP-DM und was ist das?

A
  • CRISP-DM = CRoss Industry Standard Process for Data Mining
  • Industrie-Standard für einen klassischen Data-Mining-Prozess
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wieviel Phasen des CRISP-DM Referenz-Modells gibt es und wie heißen diese?

A
  • 6 Phasen
  • Business Understanding
  • Data Understanding
  • Data Preparation
  • Modeling
  • Evaluation
  • Deployment
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welche Aufgaben müssen in der “Data-Preparation-Phase“ durchgeführt werden?

A
  • Daten-Integration
  • Daten-Selektion
  • Daten-Formatierungen
  • Daten-Transformation
  • Daten-Bereinigung
  • Daten-Konstruktion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Gegeben: Merkmal mit den Namen deutscher Städte, Gesucht: davon abgeleitete weitere, zusätzliche Merkmale!

A
  • Längen- und Breitengrade (räumliche Beziehung)
  • Zuordnung zu Bundesländern
  • Einwohnerzahl
  • Fläche
  • Alter
  • Entwicklung der Einwohnerzahl, Bevölkerungsdichte, etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Gegeben: Merkmal mit Vornamen von Kunden, Gesucht: davon abgeleitete weitere, zusätzliche Merkmale

A

Geschlecht, Regionale Herkunft, Alter (mit Wahrscheinlichkeiten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie erfolgt die Entwicklung eines Test-Regimes in der Phase „Modeling“?

A
  • Evtl. Stichprobenauswahl
  • Zufallsauswahl und Einteilung des Datenbestandes in Lern-/Trainingsdaten
  • Evaluierungs-/Validierungsdaten und Testdaten-Menge;
  • Überprüfung, ob die Stichproben/Auswahlen ähnliche Charakteristiken haben wie die Gesamtpopulation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wofür steht die Abkürzung ROC?

A

Receiver Operating Characteristics

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie ist eine Konfusion Matrix / Kontingenz Tabelle aufgebaut?

A
  • Spalte: True Class
  • Zeilen: Hypothesized Class
  • tp fp
  • np tp
  • fp rate = fp/n
  • tp rate = tp/n
  • precision= tp/(tp+fp)
  • recall = tp/p
  • accuracy = (tp+tn)/(tp+tn+fp+fn)
  • F-measure = 2/ (1/precision)+(1/recall)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie lautet die Bayes‘sche Regel?

A

P(H|D) = P(D|H) * (P(H)/P(D))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie ist ein Bayes‘scher Klassifikator formal definiert?

A

Funktion b, die einen f-dimensionalen Vektor (Beispiel, Datenpunkt, etc.) auf die Menge C aller Klassen abbildet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly