1. Einführung Flashcards
Data Mining
„Data Mining ist der Prozess der Ermittlung sinnvoller neuer Korrelationen, Muster und Trends durch das Durchsuchen großer Datenmengen, unter Verwendung von Mustererkennungstechniken sowie statistischen und mathematischen Techniken“
–> Alle Verfahren, um aus Daten Wissen abzugreifen, Muster in Daten zu erkennen
–> Erkennt nur Korrelationen und keine Kausalität
EDA (Exploratory Data Analysis):
Die Betrachtung der Daten mit klassischen Visualisierungsmethoden wie Tabellen, Balkendiagrammen etc.
–> grafisches Anschauen von Diagrammen
–> Daten kennenlernen, erste Muster in den Daten erkennen, erste Hypothesen aufstellen
Klassifikation
Das Ziel der Klassifikation ist die wahrscheinlichste Klasse für ein Element im Datensatz abzuschätzen. Die Klassifikation gehört zum Supervised Learning. Z.B. Kreditwürdigkeit
Welche Attribute beeinflussen die Überlebenswahrscheinlichkeit?
Schätzen
Ist ganz ähnlich wie die Klassifikation, der Unterschied ist, dass die Zielvariable die wir schätzen wollen keine Klasse hat sondern ein numerischen Wert. Z.B. das Abschätzen des Gewichts einer Person anhand anderer Daten wie Größe etc.
Wir können versuchen zu erklären, was ein numerisches Attribut beeinflusst?
Vorhersage
Ist die Schätzung der Zielvariable für die Zukunft (aus vergangenen Werten zukünftige Werte schließen) Vorhersage setzt eine bestimmte Zeitreihe voraus. Z.B. Aktienkurse vorhersagen
Clustering
Bei der Segmentierung werden Elemente eines Datensatzes möglichst homogen gruppiert/segmentiert. Z.B. Eingruppierung von Kunden in bestimmte Marketing Klasse.
keine Zielvariable, die abgeschätzt werden soll Unsupervised Learning.
Wir können versuchen Gruppen von ähnlichen Attributen zu bilden?
Association Rules
Dieses Verfahren versucht herauszufinden welche Dinge oder Eigenschaften eines Datensatzes in starker Beziehung zueinanderstehen und häufig gemeinsam auftreten. Z.B. Welche Artikel werden zusammen gekauft Assoziationsregel: Prämisse –> Konsequenz
Wir können schauen, welche Attributwerte gerne zusammen auftreten?
Supervised Learning
Bedeutet das Verfahren ist ein überwachtes Lernverfahren. Wir geben dem System vor was richtig und was falsch ist. Verfahren: Decision Tree, Klassifizierung, Split Validation, Linear Regression
Training Data:
- Trainingsdaten enthalten vorklassifizierte Werte der Zielvariable
- Modell wird aus den Trainingsdaten gelernt oder erstellt
Evaluation Step:
- Testdaten enthalten vorklassifizierte Werte der Zielvariable, wurden jedoch nicht für das Modelllernen verwendet
- Gelerntes Modell wird durch Anwenden des Modells auf Testdaten ausgewertet
- Die Modellgenauigkeit wird durch den Vergleich der prognostizierten Werte der Zielvariablen mit den Istwerten bewertet
Annahme: Trainingsdaten sind repräsentativ für die Testdaten
Split-Validation
n Datensatz nun in Trainingsdaten und Testdaten
Overfitting
Modell bezieht jeden Trend oder jede Struktur in Trainingsdaten ein, auch die nicht repräsentativen Daten
Zunehmende Modellkomplexität, um die Genauigkeit der Trainingsdaten zu erhöhen, führt zu einer Verschlechterung der Generalisierbarkeit des Modells
–> Wird das Modell immer genauer so wird der Fehler auf den Trainingsdaten immer geringer. Aber ab einem bestimmten Zeitpunkt wird der Fehler auf den Testdaten wieder größer, da wir uns im Overfitting befinden.
CRISP-DM & Phasen
Standardprozess für das Data Mining.
Er besteht aus
Business Understanding
Data Understanding
Data Preparation
Modeling
Evaluation
Deployment
- Business Understanding:
Hier findet die Definition der Anforderungen an ein Analyseprojekt statt (bsp. Analyse des typischen Käufer- und Verkäuferverhaltens für touristische Produkte auf der Online-Auktionsplattform Ebay wie Nutzungsmuster von Käufern, Faktoren analysieren, die den Erfolg von Online-Auktionen beeinflussen wie Erfolgskennzahlen)
Unsupervised Learning
Beim Unsupervised wird keine Zielvariable abgeschätzt und das System auch nicht angelernt werden. Verfahren zum Beispiel: Clustering
Cross-Validation
Hier unterteilen wir den Datensatz in n Stücke. In jedem Durchlauf sind n-1 Stücke Trainingsdaten und 1 Stück Testdaten. Auf diese Weise werden alle Daten zum Trainieren benutzt und alle Daten zum Testen.
- Teilt Daten in n gleich große disjunkte Teilmengen (kein gemeinsames Element)
- Jede Teilmenge wird als Testmenge und alle anderen Teilmengen zusammen als Trainingsmenge verwendet
- Dieser Vorgang wird n-mal wiederholt und der Durchschnitt der n-Genauigkeiten wird als Gesamtgenauigkeit genommen
- Wird verwendet, wenn das Datenset klein ist
- Leave-One-Out-Kreuzvalidierung verwendet jeden einzelnen Datensatz als Testmenge (entspricht einer m-fachen Kreuzvalidierung, wenn m die Größe des Datensatzes ist)
- Data Understanding:
Es sollen die Daten verstanden und kennengelernt werden. Hier werden oft EDAs genutzt, um die Daten zu visualisieren (bsp. Beispielset verstehen, Prüfen auf Fehler, Auffälligkeiten, fehlende Werte)
- Modeling & Evaluation:
In dieser Phase werden die Daten mittels unterschiedlicher Methoden des Data Minings analysiert (bsp. Korrelationsmatrix gibt erste Aufschlüsse, Klassifizierung nach Entscheidungsbaum, …)
- Data Preparation:
In der Data Preparation Phase werden die Daten aufbereitet. Zum Beispiel werden unnötige Attribute entfernt (bsp. Unklare Attribute werden entfernt, Textattribute werden in nominale Attribute umgewandelt, binominale Attribute werden identifiziert und konvertiert) Überlappt sich mit Modeling, da es allgemeine Data Preparation Maßnahmen gibt sowie spezielle Aufbereitungen der Daten für ein konkretes Modellierungsverfahren