Zusammenfassung Flashcards
Was ist die Definition von Data Mining?
Data Mining ist die nicht-triviale, Extraktion von impliziten, vorher unbekannten und potenziell nützlichen Informationen.
implizit= müssen versteckt sein
Was sind die 4 Möglichkeiten der Informationsbeschaffung?
- Direkte Abfragen
- OLAP , Aggregation
- Statistische Analyse
- Data Mining
Was sind die Typen von Daten Analyse?
Data Driven Analysis (Data Mining, Mustererkennung führen zu Hypothese)
Hypothesis Driven Analysis (OLAP, Hypothesen testen)
Welche zwei Data Mining Techniken gibt es?
Discovery Mining (Entdeckung, Erkennen von Mustern, um Entscheidungen zu lenken):
- Assoziationen (Nur eine Transaktion)
- Sequenzen (Fortlaufende Transaktion)
- Clustering (Gruppierung)
Predictive Mining (Vorhersage, Erstellen von Modellen aus bekannten Resultaten)
- Classification (Einteilen in Klassen)
- Regression (Vorhersage von numerischen Werten)
Für was steht CRISP?
Cross Industry Standart Process for Data Mining
- hierarchisches Prozessmodell
Was sind die CRISP Phasen?
- Business Understanding (Verstehen der Aufgabe): Problemstellung und Ziele festlegen
- Data Understanding (Verständnis der Daten): Sammlung der Daten
- Data Preparation (Datenvorbereitung): Selektieren der Relevanten Daten
- Modeling (Modellbildung)
- Evaluation (): Überprüfen der Qualität des Datenmodells
- Deployment (): Einsatz des Models
Was ist Clustering?
Ein Verfahren, welches Objekte in Mengen (Cluster) zusammenfasst.
Das sog. Cluster Problem: Die Suche nach k Partitionen von einer Datenmenge M welche in Bezug auf ein gegebenes Kriterium optimal ist.
Was sind die Kategorisierungsfeatures?
- categorical feature: Feature nur auf Gleichheit verglichen
- ordinal feature: zusätzlich auf Ordnung verglichen
- quantitative feature: zusätzlich arithmetische Operationen
Was sind die Bedingungen für das Ähnlichkeitsmaß?
Muss zwischen 0 und 1 liegen.
0<= sie := s(xi,xj) <= 1
Maximum bei 1. sij = 1
symmetrisch: sjk = skj
Was sind die Bedingungen für das Entfernungsmaß?
positivität
minimaler Abstand = 0
symmetrisch
Beschreibe k-means einfach.
- Zufällig k initiale Cluster festlegen
- Berechne die ZEntren der Cluster
- Berechne den Abstand jedes Datensatzes zu den Centroiden und ordne zu dem Cluster mit der geringsten Entfernung zu.
Beginne mit Schritt 2 erneut.
———
-Addiere einfach jeweils x und y Werte zusammen und teile durch anzahl. dann erhält man C1=(x,y) ein initiales Centrum: Die Punkte es Zentrums is gegeben mit C1(P1,P5), bei drei punkten auch durch drei teilen! Logisch
- setze jeden einzelnen Punkt in mit jedem zuvor errechneten Cluster in die Formel. Kleinste Zahl wir neues Cluster des Punktes.
Wie wird die Confidence berechnet?
conf(A->B) = absSupport(A->B)/absSupport(A)
Wie wird lift berechnet?
lift=conf(A->B)/relSupport(B)
Was ist der Absolute Support?
Die Anzahl der vorkommenden Items
Was besagt das Klassifikationsproblem?
Die Ermittlung eines Klassifikators mit der geringsten Anzahl an Fehlschlägen wird Klassifikationsporblem genannt.
Was ist Scoring?
Man lernt das Model auf historische Daten, von denen man den Ausgang kennt. Scoring= Anwendung eines Models auf neue Daten um Vorhersage zu treffen