Skript 5 - Data Mining Flashcards
Knowledge Discovery in Databases
Non trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data
- Process of applying data mining algorithm to extracted data um Infromationen zu gewinnen
Was ist Data Mining?
Sub Prozess of KDD, used to derive a new pattern out of a given data sample. Data mining often used as Synonym for KDD
Welche Kritieren müssen die Pattern die erstellt wurden erfüllen?
Validity: Die erstelleten Pattern sollten auf neue Datensätze anwendbar sein
Understandability: Die abgeleiteten Pattern sollten einfach zu verstehen sein
Was sind Data?
Represantation von Fakten
Was sind Informationen
Kommunikation von Daten
Was ist Knowlege / Wissen
Daten im spezifischen Kontext
Wie hängen Informationen , Daten und Wissen zusammen?
In einer Datenbank, welche Charakteristiken kann ein Attribut haben
Charactersitics von Attributen
- Type of the attribute
- Distribution of values
- Missing values
- Quality of values
Welche Attribut Typen gibt es?
Welche Komponenten hat ein Decision Tree
Wie wähle ich meine Nodes in einem Decision Tree aus?
Anhand der Entropie!
Was ist die Entropie
Expected value of information contained in a node
Weche Ansätze gibt es beim Clustering?
hierarchical Clustering und
Partition Based Clustering
Welche Ansätze gibt es im Hierarchischen Clustering
2
- Agglomerative Approach ( partition getting bigger during the clustering approach)
- Divisive approach (Partitions are getting smaller during the clustering process )
Welche Distanzmaße gibt es ?