Kapitel 1 - Einführung und Motivation Flashcards
Welches Problem hat das WWW (derzeit) als Datenquelle?
Semi- oder unstrukturierte Daten
- Derzeit sind viele Daten im WWW semi- oder unstrukturiert
- in dieser Form können sie nicht einfach weiter verwendet werden
Was macht stukturierte Daten aus? Aus welchen Datentypen bestehen sie?
- Stukturierte Daten sind in einer festen konsistenten Struktur angeordnet (Relationale DB)
- sie bestehen aus elementaren Datentypen wie z.B. Zahlen oder Strings
Was macht semi-strukturierte Daten aus? Aus welchen Datentypen bestehen Sie?
- Semi-stukturierte Daten haben eine möglicherweise wechselnde Struktur
- sie können durch Markup-Languages (XML) beschrieben werden
Was macht unstrukturierte Daten aus? Aus welchen Datentypen bestehen sie?
- es ist keine Struktur vorhanden, die ein Schema über die Daten bauen lässt
- sie bestehen aus Binären oder Fließtext-Objekten (Binary Large Object (BLOB), Carachter LOB (CLOB))
Warum ist Text- uind Webmining wichtig?
Um riesige Menge an Daten verarbeiten und nutzen zu können
Definiere Text-Mining
Texte bieten große Mengen an unstrukturierten Informationen. Text-Mining verwendet statistische Methoden um Wissen aus diesen Daten zu ziehen.
Definiere Web-Mining
Woraus besteht es?
Web-Mining bezeichnet die Verwendung von Data-Mining Ansätzen speziell auf Web-Dokumenten bzw. Diensten.
Dabei werden Elemente aus:
- Machine-Learning
- Datenbanken
- Social Network Analyse
- und Natural Language Processing
verwendet.
Was ist Web-Usage-Mining? Woher kommen dabei die Daten?
Web-Usage-Mining beschreibt die Muster-Erkennung auf den Interaktionsdaten eines Users mit einer oder mehreren Webseiten.
Als Datenquelle können z.B. Server-Logs oder Nutzerprofile dienen. Eine weit verbreitete Analyse-Methode arbeitet mit Google-Analytics und wird in viele Webseiten gebaut um die Nutzer zu tracken.
Was ist Web-Structure-Mining?
Was ist Web-Content-Mining? Wofür wird es verwendet?
Aus welchen Schritten besteht der KDD Prozess?
Außerdem, was heißt eigentlich KDD?