Datenanalyse Flashcards
Was ist der Unterschied zwischen Supervised und Unsupervised Learning?
Supervised: Aus vergangenem Verhalten werden Labels/Klassifikationen/Merkmale definiert und festgelegt (z.B. “interessant” “nicht interessant”). Ich weiß also, dass neue Inhalt in einer dieser Klassen fallen muss (ich weiß wonach ich suche). Ziel ist es, für neue Inhalte das Label/die Klassifikation voraussagen zu könnnen
Unsupervised: Es ist noch nicht klar wonach gesucht wird. Daten werden einfach mal geclustert. Die Cluster werden dann auf Gemeinsamkeiten untersucht
Was ist die Vorhersagegenauigkeit (Prediction Accuracy) und wie wird sie berechnet?
Das Verhältnis zwischen allen richtigen Vorhersagen (TP+TN) durch die gesamte Menge an Vorhersagen. Sagt aus wieviele Prozent der Vorhersagen die ich getroffen habe richtig waren.
Was ist die Vorhersagefehler (Prediction Error) und wie wird sie berechnet?
Gegenteil zu Vorhersagegenauigkeit. Wie ist das Maß der falschen Vorhersagen (FP + FN) zu allen Vorhersagen.
Was ist das Maß der Vollständigkeit (Recall) und wie wird es berechnet?
In manchen Systemen sind nicht alle Klassen (TP, FN, FP, TN) interessant, daher wird häufig auch nur das Verhältnis der für uns wichtigen Klassen untersucht. Der Recall zeigt das Verhältnis von positiven Instanzen (TP) zu allen die für uns interessant wären (TP + FN). FN in diesem Fall wären auch interessant gewesen → System hat fälschlicherweise gedacht die Instanzen sind negativ. (Kann auch umgekehrt werden → alle “nicht interessanten” Instanzen)
→ ist ein Maß für die Vollständigkeit eines Klassifikationsergebnisses (er definiert sich z.B. als das Verhältnis zwischen gefundenen relevanten Dokumenten und den im Datenbestand vorhandenen relevanten Dokumenten): TP/(TP+FN)).
Was ist das Maß der Genauigkeit (Precisioin) und wie wird es berechnet?
Verhältnis zwischen den wirklich positiven und allen wo das System glaubt, dass sie positiv sind.
→ ist ein Maß für die Genauigkeit (definiert z.B. durch die Fähigkeit, nicht relevante Dokumente auszuscheiden): TP/(TP+FP).
Was versteht man unter Overfitting (eines Klassifikationsmodells)?
Das Modell, das die besten Vorhersagen für Trainingsdaten erzeugt (= am besten an die Trainingsdaten angepasst ist), muss nicht unbedingt das beste Modell im Allgemeinen sein! Modell sollten nicht zu komplex/spezifisch/angepasst sein!
Erklären Sie die Methode der Klassifikation bei der Datenanalyse.
- Die Vorhersage der Zuordnung eines Datensatzes zu einer von mehreren vordefinierten Klassen nennt man Klassifikation/Classification.
- Ein Set an Labels/Klassen ist gegeben
“interessant”/”nicht interessant”, “gut”/”schlecht”, 1/2/3/4/5, etc. - Aufgabe des Systems: Neue Dateninstanzen (die noch nicht gelabelt/klassifiziert sind) klassifizieren (Vorhersage treffen)
- Ein System das klassifiziert (Classifier) soll so gut wie es geht generalisierbar sein
- Trainingsdaten (Daten die das Modell trainieren) sollen ein möglichst repräsentatives Sample sein
- “Overfitting” (zu genaues Anpassen) soll vermieden werden
Erklären Sie die Methode des Clusterings bei der Datenanalyse.
Klassen sind für Dateninstanzen nicht bekannt!
- Deskriptionsmodelle sollten erstellt werden (Klassifizierung erstellt prädiktive Modelle)
- Ziele:
+ Stereotypen” herausfinden, um Daten zu kategorisieren (Cluster bilden)
+ Identifizieren der markantesten Attribute
+ Aus Daten “versteckte” Informationen ableiten
→ Die Qualität eines Cluster-Settings kann z.B. anhand der Distanzen zwischen und innerhalb der Cluster bestimmt werden. (Re-Clustering)