Datenanalyse Flashcards

1
Q

Was ist der Unterschied zwischen Supervised und Unsupervised Learning?

A

Supervised: Aus vergangenem Verhalten werden Labels/Klassifikationen/Merkmale definiert und festgelegt (z.B. “interessant” “nicht interessant”). Ich weiß also, dass neue Inhalt in einer dieser Klassen fallen muss (ich weiß wonach ich suche). Ziel ist es, für neue Inhalte das Label/die Klassifikation voraussagen zu könnnen

Unsupervised: Es ist noch nicht klar wonach gesucht wird. Daten werden einfach mal geclustert. Die Cluster werden dann auf Gemeinsamkeiten untersucht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist die Vorhersagegenauigkeit (Prediction Accuracy) und wie wird sie berechnet?

A

Das Verhältnis zwischen allen richtigen Vorhersagen (TP+TN) durch die gesamte Menge an Vorhersagen. Sagt aus wieviele Prozent der Vorhersagen die ich getroffen habe richtig waren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist die Vorhersagefehler (Prediction Error) und wie wird sie berechnet?

A

Gegenteil zu Vorhersagegenauigkeit. Wie ist das Maß der falschen Vorhersagen (FP + FN) zu allen Vorhersagen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist das Maß der Vollständigkeit (Recall) und wie wird es berechnet?

A

In manchen Systemen sind nicht alle Klassen (TP, FN, FP, TN) interessant, daher wird häufig auch nur das Verhältnis der für uns wichtigen Klassen untersucht. Der Recall zeigt das Verhältnis von positiven Instanzen (TP) zu allen die für uns interessant wären (TP + FN). FN in diesem Fall wären auch interessant gewesen → System hat fälschlicherweise gedacht die Instanzen sind negativ. (Kann auch umgekehrt werden → alle “nicht interessanten” Instanzen)

→ ist ein Maß für die Vollständigkeit eines Klassifikationsergebnisses (er definiert sich z.B. als das Verhältnis zwischen gefundenen relevanten Dokumenten und den im Datenbestand vorhandenen relevanten Dokumenten): TP/(TP+FN)).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist das Maß der Genauigkeit (Precisioin) und wie wird es berechnet?

A

Verhältnis zwischen den wirklich positiven und allen wo das System glaubt, dass sie positiv sind.

→ ist ein Maß für die Genauigkeit (definiert z.B. durch die Fähigkeit, nicht relevante Dokumente auszuscheiden): TP/(TP+FP).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was versteht man unter Overfitting (eines Klassifikationsmodells)?

A

Das Modell, das die besten Vorhersagen für Trainingsdaten erzeugt (= am besten an die Trainingsdaten angepasst ist), muss nicht unbedingt das beste Modell im Allgemeinen sein! Modell sollten nicht zu komplex/spezifisch/angepasst sein!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Erklären Sie die Methode der Klassifikation bei der Datenanalyse.

A
  • Die Vorhersage der Zuordnung eines Datensatzes zu einer von mehreren vordefinierten Klassen nennt man Klassifikation/Classification.
  • Ein Set an Labels/Klassen ist gegeben
    “interessant”/”nicht interessant”, “gut”/”schlecht”, 1/2/3/4/5, etc.
  • Aufgabe des Systems: Neue Dateninstanzen (die noch nicht gelabelt/klassifiziert sind) klassifizieren (Vorhersage treffen)
  • Ein System das klassifiziert (Classifier) soll so gut wie es geht generalisierbar sein
  • Trainingsdaten (Daten die das Modell trainieren) sollen ein möglichst repräsentatives Sample sein
  • “Overfitting” (zu genaues Anpassen) soll vermieden werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Erklären Sie die Methode des Clusterings bei der Datenanalyse.

A

Klassen sind für Dateninstanzen nicht bekannt!

  • Deskriptionsmodelle sollten erstellt werden (Klassifizierung erstellt prädiktive Modelle)
  • Ziele:
    + Stereotypen” herausfinden, um Daten zu kategorisieren (Cluster bilden)
    + Identifizieren der markantesten Attribute
    + Aus Daten “versteckte” Informationen ableiten

→ Die Qualität eines Cluster-Settings kann z.B. anhand der Distanzen zwischen und innerhalb der Cluster bestimmt werden. (Re-Clustering)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly