ROC-CHART-ANALYSE Flashcards

1
Q

Definition

A
  • ROC = Receiver Operating Characteristics
  • = Methode zur Visualisierung, Bewertung und Auswahl von Klassifikatoren des Data-Mining-Modells basierend auf ihrer Leistungsfähigkeit (performance)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Klassifikation

A
  • (Lineare) Klassifikation = Einteilung der Daten in Klassen
    „Die Blauen möglichst gut von den Roten trennen“
  • (Lineare) Regression
    -> Hat verschiedene Datenpunkte & möchte diese durch einen funktionalen Zusammenhang beschreiben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Klassifikationsgenauigkeit (Accuracy)

A
  • Die Genauigkeit (Accuracy) als Metrik zur Evaluierung zu verwenden macht nur dann Sinn, wenn
    1. beide Klassen bzgl. ihrer Datensatzanzahl gleichhäufig vertreten sind und
    2. die Fehlklassifikationskosten gleich hoch sind.
  • Beide Eigenschaften sind bei realen Problemen in der Praxis äußerst selten gegeben!
    -> Äußerst selten die gleiche Anzahl von Kündigern und loyalen Kunden
    -> Meist nicht gleichwertig p als n bzw. n als p falsch zu klassifizieren (z.B. normale E-Mail im Spambereich schlimmer als Spam-E-Mail im normalen Postfach)
  • Zitat: Tom Fawcett: „Accuracy is a simplistic measure that is misleading on many real-world problems. In fact, the best way to get a painful “But it worked in the lab, why doesn’t it work in the field?” experience is to use accuracy as an evaluation metric.”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

ROC-Charts bei diskreter, zweiwerter Klassifikation

A
  • Vertikal: TP Rate
  • Horizontal: FP Rate
  • Ein ROC-Chart zeigt den relativen Kompromiss zwischen dem Nutzen (TP) und den Kosten (FP).
  • Perfekte Klassifikation: P(0, 1)
  • Je weiter der Klassifikator sich im Nord-Westen befindet, desto besser ist er geeignet
  • Konservative Klassifikatoren: Süd-Westen (bei P(0,0)
  • Liberale Klassifikatoren: Nord-Osten → nimmt hohe Kosten in Kauf
  • Wenn man sich nicht auf der Geraden bewegt, trifft man zufällig eine Auswahl
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

ROC Charts bei probabilistischer Klassifikation

A
  • Nicht mehr nur diskrete Entscheidung, ob Beispiele links oder rechts der Geraden liegen
  • Stattdessen Berücksichtigung des Abstandes von der Geraden
  • Verwenden diesen Abstand als Score-Wert
  • Umso größer der Abstand, desto besser die Genauigkeit
  • Score-Wert sagt nicht nur aus, ob jemand z.B. einen Kredit kriegt oder nicht, sondern berechnet auch die Wahrscheinlichkeit, dass die Personen einen Kredit kriegt
  • als Tabelle:
    -> Je größer der Score-Wert, desto „positiver die Klasse“
  • als Graph
    -> Wenn man positiv liegt, geht man einen Schritt weiter nach oben
    -> Wenn man negativ liegt, geht man einen Schritt weiter nach rechts
    -> Punkt (1,1): alle positiven richtig klassifiziert, aber hat auch alle negativen als positiv erfasst
    -> Punkt (0,0): alle negativen richtig klassifiziert, aber hat auch alle positiven als negativ erfasst
  • Diskrete Klassifikation
    -> Mithilfe eines Schwellenwertes
    -> Alle, die einen größeren Score Wert als .54 haben, betrachte ich als positiv, die anderen als negativ
    -> Je mehr Werte man hat, desto kurvenhafter ist die Treppenfunktion
  • Je weniger sich der rote und der blaue Graph überlappen, desto besser ist die Trennfunktion
  • Unabhängigkeit der ROC-Charts vom Klassen-Verhältnis → Großer Vorteil
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

AUC: Area under a ROC curve

A
  • Bildet die Qualität eines Klassifikators mit Hilfe eines ROC-Charts auf einen einzigen numerischen Wert ab
  • Bestimmt die Fläche unter der ROC-Kurve
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Optimale Auswahl eines Klassifikators auf der ROC-Kurve

A
  • Anstieg (m) der Tangenten berechnen
    -> m = c(p,n) * p(n) / c(n,p) * p(p)
  • c(p,n) = Kosten für FP
  • p(n) = Population n,
  • c(n,p) = Kosten für FN
  • p(p) = Population p
How well did you know this?
1
Not at all
2
3
4
5
Perfectly