ROC-CHART-ANALYSE Flashcards
1
Q
Definition
A
- ROC = Receiver Operating Characteristics
- = Methode zur Visualisierung, Bewertung und Auswahl von Klassifikatoren des Data-Mining-Modells basierend auf ihrer Leistungsfähigkeit (performance)
2
Q
Klassifikation
A
- (Lineare) Klassifikation = Einteilung der Daten in Klassen
„Die Blauen möglichst gut von den Roten trennen“ - (Lineare) Regression
-> Hat verschiedene Datenpunkte & möchte diese durch einen funktionalen Zusammenhang beschreiben
3
Q
Klassifikationsgenauigkeit (Accuracy)
A
- Die Genauigkeit (Accuracy) als Metrik zur Evaluierung zu verwenden macht nur dann Sinn, wenn
1. beide Klassen bzgl. ihrer Datensatzanzahl gleichhäufig vertreten sind und
2. die Fehlklassifikationskosten gleich hoch sind. - Beide Eigenschaften sind bei realen Problemen in der Praxis äußerst selten gegeben!
-> Äußerst selten die gleiche Anzahl von Kündigern und loyalen Kunden
-> Meist nicht gleichwertig p als n bzw. n als p falsch zu klassifizieren (z.B. normale E-Mail im Spambereich schlimmer als Spam-E-Mail im normalen Postfach) - Zitat: Tom Fawcett: „Accuracy is a simplistic measure that is misleading on many real-world problems. In fact, the best way to get a painful “But it worked in the lab, why doesn’t it work in the field?” experience is to use accuracy as an evaluation metric.”
4
Q
ROC-Charts bei diskreter, zweiwerter Klassifikation
A
- Vertikal: TP Rate
- Horizontal: FP Rate
- Ein ROC-Chart zeigt den relativen Kompromiss zwischen dem Nutzen (TP) und den Kosten (FP).
- Perfekte Klassifikation: P(0, 1)
- Je weiter der Klassifikator sich im Nord-Westen befindet, desto besser ist er geeignet
- Konservative Klassifikatoren: Süd-Westen (bei P(0,0)
- Liberale Klassifikatoren: Nord-Osten → nimmt hohe Kosten in Kauf
- Wenn man sich nicht auf der Geraden bewegt, trifft man zufällig eine Auswahl
5
Q
ROC Charts bei probabilistischer Klassifikation
A
- Nicht mehr nur diskrete Entscheidung, ob Beispiele links oder rechts der Geraden liegen
- Stattdessen Berücksichtigung des Abstandes von der Geraden
- Verwenden diesen Abstand als Score-Wert
- Umso größer der Abstand, desto besser die Genauigkeit
- Score-Wert sagt nicht nur aus, ob jemand z.B. einen Kredit kriegt oder nicht, sondern berechnet auch die Wahrscheinlichkeit, dass die Personen einen Kredit kriegt
- als Tabelle:
-> Je größer der Score-Wert, desto „positiver die Klasse“ - als Graph
-> Wenn man positiv liegt, geht man einen Schritt weiter nach oben
-> Wenn man negativ liegt, geht man einen Schritt weiter nach rechts
-> Punkt (1,1): alle positiven richtig klassifiziert, aber hat auch alle negativen als positiv erfasst
-> Punkt (0,0): alle negativen richtig klassifiziert, aber hat auch alle positiven als negativ erfasst - Diskrete Klassifikation
-> Mithilfe eines Schwellenwertes
-> Alle, die einen größeren Score Wert als .54 haben, betrachte ich als positiv, die anderen als negativ
-> Je mehr Werte man hat, desto kurvenhafter ist die Treppenfunktion - Je weniger sich der rote und der blaue Graph überlappen, desto besser ist die Trennfunktion
- Unabhängigkeit der ROC-Charts vom Klassen-Verhältnis → Großer Vorteil
6
Q
AUC: Area under a ROC curve
A
- Bildet die Qualität eines Klassifikators mit Hilfe eines ROC-Charts auf einen einzigen numerischen Wert ab
- Bestimmt die Fläche unter der ROC-Kurve
7
Q
Optimale Auswahl eines Klassifikators auf der ROC-Kurve
A
- Anstieg (m) der Tangenten berechnen
-> m = c(p,n) * p(n) / c(n,p) * p(p) - c(p,n) = Kosten für FP
- p(n) = Population n,
- c(n,p) = Kosten für FN
- p(p) = Population p