Klassenzuordnung Flashcards
Welche Klassen unterscheiden? Zuordnungsstratiegen? Wesentliche Aspekte von Klassenzuordnungstrategien?
Klassenzuordnung: Zuordnung von Individuen zu vorgegebenen Klassen. Das Klassenzuordnungsproblem stellt sich, wenn die Klassenzugehörigkeit eines Individuums unbekannt ist.
Es lassen sich folgende Klassen unterscheiden:
1. AusschließendeoderdisjunkteKlassen 2. Erschöpfende(exhaustive)Klassen
3. GeordneteversusungeordneteKlassen 4. VorgegebeneversuskünstlicheKlassen
Wir unterscheiden zwei Zuordnungsstrategien:
1. DiedeterministischeVorgehensweise(z.B.IndikationsentscheidunginderMedizin)
2. DiestochastischeVorgehensweise(z.B.KFA,hier:Kombinationstochastischerund
logisch-deterministischer Zuordnungsregeln)
Wesentliche Aspekte von Klassenzuordnungsstrategien:
• Skalenniveau der Prädiktorvariablen
• Grundraten oder „a-priori-Wahrscheinlichkeiten“
Taylor Russel Tafel
Taylor und Russell (1939) untersuchten die prädiktive Validität von Tests im Hinblick auf die Eignung von Bewerbern für einen Arbeitsplatz in einer Firma.
Die Taylor-Russell-Tafeln beziehen sich nur auf einen Testwert (Prädiktor) und eine dichotome Klassifikation (geeignet/ungeeignet) bei gegebenen Grundraten für die Eignung.
In den Taylor-Russell-Tafeln wird zur Beurteilung der Güte einer Entscheidungsstrategie nur der Prozentsatz der geeigneten unter den ausgewählten (positiver Vorhersagewert) angegeben, damit wird nur der Fehler der falsch positiven Entscheidung gewertet.
Zuordnungsfehler
Es gibt zwei Arten von Zuordnungsfehlern:
1. Zuordnungsfehler erster Art (FP=falsch Positive): Eine Person krank diagnostiziert , obwohl sie tatsächlich der Klasse der Gesunden
wird als angehört.
2. Zuordnungsfehler zweiter Art (FN=falsch Negative): Eine Person der Klasse der Gesunden zugeordnet, obwohl sie der Klasse der Kranken
wird angehört.
• Der positive prädiktive Wert als wesentliche Kenngröße der Zuordnungsregel gibt den Anteil der richtig diagnostizierten Kranken in der Gruppe der Kranken wieder. TP/TP +FP
•Negativer
Prädiktiver Wert = Anteil der richtig diagnostizierten Gesu
nden in der
Gruppe der
als gesund diagnostizierten. TN/FN +TN
• Sensitivität = Wahrscheinlichkeit, dass ein Kranker auch als krank diagnostiziert wird. TP/TP +FN
• Spezifität = Wahrscheinlichkeit, dass ein Gesunder als gesund diagnostiziert wird. TN/FP +TN
Grundrate
natürliche und selektive Eignungsrate Formel!
Grundrate:
Die Grundrate der kranken Personen entspricht in der Wahrscheinlichkeitstheorie der Wahrscheinlichkeit, dass eine zufällig gezogene Person aus der Population krank ist p(KA+); die Grundrate der gesunden entspricht der Wahrscheinlichkeit, dass eine zufällig gezogene Person zu der Klasse der gesunden gehört p(KA-).
Geeignete Personen in der Population nach Taylor & Russell (1939):
Natürlicher Eignungsquotient: (TP + FN) /N
Selektiver Eignungsquotient: TP/(TP + FP)
Zuordnungsverfahren versus Zufallsregel:
Meehlsches Paradoxon = wenn die Zufallsregel besser ist als die Zuordnungs- entscheidung aufgrund der Prädiktoren.
Wonach wird entschieden welche Diagnostik Zufallsregel am geeignetsten ist?
- Was die Güte der Zuordnung angeht so wird sie allgemein im Sinne definiert, dass eine Suordnungsregel zulässig ist wenn es keine andere gibt, die besser ist.
-um die Fehler bei Zuordnungsverfahren gering zu halten, bietet das Minimax-Kriterium an. Hier wird der maximale Zuordnungsfehler möglichst klein gehalten (Alpha und
Beta-Fehler müssen möglichst gering sein).
-oder das 1% oder
Neyman-Pearson-Kriterium, welches nur den Alpha-Fehler kontrolliert (mit 5%). Geht nur wenn der Beta-Fehler vernachlässigbar ist.
ROC Kurven?
ROC-Kurven:
Liegt ein diagnostisches Verfahren vor, das ein ordinales oder intervallskaliertes Ergebnis liefert, kann man mittels einer sog. ROC Kurve den Cut-off wert auswählen, der zwischen geeignet vs ungeeignet oder positiv vs negativ trennt (Schäfer, 1989). ROC ist die Abkürzung für Receiver-Operating-Characteristic.
Hat man aufgrund einer empirischen Untersuchung die Verteilungen der Testergebnisse der (in Wahrheit) positiven und negativen Personen geschätzt, kann man zu den verschiedenen möglichen Cut-off Werten deren Sensitivität und Spezifität errechnen. Üblicher weise verwendet man in den ROC-Kurven allerdings nicht die Spezifität, sondern die Falsch-Positive Rate (= 1 –Spezifität).
Mit Hilfe der ROC-Kurven lassen sich simultan Spezifität und Sensitivität unabhängig von den Basisraten für verschiedene
Testtrennwerte bestimmen, sofern aufgrund empirischer Untersuchungen, die Verteilungskennwerte der unterschiedlichen Gruppen ermittelt werden konnten.
Zwei konkurrierende Kurven (z.B. Fieber versus Anzahl der Lymphozyten) werden mit Hilfe der Area Under Kurve (AUC) verglichen.
Je größer AUC desto besser der Prädiktor.
Rate Falsch-Positiver = (1 – Spezifität). Wie ersichtlich, geht mit der Heraufsetzung des Test- trennwertes von X1 über X2 nach X3 ein Rückgang der Fehlerrate vom Typ 1, FP (d.h. eine Zunahme an Spezifität) sowie eine Zunahme der Fehler vom Typ 2, FN (d.h. eine Abnahme der Sensitivität) einher (Beispiel Prädiktor IQ-Cut-off 112 und 82 und Studienerfolg). Hinweis:
die Kurv
en zeigen
Amelang, 2012)
wofür die Personen geeignet sind; die Cut-offs entscheiden wo wir sie
hinschicken; Rechts vom Cut-off sind die FP, diejenigen die wir zu den Positiven “schicken” obwohl sie zu den negativen gehören.
Entscheidungsfehlerdiagramm
Taylor & Russell,1939
Auf der X-Achse befindet sich der Test bzw. das Diagnostikum und auf der Y-Achse das Kriterium (beide korrelieren). Höhere Werte in T gewährleisten höhere Werte in K. Beide Achsen repräsentieren zusätzlich qualitative Werte/Kategorien wie positiv/krank bzw. negativ/gesund.
Bei den Taylor-Russell-Tafeln bemisst sich die Effizienz der Auslese nach dem Anteil der Geeigneten an allen Ausgewählten, also gemäß des Positiven Prädiktionswertes (PPV).
Verändert man den Testtrennwert, der über Annahme oder Ablehnung entscheidet, von x1 zu x‘1, so stellt sich ein positiver Prädiktionswert (PPV) von 1,0 ein (d.h. alle durch den Test Ausgewählten sind auch tatsächlich positiv/krank). Dies ist auch abhängig von der Grundrate, denn wenn diese Anstelle von y1 durch den
noch einen kleinen Teil
Kriteriumstrennwert y‘1 definiert wäre, würde ein Trennw
von FP mit auswählen (in der Abbildung mit dunkelblau gekennzeichnet). Deshalb bedürfte es eines noch weiter hinausgeschobenen Testtrennwertes x‘‘1, um auch bei der niedrigeren Rate natürlicher Eignung einen höchst-möglichen PPV zu gewährleisten.
&
Amelang
ert
, 2012)