Chap 4 Info Extr Flashcards
Schritte der IE aus Arztbriefen
1 Festlegung des Inputformats txt oder html
2 Anonymis. Pesudonym. des Inputs
3 Segmentierung in Abschnitte und deren Kategoris.
4 Segment. von Abschn. in Segm. wie Nominalphrasen
5 Generierung aggregierter Dok. aus gleichen Seg.
6. Integrierte Erstelleung der Terminologie und der IE Regeln
7 Methoden zur Effektivitätssteigerung bei der Termin.-Erstelleung
8 ggf Terminologie-Bereinigung und hierar. Strukturierung.
9 ggf. Abbildung auf externe Terminologien
10 Confidence Estimation: Grobe Evaluation mit einfach Heuristiken
11 Goldstandard-Erstellung
12 Evaluation auf Basis des letzten Goldstandards mit Fehlerklassifikation
Precision
TP/(TP+FP)
Recall
TP/(TP+FN)
F1
2PrecisionRecall / (Precision+Recall)
Segmentierung von Arztbriefen verwendete Methoden
Scoring Ansatz Regelbasiert Erkennung mit WOrtlisten RB Dokumentenähnlichkeit RB (lokale, globale Konsistenz) Korrekturregeln RB Überschriftenreduktion RB Naive Bayes Statistisch