V06 - Natural Language Processing Flashcards
(NLP) Welche Performancekriterien gibt es? (V06F33)
○ Efficiency
○ Accuracy
○ Robustness
○ Coverage
○ Specificy
(NLP) Was ist die efficiency? (V06F33)
Ist die Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu liefern.
(NLP) Was ist die accuracy? (V06F33)
Ist die Fähigkeit, linguistisch korrekte Lösungen zu liefern.
(NLP) Was ist die robustness? (V06F33)
Ist die Fähigkeit, mit allen möglichen Eingaben fertig zu werden.
(NLP) Was ist coverage? (V06F33)
Ist die größtmögliche Abdeckung der Grammatik.
(NLP) Was ist die specificy? (V06F33)
Ist die Fähigkeit, die intendierte Analyse zu selegieren (auszuwählen).
Welche Dimensionen sind nötig für die Sprachbeherrschung? (V06F44)
○ Sprachtiefe
○ Sprachumfang
○ Gegenstandsbereiche
Was ist dringend nötig zur Sprachbeherrschung? (V06F44)
Sprachbeherrschung ist ohne Allgemeines Wissen nicht möglich.
Welche Schritte werden bei der maschinellen Text Übersetzung durchlaufen? (V06F36) [ausgehend von geschriebener Form] (Wie wird Text verarbeitet?)
○ 1. Phonetische/Orthografische Verarbeitung: Töne und Wörter erkennen, Probleme: Dialekte, handschriftliche Dokumente, gleiche Buchstaben – verschiedene Töne (und umgekehrt)
○ 2. Morphonologische Verarbeitung: Worte auf Grundform bringen, Probleme: Gleiche Wörter – Verschiedene Bedeutung (und umgekehrt)
○ 3. Syntaktische Verarbeitung: Einzelne Satzteile identifizieren, Probleme: Satzteile mit verschiedenen Bedeutungen
○ 4. Semantische Verarbeitung: Satzbedeutung identifizieren, Probleme: Sätze mit verschiedenen Bedeutungen, Sprichwörter etc.
○ 5. Pragmatische Verarbeitung: Bedeutung des Satzes im Gesamtkontext (z.B. Bedeutung eines Symptoms für die gesamte Krankheitsgeschichte), Probleme: Hintergrundwissen muss vorhanden sein und einbezogen werden
Was sind Schritte der Information Extraction (IE)? (V06F60)
○ Text Preprocessing
○ Feature Generation
○ Feature Selection
○ Text/Data Mining
Was ist NLP? (V06F??)
○ Natural Language Processing
○ Ist ein Teilbereich der Künstlichen Intelligenz
○ soll Computer in die Lage versetzen, menschliche Sprache zu verstehen, zu interpretieren und zu manipulieren
○ NLP kann aus unstrukturierten Daten (z.B. Fließtext) strukturierte Daten extrahieren (z.B. Tabelle)
Was ist Entity Recognition und wofür wird es benötigt? (V06F??)
○ Aufgabe ist es, Eigennamen (benannte Entitäten) in natürlichsprachigen Texten automatisiert zu erkennen und diese vordefinierten Kategorien zuzuordnen. Eigennamen sind beispielsweise Namen von Personen, Firmennamen, Orte, Ereignisse oder Zeitangaben.
○ Wichtige Begriffe im Text können so erkannt werden
○ Erleichtert das Extrahieren bestimmter Informationen aus einem Text
Was sind Schwierigkeiten bei der praktischen Auswertung von Texten? (V06F39)
○ Phonetische Ambiguität: gleiche Aussprache, verschiedene Schreibweise
○ Orthographische Ambiguität: gleiche Schreibweise, verschiedene Aussprache und Bedeutung
○ Lexikalische Ambiguität: Wörter haben gleiche Aussprache und Schreibweise, meinen aber was Unterschiedliches
○ Morphologische Ambiguität: Fokus kann auf verschiedenen Wörtern liegen