Sprachverarbeitung, Korpuslinguistik Flashcards
Worin liegt das Problem bei der maschinellen Spracherkennung?
Bei ganzen Äußerungen werden inhaltliche Analysen und der Kontext benötigt.
Welches Problem eröffnet sich bei der französischen maschinellen Sprachverarbeitung jeglicher Art?
viele Homophone, Mehrdeutigkeit
Was macht die Morphologische Analyse?
maschinelle Erkennung von Wortarten mit sogenannten “Taggern”
Was sind sogenannte “Tagger”?
Tagger sind Programme, die die morphologische Analyse durchführen.
Was macht die syntaktische Analyse?
Texte werden maschinell syntaktisch analysiert mit sogenannten “Parsern”
Was sind sogenannte “Parser”?
Parser sind Programme, die Texte automatisch syntaktisch analysiert.
Was passiert bei der Textgenerierung?
Maschine/Programme produziert Text selbstständig auf mündlicher oder schriftlicher Ebene
maschinell generierte Äußerungen durch Bausteine wie zB bei Bahnhofsdurchsagen
Wie nennt man nach bestimmten Kriterien zusammengestellte Sammlungen von geschriebener/gesprochener Sprachdaten für linguistische Analysen?
Korpus, Korpora
Was ist ein Korpus?
eine nach bestimmten Kriterien zusammengestellte Sammlung von geschriebener/gesprochener Sprachdaten für linguistische Analysen
Was ist neu an dem Verfahren Sprache mithilfe von Texten zu analysieren bei der Korpuslinguistik?
Texte liegen in elektronischer Form vor und können in elektronischer Form analysiert werden, dadurch sind quantitative Korpusanalysen wesentlich schneller
Welche sind die beiden 2 bekanntesten französischen Korpora?
- TLF: größter Wörterbuch der französischen Sprache, korpusbasiert aber veraltet
- Frantext: kein Referenzkorpus, da zu 80% basierend auf literarischen Texten
Auf was basieren die bekanntesten deustchen Korpora des IDS?
Fast ausschließlich auf zeitungsartikeln
Welche ist die 1. Generation der maschinellen Übersetzung?
Regelbasiert:
Programm analysiert Texte auf semantischer, syntaktischer, morphologischer Ebene
> Übersetzung
> neuen Text generieren
Welche ist die 2. Generation der maschinellen Übersetzung?
Statistisch:
basiert auf Korpora aus 2sprachigen und übersetzten Texten
> Programm rechnet passende Übersetzung aus
Was ist das Problem an der Statistischen maschinellen Übersetzung?
Qualität hängt von Umfang und Qualität der Korpora ab
Welche ist die 3. Generation der maschinellen Übersetzung?
Neuronal:
arbeitet mit statistischen Mitteln: Wahrscheinlichkeitsrechnung
Prinzip wie bei automatischen Ergänzungen bei Autokorrektur, künstliche Intelligenz
Worin bestehen die Probleme bei der neuronalen maschinellen Übersetzung?
semantische Fehler
Unvollständigkeit
Texte werden in die Cloud mitaufgenommen > Datendiebstahl
In welchen Bereichen wird die maschinelle Übersetzung hauptsächlich genutzt/gebraucht?
Maschinelle Übersetzung noch nicht gut genug um humane Übersetzung zu ersetzen, deshalb hauptsächlich für den alltäglichen Bereich für Vereinfachung
Welche Typen von Korpora gibt es?
- einsprachige/mehrsprachige Korpora
- Vergleichskorpora: Texte der gleichen Textsorte, die keine Übersetzungen sind
- Parallelkorpora: Ausgangstexte und deren Übersetzungen
Was besagt die “Explication hypothesis”?
Übersetzungen sind expliziter als Originaltexte
Was ist eine Relais-Übersetzung?
Eine Relais-Übersetzung ist eine Übersetzung, die durch eine 3. Sprache stattfindet. Dies wird vor allem bei weniger verbreiteten Sprachen genutzt für deren Sprachpaar es keine Übersetzer gibt.
Was ist pre-editing?
spezielle Vorbereitung eines Textes vom Computer um Fehler wie zB Eigennamen und Idiome zu vermeiden
Was ist post-editing?
Korrektur von Übersetzungsfehlern und Verstößen gegen die Norm