Sprachverarbeitung, Korpuslinguistik Flashcards
Worin liegt das Problem bei der maschinellen Spracherkennung?
Bei ganzen Äußerungen werden inhaltliche Analysen und der Kontext benötigt.
Welches Problem eröffnet sich bei der französischen maschinellen Sprachverarbeitung jeglicher Art?
viele Homophone, Mehrdeutigkeit
Was macht die Morphologische Analyse?
maschinelle Erkennung von Wortarten mit sogenannten “Taggern”
Was sind sogenannte “Tagger”?
Tagger sind Programme, die die morphologische Analyse durchführen.
Was macht die syntaktische Analyse?
Texte werden maschinell syntaktisch analysiert mit sogenannten “Parsern”
Was sind sogenannte “Parser”?
Parser sind Programme, die Texte automatisch syntaktisch analysiert.
Was passiert bei der Textgenerierung?
Maschine/Programme produziert Text selbstständig auf mündlicher oder schriftlicher Ebene
maschinell generierte Äußerungen durch Bausteine wie zB bei Bahnhofsdurchsagen
Wie nennt man nach bestimmten Kriterien zusammengestellte Sammlungen von geschriebener/gesprochener Sprachdaten für linguistische Analysen?
Korpus, Korpora
Was ist ein Korpus?
eine nach bestimmten Kriterien zusammengestellte Sammlung von geschriebener/gesprochener Sprachdaten für linguistische Analysen
Was ist neu an dem Verfahren Sprache mithilfe von Texten zu analysieren bei der Korpuslinguistik?
Texte liegen in elektronischer Form vor und können in elektronischer Form analysiert werden, dadurch sind quantitative Korpusanalysen wesentlich schneller
Welche sind die beiden 2 bekanntesten französischen Korpora?
- TLF: größter Wörterbuch der französischen Sprache, korpusbasiert aber veraltet
- Frantext: kein Referenzkorpus, da zu 80% basierend auf literarischen Texten
Auf was basieren die bekanntesten deustchen Korpora des IDS?
Fast ausschließlich auf zeitungsartikeln
Welche ist die 1. Generation der maschinellen Übersetzung?
Regelbasiert:
Programm analysiert Texte auf semantischer, syntaktischer, morphologischer Ebene
> Übersetzung
> neuen Text generieren
Welche ist die 2. Generation der maschinellen Übersetzung?
Statistisch:
basiert auf Korpora aus 2sprachigen und übersetzten Texten
> Programm rechnet passende Übersetzung aus
Was ist das Problem an der Statistischen maschinellen Übersetzung?
Qualität hängt von Umfang und Qualität der Korpora ab