Basics Flashcards
Beschreib das CL Paradigma
streben nach Erkenntnissen über bedeutungsdefinierende und bedeutungsunterscheidende Merkmale
Beschreib das CL Ziel
algorithmische Verarbeitung natürlicher Sprache mittels Computer
Liste die formale Grundlagen der CL
- Morphology
- Syntax
- Semantik
> Formale Sprachen > Mengenlehre > Grammatikformalism > Reguläre Sprachen und Ausdrücke > Endliche Automaten
Definiere Tokenisierung
Segmentierung eines Textes in Einheiten der Wortebene
Definiere PoS-Tagging
= part-of-speech tagging
> Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten
Definiere Chunking
= light parsing
> Bestimmung des Typs eines Konstituenten (Phrasen)
Definiere Stemming
Extrahieren des Wortstammes
Erkläre den Begriff ‘formale Sprachen’
Ausdrucken einer Sprache in definierten, unverwechselbaren Form
Definiere Subsumieren
unterordnen
> A subsumiert B
= A ist untergeordnet an B
Erkläre der unterschied zwischen existensonale und intensionale Spezifikationen
existensional: Auflistung
intensional: spezifiziert Bedingungen, Merkmale, Eigenschaften
Liste die Möglichkeiten unendliche Sprachen intensional zu definieren
- über Generator > Muster - Quelle
- über Eigenschaften > Grundmenge - Erkenner (Filter)
Liste einige Anwendungen der Computerlinguistik
- Sprachübersetzung
- Prüfsoftware
- Sprachdialogsysteme und Sprachsteuerung
- Marktforschung
Erkläre die Funktion der Grammatikformalismen
- Beschreibung unendlicher Sprachen über endliches Regelsystem
> Grammatik G erzeugt formale Sprache L(G) - Bestimmung Sprachklasse (Chomsky-Hierarchie)
- einfachster Grammatikformalismus
> Reguläre Sprachen
> Beschreibung aller endlichen Sprachen
> kompakte Notation über regulären Ausdruck
Liste einige Anwendungen für reguläre Ausdrücke
- Durchsuchen von Texten
- Überprüfung von Nutzereingaben
- Text Mining
- Linguistische Korpussuche
- Tokenisierung und Satzgrenzenerkennung
- Wortlisten und Varianten
Erkläre die Unterschied zwischen ‘greedy’ und ‘non-greedy’ / ‘lazy’ matching
- greedy: so viel wie möglich
- lazy: minimaler Match
Erkläre den Konzept ‘Abgeschlossenheit’
(wort1) operation (wort2) = (wort3)
(reguläre Sprache 1) operation (reguläre Sprache 2) = (reguläre Sprache 3)
> Sprachklasse bleibt behalten
Erkläre die Unterschied zwischen FSA und FST
- FSA erkennt
- FST transformiert
> FST hat Ausgabealphabet
Erkläre die Unterschied zwischen nicht-Deterministische und Deterministische FSA
Nicht-Deterministisch
- per Zustand mehrere gleiche Übergangsrelationen in unterschiedliche Zustände
- leeres Wort als Übergangsrelation
- bilden keine eigene Sprachklasse
- lässt sich in einen äquivalenten deterministischen FSA überführen
> determinierungsalgorithmus
Deterministisch
- nur einmalige Übergangsrelationen per Zustand
- kein leeres Wort als Übergangsrelation
Liste einige Ziele / Anwendungen der morphologischen Analyse
Analyse und Generierung der Morphologie
- Tokenisierung
- Lemmatisierung, Stemming
- PoS-Tagging
- Identifikation morphosyntaktischer Merkmale (Flexion)
- Zerlegung komplexen Wörter
> ling. Korpussuche > Rechtschreibkorrektur > Information retrieval > maschinelle Übersetzung > syntaktische Analyse
Definiere Lemmatisierung
Extrahieren der Zitierform (Form des Wortes in Wörterbuch)
Erkläre die Unterschied zwischen Token und Typen
Token = Instanzen (ohne auf Wiederholungen zu achten) Typen = unterschiedliche Wörter
Erkläre die Unterschied zwischen Flexion und Wortbildung
Flexion
- Derivate eines Stammes (Lexem)
- keine Änderung der Grundbedeutung
- kodierung morphosyntaktische Merkmale
- Deklination, Konjugation, Komparation
Wortbildung
- neue Lexeme
- veränderte Bedeutung
- konkatenativ: Derivation, Komposition
- nichtkonkatenativ: Konversion, Reduplikation, Kurzwörter (clipping), Kofferwörter (blending)
- Abgrenzung Neologismen und kreativen Wortspielen
Liste einige morphosyntaktische Merkmale (Deutsch)
Substantivisch - Person: - Numerus: - Kasus: - Genus: > Kongruenz in Nominalphrasen > starke vs. schwache Adjektivdeklination (Bestimmtheit)
Verbale Kategorien - Tempus: - Modus: - (Genus Verbi: > Kongruenz mit Subjekt (Person, Numerus)
Definiere Flexionsparadigma
Gesamtheit der unterschiedlichen Flexionsformen einer Wortklasse