Basics Flashcards
Beschreib das CL Paradigma
streben nach Erkenntnissen über bedeutungsdefinierende und bedeutungsunterscheidende Merkmale
Beschreib das CL Ziel
algorithmische Verarbeitung natürlicher Sprache mittels Computer
Liste die formale Grundlagen der CL
- Morphology
- Syntax
- Semantik
> Formale Sprachen > Mengenlehre > Grammatikformalism > Reguläre Sprachen und Ausdrücke > Endliche Automaten
Definiere Tokenisierung
Segmentierung eines Textes in Einheiten der Wortebene
Definiere PoS-Tagging
= part-of-speech tagging
> Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten
Definiere Chunking
= light parsing
> Bestimmung des Typs eines Konstituenten (Phrasen)
Definiere Stemming
Extrahieren des Wortstammes
Erkläre den Begriff ‘formale Sprachen’
Ausdrucken einer Sprache in definierten, unverwechselbaren Form
Definiere Subsumieren
unterordnen
> A subsumiert B
= A ist untergeordnet an B
Erkläre der unterschied zwischen existensonale und intensionale Spezifikationen
existensional: Auflistung
intensional: spezifiziert Bedingungen, Merkmale, Eigenschaften
Liste die Möglichkeiten unendliche Sprachen intensional zu definieren
- über Generator > Muster - Quelle
- über Eigenschaften > Grundmenge - Erkenner (Filter)
Liste einige Anwendungen der Computerlinguistik
- Sprachübersetzung
- Prüfsoftware
- Sprachdialogsysteme und Sprachsteuerung
- Marktforschung
Erkläre die Funktion der Grammatikformalismen
- Beschreibung unendlicher Sprachen über endliches Regelsystem
> Grammatik G erzeugt formale Sprache L(G) - Bestimmung Sprachklasse (Chomsky-Hierarchie)
- einfachster Grammatikformalismus
> Reguläre Sprachen
> Beschreibung aller endlichen Sprachen
> kompakte Notation über regulären Ausdruck
Liste einige Anwendungen für reguläre Ausdrücke
- Durchsuchen von Texten
- Überprüfung von Nutzereingaben
- Text Mining
- Linguistische Korpussuche
- Tokenisierung und Satzgrenzenerkennung
- Wortlisten und Varianten
Erkläre die Unterschied zwischen ‘greedy’ und ‘non-greedy’ / ‘lazy’ matching
- greedy: so viel wie möglich
- lazy: minimaler Match