Seminare Flashcards
Definition Strukturalismus
- Richtung der Linguistik
- von Schweizer
- Grundidee: Beobachtung, dass Zeichenketten immer nur im Bezug auf andere Zeichenketten einen Sinn und Funktion besitzen
Strukturalismus - lokaler Kontext
- alle Wörter, die mit einem zu beobachtenden Wort in einem Satz auftreten
- 1 Wort, hat n lokale Kontexte
Strukturalismus - globaler Kontext
- Menge der Idealen Kontexte eines Wortes
- 1 Wort hat 1 globalen Kontext
Ortographische Muster
- syntagmatisch
-> gemeinsames Auftreten in einem gemeinsamen lokalen Kontext
-> Aufgabe: Vorhersagen des Kontextes - paradigmatisch
-> ähnliche Kontexte (globaler Kontext)
-> Aufgabe: Vorhersage eines Wortes
statistische Signifikanz
- funktionaler u. inhaltlicher Zusammenhang für alle Ebenen einer Sprache
- 3 Ebenen:
-> morphologisch, syntaktische, semantische
Morphologie - Definition
- Gebiet der Linguistik, das sich mit Gesetzmäßigkeiten der Wortbildung beschäftigt
- Gegenstand der Morphologie ist das Morphem, sowie die Art und Weise, wie Morpheme zu Wortformen kombiniert werden
Morphem - Definition
die kleinste bedeutungstragende Einheit der Spreche
Allmorphem - Definition
- verschiedene Varianten eines Morphems
Arten von Morphemen
- Basismorpheme
-> beschreiben Sachverhalte d. außersprachlichen Wlet
-> auch Stamm eines Wortes genannt
-> Bsp.: Kind, seh - Derivative
-> werden an Wortstämme angefügt
-> unterscheidung Primär- und Sekundärstamm, jenachdem wie viele Affixe dem Stamm schon hinzugefügt wurden - grammatische Morpheme/Flexive
-> tragen nur grammatische Bedeutung
-> werden an Wortstämme angefügt (affgiert)
-> z. B. geh > geht oder Kind > Kinder - Freie Morpheme: können ohne Affixe im Text auftreten
- gebundene Morpheme: können NICHT ohne Affixe im Text auftreten; alle grammatikalischen Morpheme, Derivate und einige Basismorpheme
Operationen zur Bildung von Wortformen
- Flexion
-> dient der Ableitung grammatischer Wortformen aus einem Stamm und schafft syntaktische Oberfächenvarianten ein und desselben Wortstammes
-> im Deutschen meist durch Anhängen von Flexionssuffxen, wie z. B. Kind > Kinder
-> aber auch Um- und Ablaute auf (Haus> Häuser od. singen > sang), die zur Entstehung von Allomorphen führen - Komposition
-> schafft ebenfalls Wortneubildungen, bei denen diesmal aber zwei Stämme (bzw. zwei freie Morpheme) aneinandergefügt werden
-> Ergebnis ist Kompositum - Derivation
-> schafft neue Wörter durch Anfügung (Affgierung) von Derivativen an
Wortstämme.
-> meisten Derivative haben dabei eine charakteristische Bedeutung, die sie dem Stamm hinzufügen
-> Derivationssuffxe ändern zudem meist die Wortart des
Stamms.
Bedeutung für Text-Mining
- morphologische Strukturen müssen dann verarbeitet werden, wenn morphologische Klassifikation versch. Wortformen für weitere Analyse nötig ist
- Allmorphie ist Problem, wenn man Wortform durch Abschneiden einer Endung auf Stamm reduziert würden
Grundformreduktion
- Lemmatisierung
- eien Wortform wird auf eine im Lexikon aufgezeichnete Form zurückgeführt
- Häser > Haus
Stammformreduktion
- Stemming
- Verschiedene Wortformen werden auf selben Stamm zurückgeführt
-> in versch. Sprachen unterschiedlich schwer
-> im Englischen oft verwendetes Verfahren: Porter-Stemmer
Fachtexte - Definition
- informieren Fachleute desselben Faches und ermöglichen eine Kommunikation mit vertretern anderer Disziplinen
Terminologie - Definition
- Sammlung von Fachausdrücken, die in Form eines Thesaurus geschrieben sind
- Thesaurus: Nennung von Sachgebiet, Synonyme usw.
- Fachausdrücke: Nomina, Vebren, einezelne Wörter oder Mehrworteinheiten
Ausnahmen und Sonderfälle in Fachsprache
- inkonkrte Rechrscheibung und unübliche Schreibweise
-> ae statt ä, alte Rechtschreibung, Schreibweisen in sozialen Medien (z.B.:thx) - Sonderregelungen der Sprache
- Sonderfälle: geringe Fehlerquote kann toleriert werden
Operatinale Semantik
Wirkugn von Programmen, die den Zustand einer Maschine verändern
Semantische Repräsentation - Grundprinzip
Der Semantischenrepräsentationssprache (SRS) wird durch semantische Interprätation eine Bedeutung zugeteilt
Referentielle Semantik
Bedeutung - Das mit einem Ausdruck bezeichnete Objekt
Prozedurale Semantik
Gebrauch sprachlicher Ausdrücke legt ihre Bedeutung fest
Axiomatische Semantik
Transformation von logischen Aussagen über Zustände
Semantische Relationen
- Synonyme
- Gegensätze
- Ober- u. Unterbegriffe
- Antonyme (hell - dunkel, im Bezug auf Licht)
- Komplementärbegriffe (lebendig - tot, im Bezug auf Körperzustand)
Denotationale Semantik
weist jedem Programm die Ergebniss der zu berechnenden Funktion als Semantik zu
Strukturalistische Semantik
Bedeutung eines Ausdrucks ist abhängig von Kontext
Syntax - Definition
Wissenschaft des Prinzips und Prozesses nach dem Sätze in bestimmten Sprachen konstruiert werden
Dependenzstruktur
- Dependenz: Stellt bestehende Abhängigkeiten zwischen Wörtern winws Satzes dar
- Löschtest
-> Sinnverlust eines Wortes nach löschen eunes anderen Wortes
–> gelöschtes Wort diesem übergeortnet - Dependenzbaum
-> Wurzel immer Verb
-> repräsentiert flexible und effektive syntaktische Zusammenhänge - Anwendung
-> inhaltlich-funktionale Kategotrien (Subjekt, Objekt…)
Konstituentenstruktur
- Konstituenten: Unmittelbare Bausteine von Sätzen (Wörter und Wortkombinationen)
- Verschiebetest: Bestimmung der Konstituenten
- Phasen-Struktur-Grammatik
-> Konst: Wort oder eine Phrase, die von einer syntaktischen Regel als Einheit behandelt wird
-> Rahmen für syntaktischen Regeln ist kontextfreie Ersetzungsgrammatik
(also in der Chomsky-Hierarchie eine Typ-2 Grammatik) mit allen Wörtern einer
Sprache als terminalen Symbolen, den syntaktischen Kategorien und Phrasen als nichtterminalen Symbolen und den syntaktischen Regeln als Produktionsregeln
-> Grundlegende Konstituenten sind dabei die syntaktischen Kategorien Nomen (N), Verb (V), Adjektiv/Adverb (A), Präposition (P) und Artikel (Art), sowie die nichtterminalen Phrasen NP, VP, AP und PP
-> Syntaktische Strukturen werden in Form eines Syntaxbaums beschrieben, mit dem auch syntaktische Mehrdeutigkeiten dargestellt werden können - Anwendung
-> automat. Syntaxanalyse
-> POS-Tags
Ziel Syntaktisce Repräsentation
Angabe gramatischer Regeln zur Bestimmung einer Menge an syntaktisch korrekter Sätze in einer Sprache
Probabilistische Parsen
- regelbasiertes Paradigma
-> mehrdeutige syntaktische Struktur einer Folge von Wörtern
-> Bestimmung ob Folge von Wörtern in Sprache zulässig - Wahrscheinlichkeit
-> Berechnung mittels Wkt Auftreten von Wortkombinationen in einem Corpus
-> Darstellung von Mehrdeutigkeiten eines Satzes - Probailistische kontextfreie Grammatik (PCFG)
-> Anwendung von Datenbanken für die Regeln
Fachsprache Definition
- Texte, die Wissen zu einem bestimmten Thema vermitteln
- Unterschiede zu Allgemeinsprache:
-> Syntaktische und semantische Beschränkungen (z. B. Grammatik)
-> Fachgebietsspezifische lexikalische Beschränkungen (z. B. Fachterminologie)
-> Fachgebietsspezifische Morphologie (z. B. Charakteristische Morpheme)
Welchen Einfluss haben Sprachregister auf die Verwendung von Sprache
- Sprachregister sind bestimmt durch situative Faktoren:
-> Kanalfaktoren (z. B. Email, Telefon)
-> Soziale Rollen (z. B. Höflichkeitsformen)
-> Reglementierte Formulierungen - Sprachregister bestimmen Form des Textes
Möglichkeiten der Segmentierung von Text
- Satzsegmentierung
-> Regeln für Satzanfang
-> Regeln für Satzende:
-> Abkürzungen (mit „.“) - Wortformensegmentierung
-> Trennung mit Trennsymbo
-> Berücksichtigung erlaubter Zeichen
Herausforderungen bei der Segmentierung von Text und einige Lösungsstrategien
- Grundgedanke:
-> Die Segmentierung im Sinne der Textverarbeitung meint die algorithmische Zerlegung von
Texten in Sätze und von Sätzen in Wörter. Für die Trennung der einzelnen Elemente werden
dabei Trennregeln benötigt. - Schwierigkeiten:
-> Auftreten von Ausnahmefällen bei denen allgemeine Trennregeln nicht verwendbar sind
→ Aufstellung zusätzlicher Regeln und Ausnahmelisten