Text Mining Flashcards

1
Q

Was sind Bag-of-Tokens Approaches?

A

Zählen der Wörter in einem Text

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist das Problem von Bag-of-Tokens Approaches?

A

Looses all order-specific information!
Reduces context information.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist Syntax?

A

ordering of words and its possible effect on meaning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Semantik?

A

concerns the (literal) meaning of words, phrases, and sentences

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was sind Pragmatics?

A

concerns the overall communicative and social
context and its effect on interpretation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie kommt man von Flat Text zu Struktur und Bedeutung?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Beschreib Word-level ambiguity

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Beschreib Semantics and Anaphora resolution

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Beschreib Syntactic ambiguity

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Beschreib Presupposition and pragmatic inferences

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist Syntactic Parsing?

A

Produces the correct syntactic parse tree for a sentence

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

How many syntactic interpretations does a sentence ending in n prepositional phrases have?

A

over 2^n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist eine kontextfreie Grammatik?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist Probabilistic Structure Parsing?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist Shallow Natural Language Processing?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist Morphology?

A

the field of linguistics that studies the
internal structure of words

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist ein Morpheme?

A

the smallest linguistic unit that has
semantic meaning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist Morphological Analysis?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

What is Part-of-Speech (POS) Tagging?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was ist Phrase Chunking?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was ist Semantic Role Labeling?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was ist Semantic Information Extraction (IE)?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Wobei hilft Shallow NLP?

A

e. g.:
* Question Answering
* Text Summarization

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was ist der Unterschied zwischen Informations Retrieval und Information Extraction?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Information Retrieval Models

Beschreib das Boolean Model

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Information Retrieval Models

Beschreib das Vector Space Model

A
27
Q

Was spezifiziert das Vector Space Model nicht?

A
28
Q

Welche Methoden basierend auf frequency gibt es, um Wörtern gewichte zu geben?

A
29
Q

Wie bestimmt man Raw_TF?

A

Raw_TF = f(t,d): how many times term t appears in doc d

30
Q

Wie normalisiert man die Raw_TF?

A
31
Q

Wie berechnet man die Inverse Document Frequency (IDF)?

A
32
Q

Wie funktioniert TF-IDF Weighting?

A
33
Q

Was sind stop words?

A

Wörter, die irrelevant sind für die Bedeutung eines Satzes (z. B. a, the, of, …)

34
Q

Was ist stemming?

A

Stemming is a text preprocessing technique used in natural language processing (NLP) to reduce inflected or derived words to their base or root form.
running, runs, ran -> run

35
Q

Warum werden Stop Words entfernt?

A
36
Q

Warum nutzt man Stemming?

A
37
Q

Beschreib den Porter Algorithm

A

Basic stemming algorithm

38
Q

Was sind Lemmatizers?

A
39
Q

Wie funktioniert Word2Vec (CBOW) mit MLP?

A
40
Q

Was ist ein Language Model?

A
41
Q

Welches Model eignet sich für Language Models?

A
42
Q

Wie kann man Elman’s model erweitern, sodass man langzeit Abhängigkeiten berücksichtigen kann? Welches Problem löst es zusätzlich?

A

Long-Short-Term Memory

43
Q

Was ist Long Short-Term Memory in Recurrent Networks?

A
44
Q

Was ist das Problem des verschwindenden Gradienten?

A

Das Problem tritt auf, wenn Gradienten exponentiell abnehmen, während sie sich rückwärts durch die Schichten des Netzwerks ausbreiten. Dies führt dazu, dass die Gradienten in den frühen Schichten des Netzes extrem klein werden oder sogar verschwinden.

  • Lernbehinderung: Gewichtsaktualisierungen in frühen Schichten werden vernachlässigbar klein, was das Lernen erschwert oder verhindert
  • Schwierigkeiten bei langfristigen Abhängigkeiten: In sequentiellen Daten können Beziehungen zwischen weit entfernten Elementen nicht effektiv gelernt werden
45
Q

Was ist das Hauptmerkmal von LSTMs?

A

Das Hauptmerkmal von LSTMs ist ihre Fähigkeit, Informationen über lange Zeiträume hinweg zu speichern und zu nutzen, was durch eine spezielle Zellstruktur ermöglicht wird.

46
Q

Aus welchen Hauptkomponenten besteht ein LSTM?

A
  • Zelle (Cell): Speichert den Zellzustand, der Informationen über verschiedene Zeitschritte hinweg behält.
  • Eingangstor (Input Gate): Bestimmt, welche neuen Informationen in den Zellzustand aufgenommen werden.
  • Vergessenstor (Forget Gate): Entscheidet, welche Informationen aus dem Zellzustand gelöscht werden.
  • Ausgangstor (Output Gate): Kontrolliert, welche Informationen aus dem Zellzustand für die nächste Ausgabe verwendet werden.
47
Q

LSTMs

Welche Aktivierungsfunktion nutzt das Vergessenstor?

A
48
Q

LSTMs

Welche Funktionen nutzt das Eingangstor?

A
49
Q

LSTMs

Wie wird der Zellzustand aktualisiert?

A
50
Q

LSTMs

Welche Funktionen nutzt das Ausgangstor?

A
51
Q

Beschreib die Encoder-Decoder Architecture für
Sequence-to-Sequence Transduction

A
52
Q

Was ist ein Transformer Block in transformer encoder-decoder networks?

A
53
Q

Was ist der Attention-Mechanismus?

A

Der Attention-Mechanismus weist verschiedenen Teilen der Eingabe unterschiedliche Gewichtungen zu, basierend auf ihrer Relevanz für die aktuelle Aufgabe. Dies geschieht durch die Berechnung von “weichen” Gewichten für die numerischen Repräsentationen (Embeddings) der Eingabeelemente.

54
Q

Wie ist eine Feedforward Encoder-Decoder Architecture aufgebaut?

A
55
Q

Was ist masked language modelling?

A

MLM trainiert ein Modell darauf, maskierte (verdeckte) Tokens in einer Eingabesequenz vorherzusagen. Dabei werden zufällig ausgewählte Wörter in einem Text durch ein spezielles [MASK]-Token ersetzt, und das Modell muss lernen, diese maskierten Wörter basierend auf dem Kontext zu rekonstruieren.

56
Q

Wobei schafft masked language modelling Abhilfe?

A
57
Q

Was ist contrastive learning?

A
58
Q

Does Contrastive Learning constrain the positive pairs to be similar

A

No!

59
Q

Wann ist eine Fähigkeit (ability) emergent?

A
60
Q

The Word2Vec model is a representation of not only syntactic, but also semantic meanings of words.
Stimmt das?

A

Ja

61
Q

Which of the following techniques can be used as a preprocessing step for text classification?
1. Random Sampling
2. Stopword Removal
3. Feature Scaling
4. Dimensionality Reduction

A

alle

62
Q

Stemmers are generally faster than lemmatizers, but may not always produce a proper dictionary word.
Stimmt das?

A

Ja

63
Q

What is Latent Semantic Indexing (LSI)?

A

LSI is a statistical technique used to identify latent relationships between terms in a document corpus.

64
Q

If we write an information retrieval algorithm that tends to retrieve as many documents as possible for a given query, it usually has a rather low precision and a rather high recall.
Stimmt das?

A

Ja