Vorlesung 2 - Text Retrieval Einführung Flashcards

Question 1

Q

Begriff des forensischen Textes definieren und Beispiele

Answer

A

Auf digitalen Speichermedien sichergestellte textuelle Daten, welche entweder selbst inkriminiert und so als Beweismittel einer Straftat dienen oder anderweitig zur Tataufklärung oder -rekonstruktion beitragen können mit Ziel der Beweissicherung als Gegenstand kriminalistischer Ermittlungen.
Beispiele: Öffentliche Social Media Nachrichten (Stimmungen, politische Ereignisse etc.), Dokumente auf dem PC und E-Mails

Question 2

Q

Einsatzgebiete von Text Mining in der Forensik und Beispiele

Answer

A

Prävention
-> Freiheitliche demokratische Grundordnung schützen
-> Gefahrenabwehr für öffentliche Sicherheit und Ordnung
-> Straftaten bekämpfen, verhindern und vorbeugen
Repression
-> Straftaten erforschen

Question 3

Q

Aufgaben in der Forensik, die mit Mitteln des Text Mining gelöst werden können

Answer

A

Texte mit fallbasierter kriminalistischen Relevanz erkennen und klassifizieren
Entitäten und Relationen als Basis zur Aufdeckung von Täter-Opfer-Netzwerken erkennen
Geplante Aktivitäten entdecken (Predictive Policing)
Fragmentierte Texte semantisch erschließen
Versteckte Semantik erkennen (Synonyme für Drogen)

Question 4

Q

Ziele des Text Retrieval

Answer

A

Daten aus einer großen Menge nach ihrer Relevanz sortieren oder filtern
Big (Text) Data -> Empfehlungssystem bzw. Suchmaschine -> Fallrelevante Daten

Question 5

Q

Probability Ranking Principle

Answer

A

Rückgabe einer Rangliste von Dokumenten in absteigender Reihenfolge der Wahrscheinlichkeit, dass ein Dokument relevant für die Anfrage ist.
1. Die Nutzung einzelner Dokumente ist unabhängig voneinander
2. Benutzer untersucht Ergebnisse nacheinander

Question 6

Q

Typische Herausforderungen

Answer

A

Ambiguitäten (Mehrdeutigkeit, Uneindeutigkeit)
Anaphernsresolution (Koreferenzanalyse)
Präsupposition (Pragmatik)

Question 7

Q

Ambiguitäten - Arten und Beispiele

Answer

A

lexikalische Ambiguität (Homonymie/Homonyme = Homophone + Homographen): lexikalische Ausdrücke gleicher Laut- und Schreibweisen, aber verschiedene Bedeutungen
-> Bank (Sitzmöbel, Geldinstitut)
-> Feder (Vogelfeder, Vorrichtung zum Abdämpfen von Schwingungen)
phonetische Ambiguität (Homophonie/Homophone; gleiche Klänge): phonetische Übereinstimmung in Aussprache, aber verschiedene Bedeutungen
-> Lehre – Leere
orthografische Ambiguität (Homographie/Homographen; gleiche Schreibweisen): orthografische Übereinstimmung, aber verschiedene Aussprachen und Bedeutungen
-> umfahren – umfahren
morphologische Ambiguität
-> Kunsthonig
-> Honigschleuder
syntaktische Ambiguität
-> Sie hat ihm Honig um den Bart geschmiert
-> Er hat ins Gras gebissen
kompositionell-semantische Ambiguität
-> Die drei Personen wiegen 200 Kilogramm
pragmatische Ambiguität
-> Haben Sie ein Auto?

Question 8

Q

Anaphernsresolution Beispiele

Answer

A

die Auflösung des Bezugs einer Anapher (Bestimmung des Antezedens)
-> Anaphorik (Antezedens ← Anapher)
-> Kataphorik (Katapher → Antezedens)
Alice überzeugt Bob die Lehre für sich zu verinnerlichen
-> Worauf bezieht sich das „sich“ in diesem Zusammenhang?

Question 9

Q

Präsupposition

Answer

A

Ein Sprecher präsupponiert eine Proposition p, wenn er davon ausgeht, dass diese den Gesprächsteilnehmern wechselseitig bekannt ist oder als gegeben akzeptiert wird
„Sie hat aufgehört zu schlafen“ impliziert, dass sie zuvor ge → schlafen hat
(Es wird davon ausgegangen, dass Proposition dem Gesprächspartner bekannt ist.)

Question 10

Q

Ebenen der Textanalyse

Answer

A

Tokenisierung
Lexikalische Analyse (jedem Wort zuordnen ob Verb, Substantiv etc.)
Lexikalische Analyse
-> D (Determinator)
-> N (Noun)
-> V (Verb)
-> P (Präposition)
Syntaktische Analyse (Zusammenhang Wörter anhand grammatikalischer Bedeutung -> Substantiv und Verb)
-> NP (Noun-Phrase)
-> VP (Verb-Phrase)
-> PP (Präpositional-Phrase)
-> S (Satz)
Semantische Analyse (Zusammenhang Wörter inhaltliche Bedeutung)
-> Hund (h1)
-> Junge (j1)
-> Spielplatz (s1)
-> verfolgen (h1, j1, s1)
Inferenz (Allgemeiner Zusammenhang abgeleitet aus semantischer Analyse)
-> Angst(x) if verfolgen (_, x, _)
Pragmatische Analyse (Wie kam es zu der Formulierung eines Satzes)

Question 11

Q

Arten des Textzugriffs

Answer

A

Push-Mode: (Empfehlungssystem, System Filtert relevante Objekte)
Pull-Mode: (Suchmaschine, sortiert nach Relevanz)
Querying (Nutzer gibt Query vor, System liefert relevante Objekte zurück)

Question 12

Q

Pull-Mode

Answer

A

Browsing (Nutzende navigiert durch relevante Informationen)
-> Nutzende übernehmen die Initiative
-> Ad hoc-Informationen werden benötigt
-> Nutzer navigiert durch relevante Informationen, indem Strukturen innerhalb der Dokumenten gefolgt wird
-> Geeignet für Nutzende, welche Informationen explorieren wollen und nicht Wissen, welche Schlüsselwörter geeignet sind oder anderweitig keine Query eingeben können
-> z. B.: Sightseeing: Kennst du die Adresse der Attraktion?
–> Ja, nimm ein Taxi und fahre direkt ans Ziel
–> Nein, laufe herum oder fahre in die Nähe der Attraktion & laufe dann herum
Querying (Nutzer gibt Query vor, System liefert relevante Objekte zurück)
-> Nutzende geben eine Query (Schlüsselwort) ein
-> System liefert relevante Daten zurück
-> Funktioniert gut, wenn der Nutzer weiß, welche Query er verwenden muss
-> z. B.: Informationssuche: Weißt du genau, was du suchst?
–> Ja, verwende die richtigen Schlüsselwörter als Query und finde Informationen direkt
–> Nein, surfe durch Informationsraum oder beginne mit einer groben Query

Question 13

Q

Push-Mode

Answer

A

System übernimmt die Initiative
Fester Info-Bedarf o. das System hat genügend Wissen über den Info-Bedarf des Nutzenden

Question 14

Q

Text-Retrieval-Problem verbal und formal

Answer

A

Finde Menge aller relevanten Dok R bezüglich einer Query q aus einer Collection C
Vokabular: V = {w1,…,wn} ,w∈α
Query: Q = q1,…,qn,qi∈V
Dokument: di = di 1,…, dim,di j∈V
Collection: C = {d1,…,dm}
Menge aller relevanter Dokumente: R(q)⊆C (Relation von Q ist Teilmenge von C)
-> prinzipiell unbekannt und abhängig von Nutzende
-> Query ist Hinweis auf relevante Dokumente in R(q)
Aufgabe: R’(q) als Abschätzung von R(q)

Question 15

Q

Unterschied zwischen Document Selection und Document Ranking

Answer

A

Document Selection
-> R(q ,d) ist Teil von {0,1}
-> Die Menge an Dokumenten wird unterteilt in relevante und nicht-relevante Dokumente
Document Ranking
-> R(q ,d) ist Teil von R (Einführung Schwellwert)
-> Alle Dokumente werden in einer Liste aufgenommen. Diese Liste gibt die Dokumente nach ihrer Relevanz (relevante Doks oben und irrelevante Doks unten in der Liste) zurück.

Vorlesung 2 - Text Retrieval Einführung Flashcards

(15 cards)