Vorlesung 2 - Text Retrieval Einführung Flashcards
1
Q
Begriff des forensischen Textes definieren und Beispiele
A
- Auf digitalen Speichermedien sichergestellte textuelle Daten, welche entweder selbst inkriminiert und so als Beweismittel einer Straftat dienen oder anderweitig zur Tataufklärung oder -rekonstruktion beitragen können mit Ziel der Beweissicherung als Gegenstand kriminalistischer Ermittlungen.
- Beispiele: Öffentliche Social Media Nachrichten (Stimmungen, politische Ereignisse etc.), Dokumente auf dem PC und E-Mails
1
Q
Einsatzgebiete von Text Mining in der Forensik und Beispiele
A
- Prävention
-> Freiheitliche demokratische Grundordnung schützen
-> Gefahrenabwehr für öffentliche Sicherheit und Ordnung
-> Straftaten bekämpfen, verhindern und vorbeugen - Repression
-> Straftaten erforschen
2
Q
Aufgaben in der Forensik, die mit Mitteln des Text Mining gelöst werden können
A
- Texte mit fallbasierter kriminalistischen Relevanz erkennen und klassifizieren
- Entitäten und Relationen als Basis zur Aufdeckung von Täter-Opfer-Netzwerken erkennen
- Geplante Aktivitäten entdecken (Predictive Policing)
- Fragmentierte Texte semantisch erschließen
- Versteckte Semantik erkennen (Synonyme für Drogen)
3
Q
Ziele des Text Retrieval
A
- Daten aus einer großen Menge nach ihrer Relevanz sortieren oder filtern
- Big (Text) Data -> Empfehlungssystem bzw. Suchmaschine -> Fallrelevante Daten
4
Q
Probability Ranking Principle
A
- Rückgabe einer Rangliste von Dokumenten in absteigender Reihenfolge der Wahrscheinlichkeit, dass ein Dokument relevant für die Anfrage ist.
1. Die Nutzung einzelner Dokumente ist unabhängig voneinander
2. Benutzer untersucht Ergebnisse nacheinander
5
Q
Typische Herausforderungen
A
- Ambiguitäten (Mehrdeutigkeit, Uneindeutigkeit)
- Anaphernsresolution (Koreferenzanalyse)
- Präsupposition (Pragmatik)
6
Q
Ambiguitäten - Arten und Beispiele
A
- lexikalische Ambiguität (Homonymie/Homonyme = Homophone + Homographen): lexikalische Ausdrücke gleicher Laut- und Schreibweisen, aber verschiedene Bedeutungen
-> Bank (Sitzmöbel, Geldinstitut)
-> Feder (Vogelfeder, Vorrichtung zum Abdämpfen von Schwingungen) - phonetische Ambiguität (Homophonie/Homophone; gleiche Klänge): phonetische Übereinstimmung in Aussprache, aber verschiedene Bedeutungen
-> Lehre – Leere - orthografische Ambiguität (Homographie/Homographen; gleiche Schreibweisen): orthografische Übereinstimmung, aber verschiedene Aussprachen und Bedeutungen
-> umfahren – umfahren - morphologische Ambiguität
-> Kunsthonig
-> Honigschleuder - syntaktische Ambiguität
-> Sie hat ihm Honig um den Bart geschmiert
-> Er hat ins Gras gebissen - kompositionell-semantische Ambiguität
-> Die drei Personen wiegen 200 Kilogramm - pragmatische Ambiguität
-> Haben Sie ein Auto?
7
Q
Anaphernsresolution Beispiele
A
- die Auflösung des Bezugs einer Anapher (Bestimmung des Antezedens)
-> Anaphorik (Antezedens ← Anapher)
-> Kataphorik (Katapher → Antezedens) - Alice überzeugt Bob die Lehre für sich zu verinnerlichen
-> Worauf bezieht sich das „sich“ in diesem Zusammenhang?
8
Q
Präsupposition
A
- Ein Sprecher präsupponiert eine Proposition p, wenn er davon ausgeht, dass diese den Gesprächsteilnehmern wechselseitig bekannt ist oder als gegeben akzeptiert wird
- „Sie hat aufgehört zu schlafen“ impliziert, dass sie zuvor ge → schlafen hat
- (Es wird davon ausgegangen, dass Proposition dem Gesprächspartner bekannt ist.)
9
Q
Ebenen der Textanalyse
A
- Tokenisierung
- Lexikalische Analyse (jedem Wort zuordnen ob Verb, Substantiv etc.)
- Lexikalische Analyse
-> D (Determinator)
-> N (Noun)
-> V (Verb)
-> P (Präposition) - Syntaktische Analyse (Zusammenhang Wörter anhand grammatikalischer Bedeutung -> Substantiv und Verb)
-> NP (Noun-Phrase)
-> VP (Verb-Phrase)
-> PP (Präpositional-Phrase)
-> S (Satz) - Semantische Analyse (Zusammenhang Wörter inhaltliche Bedeutung)
-> Hund (h1)
-> Junge (j1)
-> Spielplatz (s1)
-> verfolgen (h1, j1, s1) - Inferenz (Allgemeiner Zusammenhang abgeleitet aus semantischer Analyse)
-> Angst(x) if verfolgen (_, x, _) - Pragmatische Analyse (Wie kam es zu der Formulierung eines Satzes)
10
Q
Arten des Textzugriffs
A
- Push-Mode: (Empfehlungssystem, System Filtert relevante Objekte)
- Pull-Mode: (Suchmaschine, sortiert nach Relevanz)
- Querying (Nutzer gibt Query vor, System liefert relevante Objekte zurück)
11
Q
Pull-Mode
A
- Browsing (Nutzende navigiert durch relevante Informationen)
-> Nutzende übernehmen die Initiative
-> Ad hoc-Informationen werden benötigt
-> Nutzer navigiert durch relevante Informationen, indem Strukturen innerhalb der Dokumenten gefolgt wird
-> Geeignet für Nutzende, welche Informationen explorieren wollen und nicht Wissen, welche Schlüsselwörter geeignet sind oder anderweitig keine Query eingeben können
-> z. B.: Sightseeing: Kennst du die Adresse der Attraktion?
–> Ja, nimm ein Taxi und fahre direkt ans Ziel
–> Nein, laufe herum oder fahre in die Nähe der Attraktion & laufe dann herum - Querying (Nutzer gibt Query vor, System liefert relevante Objekte zurück)
-> Nutzende geben eine Query (Schlüsselwort) ein
-> System liefert relevante Daten zurück
-> Funktioniert gut, wenn der Nutzer weiß, welche Query er verwenden muss
-> z. B.: Informationssuche: Weißt du genau, was du suchst?
–> Ja, verwende die richtigen Schlüsselwörter als Query und finde Informationen direkt
–> Nein, surfe durch Informationsraum oder beginne mit einer groben Query
11
Q
Push-Mode
A
- System übernimmt die Initiative
- Fester Info-Bedarf o. das System hat genügend Wissen über den Info-Bedarf des Nutzenden
11
Q
Text-Retrieval-Problem verbal und formal
A
- Finde Menge aller relevanten Dok R bezüglich einer Query q aus einer Collection C
- Vokabular: V = {w1,…,wn} ,w∈α
- Query: Q = q1,…,qn,qi∈V
- Dokument: di = di 1,…, dim,di j∈V
- Collection: C = {d1,…,dm}
- Menge aller relevanter Dokumente: R(q)⊆C (Relation von Q ist Teilmenge von C)
-> prinzipiell unbekannt und abhängig von Nutzende
-> Query ist Hinweis auf relevante Dokumente in R(q) - Aufgabe: R’(q) als Abschätzung von R(q)
11
Q
Unterschied zwischen Document Selection und Document Ranking
A
- Document Selection
-> R(q ,d) ist Teil von {0,1}
-> Die Menge an Dokumenten wird unterteilt in relevante und nicht-relevante Dokumente - Document Ranking
-> R(q ,d) ist Teil von R (Einführung Schwellwert)
-> Alle Dokumente werden in einer Liste aufgenommen. Diese Liste gibt die Dokumente nach ihrer Relevanz (relevante Doks oben und irrelevante Doks unten in der Liste) zurück.