Nicht-Probabilisitsche Modelle Flashcards

1
Q

Was ist die “semantische Sicht” auf Texte?

A

Die semantische Sicht auf Texte besteht aus der Multimenge vonTerms. “Multimenge von Terms” heisst die Repräsentation der Terms (der Anfrage?) durch ihrer Vorkommenshäufigkeit im Dokument. Die Semantik (die Unterscheidung zwischen wichtigen und unwichtigen Wörtern) kommt jedoch durch das auf diese Sicht aufbauende Retrievalmodell. (Ende Kapitel 2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist Boolesches Retrieval?

A

Boolesches Retrieval ist historisch als erstes (Text-)Retrievalmodell entwickelt worden. Nach der Stoppworteliminierung und STammformreduktion wie die Anfrage in eine logische Frageformulierung überführt.

Diese Anfrage ist ein boolischer Ausdruck bestehend aus Terme und booleschen Operatoren. Die Terme haben eine binäre Gewichtung (0* t1 oder 1* t1) entweder 0 oder 1 => die Retrievalfunktion liefert eine 0 oder 1 pro Dokument in der Datenbasis (gefunden oder nicht gefunden).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Geben Sie Beispiele für die Retrievalfunktion bei Boolesches Retrieval und ein Beispiel mit einer Query.

A

dm ist das aktuell-untersuchtes Dokument. q1 und q2 sind Terme in der Anfrage.

Bsp der Retrievalfunktion:
g(q1 AND q2, dm) = min(g(q1, dm), g(q2, dm)).

Das heisst, wenn q1 im Dokument ist, dann g(q1, dm) =1, sonst 0. das Ergebnis der Retrieval Funktion ist nur 1 wenn alle g(ti, dm) =1 sind (wegen Minimum).
Bsp:
Dokument d1= { (daffodil, 1), (strategy, 1), (support, 1), …}
Query q1 = daffodill AND strategy
g(q1, d1) = 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Fuzzy-Retrieval?

A

Fuzzy-Retrieval ist eine Retrieval-Modell, das die Nachteile des Booleschen-Retrieval ausgleicht durch Gewichtung der Terme. Die Retrieval-Funktion ist ansonsten gleich definiert. Aber die Retrievalfunktion liefert als Ergebnis einen Wert zwischen 0 (nicht relevant) und 1 (relevant/gefunden). Die Terme werden pro Dokument unterschiedlich gewichtet, je nach dem, ob der Term häufiger vorkommt. -> Rangordnung

**Die Gewichtete Werte für die Terme werden verundert und verodert… nicht aggregiert wie beim VRM. Bsp query q = t1 UND T2,
Dokumente
d1 = (0.6, 0.6), (Gewichtung von t1 und t2 respecktiv)
d2 = (1.0, 0.59)
=> d1 hat Retrievalwert =0.6 ,
=>d2 hat Retrievalwert =0.59
Hohe Gewichtung für Term t1 in d2 wird nicht teilweise kompensiert/mitgenommen wegen Definition von Verundung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was sind Vor und Nachteile vom Fuzzy-Retrieval?

A

Vorteile:
-Es gibt eine Rangodnung wegen der gewichteter Indexierung jedes Dokumentes
Nachteile:
-es gibt keine Fragetermgewichtung.
-Retrievalqualität ist immer noch schlechter im Vergleich zum Vektorraummodell.
-Frageformulierung umständlich (?)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist das Vektorraummodell?

A

Es ist ein Retrievalmodell, wobei man Anfragen und Dokumente als Punkte in einem Vektorraum auffasst. Der Vektorraum wird durch die Terme der Datenbasis aufgespannt. Beim Retrieval werden nach Dokumenten gesucht, deren Vektoren ähnlich zum Fragevektor sind. => geometrische Interpretation
Als Retrievalfunktion werden Vektorähnlichkeitsmaße angewendet z.B. skalarprodukt (Query q * Dokument d)= Retrievalwert
Bsp: Datenbasis-Terme: {retrieval, experiment, weight, index, …} Terme in Anfrage: {retrieval, experiment} .
Für Dokument d2 hat folgende Gewichtung für die Terme retireval: 0.33 und experiment: 0.33. Alle Anderen Terme in d2 mit Gewichtung haben keinen Einfluss auf Skalarprodukt. Query hat Vektor (retrieval =1, experiment =1, expertise = 1, ….)
RSV= 10.33 + 10.33 = 0.66 für Dokument d2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist ein Vorteil des VRM gegenüber Fuzzy-Retrieval?

A

Man kann Relevance-Feedback-Daten zur Verbesserung der Retrievalqualit¨at ausnutzen.

Man berechnet Ähnlichkeitsmass zwischen query und Dokument und keinen booleschen Wert von Termgewichtungen. <=> Alle Gewichtungen von Terme in der Query fließen in den Retrievalwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wie berechnet man die Gewichtungen/Vektoren im VRM Modell?

A

Es ist nicht vorgegeben. Ein Ansatz ist die ntf*idf-Formel zu benutzen.
= inverse Dokumenthäufigkeit * normalisierte Vorkommenshäufigkeit
=>
Gewichtung = wie selten kommen die Terms vor * wie oft kommen die Terme vor in dem Dokument !!!!!

-idf ist die Formel für die inverse Dokumenthäufigkeit (d.h. ist höher wenn ein Term seltener in der Kollektion vorkommt).

idf = log(N/ni) = log (Anzahl dokument in Kollektion/Anzahl Dokumente mit Term i). z.B. wenn ein Term in jedem Dokument vorkommt, dann ist log N/ni = log 1 = 0 und Gewichtung ist gleich =0

-ntf ist die normalisierte Vorkommenshäufigkeit. hierbei sollen die Terms entsprechend ihrer Vorkommenshäufigkeit im Dokument gewichtet werden.
ntf_mi = tf_mi/ (tf_mi + 0.5 + 1.5*(lm/al))
(lm/al) ist kleiner je länger das Dokument ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hat ein Term mehr Gewichtung in einem kürzerem oder in einem längerem Dokument?

A

Ein Term hat mehr GEwichtung in einem kurzerem Dokuement weil die Terme die vorkommen wichtiger sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wann ist die Gewichtung höher bei dem Vektorraum-Modell?

A

je. ..
- h¨aufiger der Term im Dokument
- seltener der Term in der Kollektion
- kürzer das Dokument

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist eine Alternative zu der tf*idf-Formel um Ranking der Dokumente im VEktorraum-Modell zu berechnen?

A

Man könnte die gleiche Gewichtung für alle Terme benutzen. Dann würde nur die Häufigkeit der Terme eine Rolle in der Ranking spielen. Das ist aber unbefriedigend für den Nutzer, weil es nicht mitberechnet, ob ein Dokument lang oder kurz ist, oder ob ein Term oft oder selten vorkommt. Bei der tf*idf-Formel hat ein Term mehr Gewichtung, wenn es seltener in allen Dokumenten vorkommt und in einem kurzen Dokument vorkommt.
(“Weil in einem längeren Dokument kommt der Term häufiger vor.”-Prof)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie beurteilt man das VRM-Modell?

A

Vorteile:

  • man kann relevance Feedback benutzen wenn man den optimalen Fragevektor berechnet und um weitere iterationen vom Retrieval benutzt.
  • VRM ist relativ einfach und anschaulich
  • Frageformulierung ist benutzerfreundlich
  • man kann es sofort auf neue Kollektionen anwenden, auch wenn es keine Relevanzbewertungen vorliegen.
  • Mit Gewichtungsformeln hat es eine gute Retrieval-qualität.

Nachteile:
-zu viele heuristische Komponente (alpha und Beta bei Relevanz Feedback).. man kann das Model nicht auf neue Kollektionen übertragen
-Gewichtugnsformel durch Experimente sehr aufwändig
-

How well did you know this?
1
Not at all
2
3
4
5
Perfectly