Vorlesung 9 - Suchmaschinen/Empfehlungsmaschinen Flashcards

1
Q

Recommender ≈ Filtersystem

A
  • stabiles & langfristiges Interesse, dynamische Informationsquelle
  • System muss unmittelbar bei Vorliegen eines Dokuments eine Lieferentscheidung treffen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Zwei grundsätzliche Ansätze des Push-Mode

A
  • „Pull Mode (Suchmaschinen)
    -> Benutzer übernimmt die Initiative
    -> Ad hoc – Informationen werden benötigt
  • Push Mode (Empfehlungssysteme)
    -> System übernimmt die Initiative
    -> Fester Informationsbedarf oder das System hat genügend Wissen über den Informationsbedarf des Nutzenden“
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Grundlegende Filterfrage

A
  • Welche Dokumente mag 𝑈 ? → prüfe ob 𝑋 ähnlich ist
    -> Dokumentähnlichkeit => Content-Based Filtering (CBF)
  • Welche Nutzer mögen 𝑋? → prüfe ob 𝑈 ähnlich ist
    -> Nutzerähnlichkeit => Collaborative Filtering (CF)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

CBF-System evaluieren (bewerten)

A
  • Beispiel für Nutzenfunktion: Linearer Nutzen = 3 €⋅gut geranked − 2€⋅schlecht geranked
  • Hoher Wert für gut → Es wird viel ausgeliefert (wenig zu verlieren)
  • Niedriger Wert für gut → Es wird wenig ausgeliefert (viel zu verlieren)
  • Koeffizienten steuern wie zögerlich/sicher ein System ist, um ein Dokument auszuliefern
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Probleme mit CBF

A

1 . Filterentscheidung (Binärer Klassifikator)
* Dokumenttext, Profiltext → ja/nein

2 . Initialisierung
* Initialisierung des Filters basiert nur auf dem Profiltext oder sehr wenigen
Beispielen

3 . Lernen von
* limitierten Relevanzentscheidungen (nur auf “ja” Dokumenten)
* Gesammelten/ausgelieferten Dokumenten
➢ Gemeinsame Optimierung der drei Module zur Maximierung des Nutzens

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Erweitern eines TR-Systems um CBF

A
  • “Wiederverwendung” von Retrieval-Techniken um Dokumenten
    einen Score zuzuweisen
    -> Verwendung eines Score-Schwellwertes als Filterentscheidung
    -> Lernen das Scoring mit traditionellem Feedback zu verbessern
  • Neue Ansätze für das Festlegen des Schwellwertes und das Lernen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Beta-Gamma-Threshold-Learning

A
  • Nutzen bei Anzahl ausgelieferter Dokumente
  • Maximum einer Nutzen-Funktion ist gleichbedeutend mit dem optimalen Nutzen ( θopt )
  • Schnittpunkt mit der x-Achse wird als Nullnutzen ( θzero ) bezeichnet
  • Tatsächliche Wert ( θ ) wird sich zwischen θopt und θzero (Explorationsbereich) befinden
  • Es muss entschieden werden, wie weit der Schwellwert gelockert werden kann
  • Abweichung zwischen θopt und θ wird als α bezeichnet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Beta-Gamma-Threshold-Learning Vor- und Nachteile

A
  • Vorteile
    -> Explizites Adressieren des Exploration-Exploitation-Tradeoff („sichere“ Exploration durch
    Nullnutzenuntergrenze)
    -> Beliebige Nutzenfunktion (mit passender Untergrenze)
    -> Empirisch effektiv
  • Nachteile
    -> rein heuristisch
    -> Nullnutzenuntergrenze ist oft zu konservativ
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Grundannahmen für das Colaborative Filtering (CF)

A
  1. Nutzer mit denselben Interessen haben ähnliche Präferenzen
  2. Nutzer mit ähnlichen Präferenzen teilen wahrscheinlich gemeinsame Interessen
  3. Ausreichend große Menge von Nutzerpräferenzen ist verfügbar (“Kaltstart”-Problem)
    * Bsp.:
    − Interesse: Information Retrieval → Bevorzugung von SIGIR-Aufsätzen
    − Bevorzugung von SIGIR-Aufsätzen → Interesse: Information Retrieval
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Empirische Nutzenoptimierung

A
  • Prinzip
    − Berechnen des Nutzens der Trainingsdaten für jeden Kandidaten-Score-Schwellwert
    − Auswahl des Schwellwertes der den maximalen Nutzen auf dem Trainingsdatensatz
    erzeugt
  • Problem: Verzerrte Trainingsstichproben!
    − Man erhält nur eine obere Grenze des optimalen Schwellwertes
    − Könnte ein verworfenes Objekt möglicherweise für den Nutzer interessant sein?
  • Lösung:
    − Heuristische Anpassung (Verringerung) des Schwellwertes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist Collaborative Filtering (CF)

A
  • Treffen von Filterentscheidungen für einen Nutzer basierend auf den Bewertungen anderer Nutzer
  • Ableiten der individuellen Interessen/Präferenzen von denen anderer ähnlicher Nutzer
  • Prinzip
    − Gegeben eines Nutzers 𝑢, finde ähnliche Nutzer {𝑢1, … , 𝑢𝑚}
    − Vorhersage der Präferenzen von 𝑢’ basierend auf den Präferenzen von 𝑢1, … , 𝑢𝑚
    − Nutzerähnlichkeit kann anhand der Ähnlichkeit ihrer Präferenzen für
    gemeinsame Objekte bewertet werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

CF-Problem

A
  • Aufgabe
    -> Annahme: es existieren 𝑓-Werte für
    einige (𝑢, 𝑜)s
    -> Vorhersage von 𝑓-Werten für andere
    (𝑢, 𝑜)s
    -> Im wesentlichen Funktionsapproximation,
    wie bei anderen Lernproblemen
  • 𝑿𝒊𝒋 = 𝒇 (𝒖𝒊, 𝒐𝒋) =?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Speicherbasierte Ansätze

A
  • Prinzip:
    − 𝑋𝑖𝑗: Rating des Dokumentes 𝑑𝑗 durch Nutzer 𝑢𝑖
    − 𝑛𝑖: durchschnittliches Rating von 𝑢𝑖
    für alle Dokumente
    − Normalisierte Ratings: 𝑉𝑖𝑗 = 𝑋𝑖𝑗 – 𝑛𝑖
    − Vorhersage des Ratings für Dokument 𝑑𝑗 durch Nutzer 𝑢a
  • Spezifische Ansätze unterscheiden sich in 𝑤(𝑎, 𝑖) – der Distanz/Ähnlichkeit zwischen
    Nutzer 𝑢𝑎 und 𝑢i
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Verbesserung der
Nutzerähnlichkeitsmessung

A
  • Umgang mit fehlenden Werten: Default-Rating (z.B. durchschnittliches Rating)
  • Inverse User Frequency (IUF): ähnlich wie IDF
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Ähnlichkeitsmaße für Nutzer

A
  • Pearson Korrelationskeoffizient (Summe über gemeinsam bewertete Objekte)
  • Kosinus-Ähnlichkeit
  • Viele andere Möglichkeiten!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Suchmaschinen der nächsten
Generation

A
  • spezialisierte/kundenspezifische (vertikale Suchmaschinen)
    − Spezielle Nutzergruppen (Community Engines, z.B. Citeseer)
    − personalisiert (besseres Verständnis des Nutzers)
    − Spezielle Genres/Domänen (besseres Verständnis des Dokuments)
  • Lernen über die Zeit (kontinuierliche Weiterentwicklung)
  • Integration von Suche, Navigation und Empfehlung/Filtern (vollwertiges Informationsmanagement)
  • Unterstützung von zusätzlichen Aufgaben (z.B. Shopping)
  • Viele weitere Möglichkeiten für Innovationen!
16
Q

Data-User-Service-Dreieck

A
  • Anwälte, Wissenschaftler, Online-Kunden
  • Webseiten, News-Artikel, Blog-Artikel, E-Mail
  • Suche, Surfen, Mining, Aufgabenunterstützung
17
Q

Zukünftige intelligente
Suchmaschinen

A
  • Suche
    -> Zukunft: Intelligente & Interaktive
    Aufgabenunterstützung
  • Keyword Queries
    -> Personalisierung (Nutzermodellierung)
  • Bag of Words
    -> Umfassende semantische Analyse
  • ChatGPT kein retrival System: basiert nur auf Wkt., keine Garantie für inhaltliche Richtigkeit (probabilistisches Modell)