Empfehlungssysteme Flashcards

1
Q

Nach welchen 3 Arten des Aktivitätsgrades kann man unterscheiden wie Nutzende zu relevanten Informationen kommen?

A

Retrieval (Nutzende am aktivsten):
User hat ein bestimmtes Informationsbedürfnis und weiß, was er sucht → System versucht, die relevantesten Items zu finden

Browsing:
Ähnlichkeit zu Retrieval: User muss aktiv sein, hat kein spezifiziertes Informationsbedürfnis → System sollte eine gute Schnittstelle sein, damit der User das Informationsbedürfnis stillen kann

Recommending:
User kann passiv sein (Verantwortung liegt beim System)
Userin weiß (noch) nicht genau, was ersie eigentlich sucht und hat kein spezifiziertes Informationsbedürfnis → System versucht herauszufinden, was dieses Bedürfnis sein könnte und sucht nach potenziell relevanten Items basierend auf den Präferenzen des Users oder dem Aktivitätsverlauf

Je inaktiver die Nutzenden werden, desto aktiver wird das System.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind Empfehlungssysteme (Recommender Systems) und was zeichnet sie aus?

A
  • Empfehlungssysteme = Software-Tools/-Techniken, die User*innen nützlicher Vorschläge liefern
  • liefern meist personalisierte Empfehlungen (aber auch unpersonalisierte)
  • können hilfreich sein, mit der Informationsflut fertig zu werden → v.a. für Personen, die wenig(er) Erfahrung/Kompetenz
  • sind performance-kritisch (Verarbeitung riesiger Datenmengen)
  • wollen natürlich auch Profit maximieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind Ziele von Empfehlungssytemen?

A
  • Mehr verkaufen
  • Unterschiedliche Dinge verkaufen (Nischenprodukte bekannt machen)
  • Userinnen zufriedenstellen
    → Benutzer
    innen Treue sichern und erhöhen
  • User*innen verstehen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist der Unterschied zwischen item-based und user-based Ansätzen beim Collaborative Filtering?

A

item-based: Es werden ähnliche Artikel zu jenen gesucht, die der Nutzende in der Vergangenheit bereits gut bewertet hat. Unter ähnliche Artikel versteht man von der Community ähnlich bewertet und nicht zwingend inhaltlich ähnlich (das wäre inhaltsbasiert).

user-based: Es werden ähnliche Nutzer gesucht, die in der Vergangenheit ähnliche Bewertungen wie der aktuelle Nutzer haben und so auf die Ratings für neue Produkte erraten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was bedeutet “Collaborative Filtering”?

A

Das nicht nur die Bewertungen des Nutzers herangezogen werden sonder vor allem der Vergleich mit ähnlichen Nutzern (Nachbarn) spannend ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Schritte sind nötig um eine item-basierte Empfehlung für Nutzende machen zu können?

A
  1. Berechnung der Ähnlichkeit zwischen Items ausrechnen (Kosinus Ähnlichkeit)
  2. Die Nachbarschaft auswählen: (k) ähnlichste Items anhand von bestimmten Kriterien (z.B. die ähnlichsten k, die ähnlichsten k der Wert muss aber mind. x sein
  3. Anhand der Bewertungen der ähnlichen Items (Nachbarschafts-Items) aus der Vergangenheit wird eine Vorhersage berechnet (Wie würde der Nutzer das besagte Item bewerten?)
  4. Basierend auf der Vorhersage wird entschieden ob empfohlen wird oder nicht
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist der Unterschied zwischen Kosinus Ähnlichkeiten und der angepassten Kosinus Ähnlichkeit?

A

Die angepasste Kosinus Ähnlichkeit berücksichtigt Rating-Bias => Die einzelnen Werte haben eine unterschiedliche Bedeutung für die Nutzenden; es kann z.B. sein, dass ein Nutzer nie besser als 4 bewertet. Die gleiche Zahl kann für einen Nutzer recht hoch und für einen anderen recht niedrig liegen. Dafür wird in der Berechnung, die Durchschnittliche Bewertung von allen Werten abgezogen -> Ähnlichkeitswerte können damit auch negativ werden und nun von -1 bis +1 reichen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Beim Berechnen der Vorhersage: Wann macht eine Gewicht besonders Sinn? Wie der gewichtete Durchschnitt berechnet?

Nachbar 1: Bewertung 5, Ähnlichkeit 0,77
Nachbar 2: Bewertung 4, Ähnlichkeit 0,9

A

Wenn die Nachbarschaft recht klein ist, ist die Ähnlichkeit der k-nächsten Nachbarn oft recht unterschiedlich => der Wert der Ähnlicher ist bekommt mehr Gewicht. (Im Gegensatz dazu macht eine Gewicht wenig Sinn, wenn ich sehr viele Nachbarn habe die eigentlich alle einen Ähnlichkeit nahe 1 haben)

(50,77 + 40,9)/(0,77+0,9)= 4,75 (Vorhersage)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Welche Schritte sind nötig um eine user-basierte Empfehlung für Nutzende machen zu können?

A
  1. Berechnung der Ähnlichkeit zwischen Nutzer*innen ausrechnen (Pearson Korrelation)
  2. Die Nachbarschaft auswählen: (k) Nutzer mit ähnlichem Rating-Verhalten
  3. Anhand der Bewertungen der ähnlichsten Nutzer (Nachbarschafts-User) wird eine Vorhersage berechnet (Wie würde der Nutzer das besagte Item bewerten?)
  4. Basierend auf der Vorhersage wird entschieden ob empfohlen wird oder nicht
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist der Rating-Bias?

A

Jeder Nutzer hat ein anderes Bewertungsverhalten/Bewertungstendenz. Das durchschnittliche Rating eines Nutzers gibt gut Aufschluss darüber wie der Nutzer so bewertet. Ist der Durchschnittswert niedrig, kann es z.B. ein Hinweis sein, dass der Nutzer selten Produkte bewertet die ihm gefallen und eher zu Kritik tendiert. Eine Bewertung von 3 kann für diesen Nutzer schon das höchste der Gefühle sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie entscheidet man welche Nachbarn “gute” Nachbarn sind?

A

Grundsätzlich kommen nur Userinnen infrage, die…
…das fragliche Item bereits bewertet haben
…eine positive Korrelation mit dem
der besagten User*in haben

Normalerweise wird dann entweder:

  • ein Mindest-Ähnlichkeitswert festgelegt
  • eine Anzahl der k-nächsten Nachbarn festgelegt
  • oft wird auch eine Kombination festgelegt (Cold-Start Problem kann ich aber so nicht immer umgehen)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was sind Probleme wenn der Grenzwert für die Nachbarn zu hoch/niedrig ist?

A

Problem – Grenzwert zu hoch: Keine/zu wenige Nachbarinnen (Cold-Start Problem)
Problem – Grenzwert zu niedrig: Weniger gute Vorhersagen oder zu viele Nachbar
innen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind Probleme wenn die k-Anzahl für die Nachbarn zu hoch/niedrig ist?

A

Problem – k zu hoch: Weniger gute/präzise Vorhersagen

Problem – k zu niedrig: Risiko für Ungenauigkeit oder Zufall wird erhöht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist der Slope-One Algorithmus?

A

-> Versucht die Anzahl der Überschneidungen zwischen 2 Vergleichsvektoren zu berücksichtigen (durch Gewichtung)

Gibt es nur wenig Überschneidungen wird das Rating niedriger gewichtet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind generelle Probleme bei Collaborativ-Filtering Ansätze?

A
  • Data sparsity (in der Realität wird nur wenig bewertet, Rating-Matrizen sind zum Großteil leer -> wenig Überschneidungen -> unzuverlässige Empfehlungen)
  • Cold Start Problem (nu Beginn gibt es noch keine/kaum Bewertungen -> unzuverlässige Empfehlungen)
  • Filter Bubble (Nutzer wird in seiner Blase isoliert und bekommt nix neues mehr gezeigt -> wenig Streuung/Diversität)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist der Unterschied zwischen Collaborativen Ansätzen und Content-Basierten Ansätzen?

A

Bei Collaborativen interessiert mich das Verhalten in der Vergangenheit um daraus Rückschlüsse zu ziehen. Nähere Informationen zu den Inhalte bleiben unbeachtet.

Bei Content-Basierten Ansätzen versuche ich (inhaltliche) Ähnlichkeiten zu bereits gut bewerteten Inhalten zu finden. (bei Musik z.B. Genre, Geschwindigkeit, Sprache, Interpret,…) Die Interpretationen/Annahmen die getroffen werden, werden im Nutzermodell gespeichert.

17
Q

Was ist der Dice Koeffizient?

A

Die Items werden mithilfe von Keywords definiert. Mittels Dice-Koeffizient wird dann die Ähnlichkeit zweier Items durch Vergleich der Keywords bestimmt:

Schnittmenge der gemeinsamen Keywords dividieren durch die Gesamtmenge der Keywords. Zur Anpassung der Skala wird dann noch mit 2 multipliziert.

18
Q

Welche Keyword-basierten Ansätze zur Kontextanalyse kennen Sie?

A
  • Dice-Koeffizient

- TF-IDF (term frequency inverse document frequency)

19
Q

Was ist TF-IDF?

A

Gewichtung von Keywords, basierend auf ihrer Häufigkeit.

TF Term Frequency = (normalisierte) Worthäufigkeit. Dafür wird die absolute Anzahl der Vorkommnisse durch die Anzahl des häufigsten Keywords dividiert.

IDF Inverse Document Frequency = Gewicht von Keywords reduzieren, die in anderen Dokumente sehr oft vorkommen

TF + IDF kombinieren: Keywords die das Item gut beschreiben und das Item gut unterscheidbar machen (von anderen Items in der DB) werden hoch bewertet. Jedes Keyword hat in jedem Item ein eigenes Gewicht/Bedeutung (ist nicht überall gleich).