Empfehlungssysteme Flashcards
Nach welchen 3 Arten des Aktivitätsgrades kann man unterscheiden wie Nutzende zu relevanten Informationen kommen?
Retrieval (Nutzende am aktivsten):
User hat ein bestimmtes Informationsbedürfnis und weiß, was er sucht → System versucht, die relevantesten Items zu finden
Browsing:
Ähnlichkeit zu Retrieval: User muss aktiv sein, hat kein spezifiziertes Informationsbedürfnis → System sollte eine gute Schnittstelle sein, damit der User das Informationsbedürfnis stillen kann
Recommending:
User kann passiv sein (Verantwortung liegt beim System)
Userin weiß (noch) nicht genau, was ersie eigentlich sucht und hat kein spezifiziertes Informationsbedürfnis → System versucht herauszufinden, was dieses Bedürfnis sein könnte und sucht nach potenziell relevanten Items basierend auf den Präferenzen des Users oder dem Aktivitätsverlauf
Je inaktiver die Nutzenden werden, desto aktiver wird das System.
Was sind Empfehlungssysteme (Recommender Systems) und was zeichnet sie aus?
- Empfehlungssysteme = Software-Tools/-Techniken, die User*innen nützlicher Vorschläge liefern
- liefern meist personalisierte Empfehlungen (aber auch unpersonalisierte)
- können hilfreich sein, mit der Informationsflut fertig zu werden → v.a. für Personen, die wenig(er) Erfahrung/Kompetenz
- sind performance-kritisch (Verarbeitung riesiger Datenmengen)
- wollen natürlich auch Profit maximieren
Was sind Ziele von Empfehlungssytemen?
- Mehr verkaufen
- Unterschiedliche Dinge verkaufen (Nischenprodukte bekannt machen)
- Userinnen zufriedenstellen
→ Benutzerinnen Treue sichern und erhöhen - User*innen verstehen
Was ist der Unterschied zwischen item-based und user-based Ansätzen beim Collaborative Filtering?
item-based: Es werden ähnliche Artikel zu jenen gesucht, die der Nutzende in der Vergangenheit bereits gut bewertet hat. Unter ähnliche Artikel versteht man von der Community ähnlich bewertet und nicht zwingend inhaltlich ähnlich (das wäre inhaltsbasiert).
user-based: Es werden ähnliche Nutzer gesucht, die in der Vergangenheit ähnliche Bewertungen wie der aktuelle Nutzer haben und so auf die Ratings für neue Produkte erraten
Was bedeutet “Collaborative Filtering”?
Das nicht nur die Bewertungen des Nutzers herangezogen werden sonder vor allem der Vergleich mit ähnlichen Nutzern (Nachbarn) spannend ist.
Welche Schritte sind nötig um eine item-basierte Empfehlung für Nutzende machen zu können?
- Berechnung der Ähnlichkeit zwischen Items ausrechnen (Kosinus Ähnlichkeit)
- Die Nachbarschaft auswählen: (k) ähnlichste Items anhand von bestimmten Kriterien (z.B. die ähnlichsten k, die ähnlichsten k der Wert muss aber mind. x sein
- Anhand der Bewertungen der ähnlichen Items (Nachbarschafts-Items) aus der Vergangenheit wird eine Vorhersage berechnet (Wie würde der Nutzer das besagte Item bewerten?)
- Basierend auf der Vorhersage wird entschieden ob empfohlen wird oder nicht
Was ist der Unterschied zwischen Kosinus Ähnlichkeiten und der angepassten Kosinus Ähnlichkeit?
Die angepasste Kosinus Ähnlichkeit berücksichtigt Rating-Bias => Die einzelnen Werte haben eine unterschiedliche Bedeutung für die Nutzenden; es kann z.B. sein, dass ein Nutzer nie besser als 4 bewertet. Die gleiche Zahl kann für einen Nutzer recht hoch und für einen anderen recht niedrig liegen. Dafür wird in der Berechnung, die Durchschnittliche Bewertung von allen Werten abgezogen -> Ähnlichkeitswerte können damit auch negativ werden und nun von -1 bis +1 reichen.
Beim Berechnen der Vorhersage: Wann macht eine Gewicht besonders Sinn? Wie der gewichtete Durchschnitt berechnet?
Nachbar 1: Bewertung 5, Ähnlichkeit 0,77
Nachbar 2: Bewertung 4, Ähnlichkeit 0,9
Wenn die Nachbarschaft recht klein ist, ist die Ähnlichkeit der k-nächsten Nachbarn oft recht unterschiedlich => der Wert der Ähnlicher ist bekommt mehr Gewicht. (Im Gegensatz dazu macht eine Gewicht wenig Sinn, wenn ich sehr viele Nachbarn habe die eigentlich alle einen Ähnlichkeit nahe 1 haben)
(50,77 + 40,9)/(0,77+0,9)= 4,75 (Vorhersage)
Welche Schritte sind nötig um eine user-basierte Empfehlung für Nutzende machen zu können?
- Berechnung der Ähnlichkeit zwischen Nutzer*innen ausrechnen (Pearson Korrelation)
- Die Nachbarschaft auswählen: (k) Nutzer mit ähnlichem Rating-Verhalten
- Anhand der Bewertungen der ähnlichsten Nutzer (Nachbarschafts-User) wird eine Vorhersage berechnet (Wie würde der Nutzer das besagte Item bewerten?)
- Basierend auf der Vorhersage wird entschieden ob empfohlen wird oder nicht
Was ist der Rating-Bias?
Jeder Nutzer hat ein anderes Bewertungsverhalten/Bewertungstendenz. Das durchschnittliche Rating eines Nutzers gibt gut Aufschluss darüber wie der Nutzer so bewertet. Ist der Durchschnittswert niedrig, kann es z.B. ein Hinweis sein, dass der Nutzer selten Produkte bewertet die ihm gefallen und eher zu Kritik tendiert. Eine Bewertung von 3 kann für diesen Nutzer schon das höchste der Gefühle sein.
Wie entscheidet man welche Nachbarn “gute” Nachbarn sind?
Grundsätzlich kommen nur Userinnen infrage, die…
…das fragliche Item bereits bewertet haben
…eine positive Korrelation mit demder besagten User*in haben
Normalerweise wird dann entweder:
- ein Mindest-Ähnlichkeitswert festgelegt
- eine Anzahl der k-nächsten Nachbarn festgelegt
- oft wird auch eine Kombination festgelegt (Cold-Start Problem kann ich aber so nicht immer umgehen)
Was sind Probleme wenn der Grenzwert für die Nachbarn zu hoch/niedrig ist?
Problem – Grenzwert zu hoch: Keine/zu wenige Nachbarinnen (Cold-Start Problem)
Problem – Grenzwert zu niedrig: Weniger gute Vorhersagen oder zu viele Nachbarinnen
Was sind Probleme wenn die k-Anzahl für die Nachbarn zu hoch/niedrig ist?
Problem – k zu hoch: Weniger gute/präzise Vorhersagen
Problem – k zu niedrig: Risiko für Ungenauigkeit oder Zufall wird erhöht
Was ist der Slope-One Algorithmus?
-> Versucht die Anzahl der Überschneidungen zwischen 2 Vergleichsvektoren zu berücksichtigen (durch Gewichtung)
Gibt es nur wenig Überschneidungen wird das Rating niedriger gewichtet
Was sind generelle Probleme bei Collaborativ-Filtering Ansätze?
- Data sparsity (in der Realität wird nur wenig bewertet, Rating-Matrizen sind zum Großteil leer -> wenig Überschneidungen -> unzuverlässige Empfehlungen)
- Cold Start Problem (nu Beginn gibt es noch keine/kaum Bewertungen -> unzuverlässige Empfehlungen)
- Filter Bubble (Nutzer wird in seiner Blase isoliert und bekommt nix neues mehr gezeigt -> wenig Streuung/Diversität)