Kapitel 6: Empfehlungssysteme Flashcards
Was sind Hoffnungen und Befürchtungen im Bezug auf Automatisierte Kandidatenauswahl?
Unternehmen und Kandidaten sehen viele Chancen in (teil-)automatisierten, digitalen Auswahlsystemen (wie schneller, einfacher und diskriminierungsärmer
Gleichzeitig gibt es Sorgen (zB. Datenmissbrauch), Skepsis („können Maschinen überhaupt erkennen, was einen Menschen ausmacht?“, „Richtig beurteilen kann
sowieso nur ein erfahrene Mensch“) und konkrete Befürchtungen (systematische Fehler und institutionalisierte Diskriminierung).
Welche Punkte gibt es bezüglich Daten?
− Für eine wirklich umfassende maschinelle Auswahl stellt sich nicht nur die Frage nach dem Auswahlverfahren (Technologie, Algorithmen) sondern auch nach den verfügbaren Daten (Input). Die beste AI kann keinen guten Vorschlag für leistungsfähige
Mitarbeiter machen, wenn keine relevanten Daten (zB. GMA) verfügbar sind. Damit fokussiert ein Großteil der Ansätze in der Praxis derzeit eher auf einen einfachen Abgleich harter Aspekte („kennt XML und TensorFlow“) oder das Emulieren menschlicher Entscheidungen (eine gute AI-Auswahl wäre dieselbe, die der Mensch getroffen hätte), was dann zu entsprechenden ethischen Herausforderungen führt.
Welche Punkte gibt es bezüglich Ethical AI?
Derzeit entstehen viele Leitlinien für verantwortungsbewusste AI (zB. Ethikbeirat HR-Tech, Ethik-Leitlinien der EU für eine vertrauenswürdige AI) mit dem Ziel, rechtskonforme, ethische und robuste AI-Anwendungen entwickeln und nutzen zu können.
Aktuelle Diskussionen sehen die Fähigkeit für ethischen AI-Einsatz als echten Wettbewerbsfaktor, da hier funktionale, rechtliche und viele weitere Aspekte (Employer Brand, Reputation) betroffen sind.
Was hat es mit Automatisierten Empfehlungssystemen auf sich?
Sind in Wissenschaft und Praxis weit verbreitet
seit über 20 Jahren ein wichtiges Thema v.a. im Kontext Information Retrieval, Forecasting Theories, Consumer Choice Modeling und in der E-Commerce-Literatur (Recommender-Systems).
Grundansatz: Wie können Käufer unterstützt werden, Objekte zu finden, die ihren Zielen und Präferenzen am besten entsprechen?
Ein bahnbrechender Artikel, in dem auch der Begriff recommender system geprägt wurde, ist (Resnick und Varian 1997).
Zu Beginn wurde Recommender Systems (RS) äquivalent zu Collaborative Filtering verwendet. Seitdem wurden viele Erweiterungen (v.a. „hybride“
Modelle) entwickelt, die die Ansätze des content-based filtering und des collaborative filtering vereinen (zB. Melville, Mooney und Nagarajan 2002).
Bekannte aktuelle Beispiele sind Amazon-Kaufempfehlungen oder Vorschläge von Netflix für die nächste Serie.
Dahinter liegen Daten und Algorithmen, die einen „Match“ herstellen sollen zwischen den Zielen/Präferenzen einer Person und
Objekten/Produkten.
Analog zu diesen klassischen Ansätzen kann man die Verfahren hinter Empfehlungssystemen nutzen, um Bewerber (statt Produkte) zu empfehlen/selektieren.
Worauf fokussierten sich die frühen Forschungsarbeiten zu Recommender Systems?
Motiviert durch die Beobachtung drastisch zunehmender Informationsüberflutung, so dass Kunden mit der Informationsmenge zu Produkten und Dienstleistungen nicht mehr klarkamen. RS sollten einen Weg durch den Informationsdschungel aufzeigen, indem sie nur relevante Produktempfehlungen herausfiltern.
Dies geschah zunächst durch Fokus auf für den Kunden relevante Produkteigenschaften. Dieses content-based filtering hat also in P-E-Fit-Termini Produkteigenschaften gesucht, die für den Kunden
relevant sind bzw. ein Matching angestrebt zwischen needs des Kunden und supply durch Produkteigenschaften (→ Produktähnlichkeit).
Später kam mit collaborative filtering ein relationaler (sozialer) Ansatz hinzu, der ähnliche andere Käufer suchte und deren Produkte empfahl (→ Nutzerähnlichkeit).
Was ist der eine User/Item Bewertungsmatrix?
Nutzen:
Empfehlungssysteme messen Nutzen üblicherweise als Rating/Bewertung, die ein Nutzer einem Item zuweist
− Bsp.: Film- oder Produktbewertung auf 5-
Sterne-Skala)
Daten:
Wahl der verwendeten Bewertungsdaten ist abhängig von Verfügbarkeit und Beschaffungsaufwand
Was setzt Matching voraus?
„Matching“ setzt Informationen zum Zusammenhang zwischen Objekteigenschaften (auch: Objektattributen) (zB. Filmgenre oder Uniabschlussnote) und Nutzen (zB.
Präferenz/Filmbewertung, Arbeitsleistung) voraus. Die zugrundeliegenden Daten können explizit (zB. Befragung, Bewertung) oder implizit (zB. beobachtetes/interpretiertes Verhalten wie Klicks, Käufe) erfasst werden.
Was passiert in realistischen Anwendungen wenn für den Nutzen U nur wenige Bewertungen vorhanden sind?
Der Recommender versucht dann die fehlenden Werte aufgrund der vorhandenen Daten zu schätzen.
Wie funktioniert eine User-Item Bewertungsmatrix?
Die Abbildung zeigt eine typische typische Film-Recommender-Matrix mit einer 5er-Skala zur Bewertung (von 1 (Film gefällt nicht) bis 5 (Film gefällt sehr gut)). Leere Felder zeigen fehlende Bewertungen an.
Genau hier setzt das RS an und versucht, möglichst gute Werte aufgrund der vorhandenen Informationen vorherzusagen (in der Praxis häufig das Objekt mit der höchsten Bewertung, oder eine Liste mit den n besten Objekten). Die Anwendung für die Personalauswahl ist dann entsprechend das Vorschlagen des oder
der n besten Bewerber(s) aus dem Bewerbungseingangsstapel.
Welche Arten von Recommender Systems gibt es?
Content-based filtering
Collaborative-filtering
Hybrid
Was ist Content-based filtering?
− Objekt-Ähnlichkeit: Nutzt Informationen über Objekteigenschaften
− Objekteigenschaften sind meist in unstrukturiertem Textdokumenten beschrieben
(Bsp. Film: Titel, Regisseur)
− Nutzerrating des Films wird interpretiert
als Rating jeder Objekeigenschaft →Präferenzprofil des Nutzers
Das content-basierte RS fokussiert also auf
Objektähnlichkeit und empfiehlt also Objekte, die Eigenschaften mit ähnlichen, gut bewerteten Objekten teilen.
Was ist Collaborative filtering?
− Sozial, Nutzer-Ähnlichkeit
− Nutzen eines Objektes höher, wenn
ähnlicher Nutzer es gut bewertet hat
Das kollaborative RS fokussiert also auf Nutzerähnlichkeit und empfiehlt Objekte, die
ähnliche Nutzer gut bewertet haben. Ein Vorteil von Collaborative-filtering-Ansätzen ist, dass sie jedes beliebige Objekt empfehlen können, da keine Analyse von Objekteigenschaften nötig ist.
Was sind Hybride RS?
− Mischformen aus content-based und
collaborative
Was sind Memory based & Model based methods?
Gehören zu Collaborative filtering.
Memory-based CF arbeitet stets mit dem vollem Ratingdatensatz zur Ähnlichkeitsermittlung, wogegen model-based CF einige Parameter schätzen (zB. latent
factor models, die Cluster ähnlicher Nutzer generieren) und dann getrennt die Empfehlungen ermitteln, was zu besserer Skalierbarkeit auf Kosten von
Informationsverlust führt.
Die Eignung eines Verfahrens ist abhängig von den konkreten funktionalen und technischen Anforderungen, den verfügbaren Daten, dem zu bewertenden Objekt, etc.
Was ist notwendig für Content-based filtering?
Beschreibung von Objekten (Objektattribute)
Was macht ein Content Based RS?
Content-based RS vergleicht noch nicht bewertete
Objekte mit bewerteten und schlägt diejenigen
vor, die den gut bewerteten am meisten ähneln.
Bsp. Buch:
Attribute: Titel, Autor
Nutzerbewertung des Buches → Bewertung der
Objektattribute
RS kreiert Nutzerpräferenzprofil und sucht andere Objekte mit ähnlichen Attributen wie bei gut bewerteten Objekten, also zB. andere Bücher des selben Autors
Wo finden Content based RS anwendung?
Content-based RS finden sich vor allem für Objekte, die textuell beschrieben sind wie Dokumente oder Websites.
Attribute sind dann meist Schlüsselworte, die ermittelt und gewichtet werden müssen.
Gewichtung gibt Bedeutung der Schlüsselworte für das Dokument an.
Wie im Information Retrieval üblich, wird hierzu term frequency/inverse document frequency (TF-IDF) verwendet
Nenne einen Beispielprozess für Content Based RS?
- Objekte müssen anhand ihrer Eigenschaften beschreibbar sein • z.B. Titel und Autor eines Buchs
- Bewertungen für Objekte werden als Bewertungen
für dessen Eigenschaften interpretiert - Generierung eines Nutzer- Präferenzprofils
- Suche nach Objekten mit ähnlichen Eigenschaften
Übertrage die klassische RS Sicht auf die Personalauswahl?
Sind die Bewerberattribute zB. die Inhalte des Lebenslaufes. Die Passgenauigkeit oder der Fit beschreibt dann, wie gut eine Person zu einer Rolle im Unternehmen passt bzw. inwieweit der Kandidat über die Fähigkeiten, das Wissen und die Erfahrung verfügt, die nötig sind, um alle mit der zu besetzenden Position verbundenen Tätigkeiten adäquat erfüllen und erfolgreich in dem Job-Profil arbeiten zu können.
Die Analogie zur Nutzerbewertung sind dann zB. Daten
zur Arbeitsleistung bisheriger Rollenträger (zB.: Doktoranden mit Eigenschaften X und Y
haben mind. Z% der Anforderungen erfüllt).
Wieso ist die Aufstellung einer word/document matrix bei Content based filtering notwendig?
Objekteigenschaften entsprechen bei Texten deren Keywords:
Keywords müssen extrahiert und hinsichtlich ihrer Bedeutung für das Dokument gewichtet werden
Was ist TF bei der TF/IDF?
Term Frequency (TF) ist die normalisierte Schlüsselworthäufigkeit in einem Dokument.
Was ist IDF bei TF/IDF?
Inverse document frequency (IDF) wird verwendet, um den Einfluss in vielen Dokumenten häufig vorkommender Wörter zu reduzieren, die daher kaum
interpretierbar sind.
Was ergibt die Kombination aus TF und IDF?
Die Kombination von TF und IDF ergibt das Gewicht (weight w(i, j)) eines Schlüsselwortes (keyword (i)) in einem Dokument (document (j)).
Was bringt die Kosinusähnlichkeit?
Ähnlichkeiten zwischen Objekten können durch die
Kosinus-Ähnlichkeit errechnet werden.
Eine möglicher Content-based-filtering-Ansatz auf Basis der TF-IDF-Kombination nutzt die Kosinusähnlichkeit (standard cosine similarity function), um aus bestehenden Nutzerratings ein Präferenzprofil zu erstellen. Um die Ähnlichkeit zwischen einem
Nutzerpräferenzprofil und einem noch nicht bewerteten Dokument vorherzusagen, werden Nutzerprofil und Objekt als TF-IDF-Vektoren dargestellt.