Prüfungsfragen zu Link-Analyse Flashcards
Welche Rolle spielen links und Ankertexte bei der Web-Suche?
Eine Suche mit Dokument text und anchor text zu dem Dokument ist erfolgreicher als nur die Suche mit Dokument Text. Das liegt daran, dass 1. Unternehmen oft Ihre Dokumente anders beschreiben als Nutzer es würden, nur aus Gründen der Vermarktung oder 2. ein Dokument wenig Text enthält (enthält Bilder, Videos, etc.). Der Achortext ist in manchen Fällen sogar eine bessere Beschreibung der Seite.
Anchortext wird aus diesem Grund mehr gewichtet als Dokument-Text selber. (Spielt eine größere Rolle bei der Suche.)
z.B. IBM’s Homepage enthält den Term “Computer” nicht ein mal, wobei die in-links zu der Page enthalten “Computer”. IBM ist der größte Computer-Hersteller. Ein Benutzer erwartet vielleicht, dass eine Suche nach Computer IBM’s Homepage zurückliefert. Das passiert nur mit der Suche auch mit anchortexte
Webseiten können auch Achortext benutzen um Spam zu erzeugen. Eine Seite kann z.B. Anchortext das auf sich selbst zeigt, um diese Terme als Suchterme für die Seite zu forzieren.
Eine “Google Bombe” ist eine Suche mit schlechten Ergebnisse verursacht durch manipulierte Anchortexte. Z.B. [evil empire] -> Church of Scientology
Erklären Sie das random surfer-Modell!
Das Random Surfer Modell/Web Walk ist eine Erklärung für Markov Chains, was für page-Rank benutzt wird, um SteadyState Wahrscheinlichkeit einer Webpage zu berechnen.
Um eine Besuchs-Wahrscheinlichkeit (noch nicht Page-Rank) zu einem Knoten A im WEb-Graphen zu berechnen:
Hier steht ein Surfer auf einem Knoten A im Web-Graphen. Es gibt zwei Funktionen: TELEPORTIEREN und SURFEN. Es gibt N Knoten im Graphen. alpha is the “teleportion rate”
Wenn Knoten keine Outlinks hat, dann muss er teleportieren zu einem beliebigen Knoten. Wenn er n outlinks hat, gibt es die gleiche Wahrscheinlichkeit per Outlink, dass er eine davon folgt. Die Wahrschienlichkeit besucht zu werden ist von einem Knoten A ist also (1-alpha)*1/n + alpha/n) für Knoten die Outlinks sind oder alpha/n für Knoten die keine Outlinks von A sind.
Wie berechnet man den Page Rank einer Seite?
Wenn der Surfer diese Schritte folgt, dann besucht er jeden Knoten v vom Graphen einen Bruchteil der Zeit, dass vom Graphen und vom alpha abhängt.
PageRAnk = long-term visit rate
long-term visit rate = der Wahrscheinlichkeitswert einen Knoten zu besuchen nach vielen Übergängen. (bleibt konstant dann)
Wie unterscheidet sich das HITS-Modell von PageRank?
HITS-Modell macht eine Unterscheidung von Art der Relevanz, wobei PageRank das nicht macht.
Relevanz-Arten: Hubs und Authorities. Hubs enthalten eine Liste von Links zu Authorities. Authorities sind die Antworten selbst auf die Anfrage
Z.B. bei der Suche nach Flugticketpreise,
Hubs sind z.B. Broker mit Links zu Airlines.
Authorities sind die Airlines mit echten Preisen.
HITS-Modell berechnet ein Hub-Score und Authorities-Score
-> zwei Ranked listen mit top Hubs und top Authorities