Page Rank Flashcards
Por que fallaban los metodos iniciales de busqueda en la red y que propone el nuevo metodo, page rank?
- Métodos Iniciales de Búsqueda en la Web vulnerables a la edición de contenido (term spam), ya que estaban basados en el contenido de los documentos.
- PageRank introdujo un nuevo concepto: “Importancia” para rankear documentos basandose en las conexiones (links) a través de la simulación de la navegación de usuarios a través de ellas.
Random walkers.
- Un navegante aleatorio puede comenzar por cualquier página de la web.
- Selecciona un link al azar de página en la que se encuentra y navega a la nueva página.
- Vuelve a repetir este proceso n veces (método iterativo).
- La importancia (PR) de cada una de las páginas estará dada por la probabilidad de que el navegante termine allí luego de n iteraciones (siendo n un valor grande).
Que caracteristicas se deben cumplir para que el modelo de random walkers funcione?
- el grafo debe ser una componente fuertemente conexa
- no debe haber dead ends.
Como se mitigan los dead ends?
La solución consiste en adicionar links a todos los nodos desde el dead end, volviendo a la matriz estocástica.
Que son los spider traps?
Los Spider Traps son un conjunto de páginas sin salida, principalmente se puede ver que {B, D, E} representan un spider trap y si un navegante aleatorio llegara a ellas, no podría salir.
En relación al pagerank se vería acumulado por la páginas en el spider trap y el de A, C serian 0.
Como se mitigan los spider traps?
La solucion a este problema es la Teletransportacion, la cual fue la gran innovación de Google:
Se modifica el cálculo de PageRank para darle a cada navegante aleatorio una pequeña probabilidad de teletransportarse (ir a cualquier otra pagina de las paginas posibles) con el factor beta (suela estar entre 0.8-0.95).
Este cambio sigue asegurando que la matriz sea Estocástica.