Hashing Flashcards

Question

Defina hashing perfecto.

Answer 1

Una función de hashing perfecta es aquella que no tiene colisiones, esto garantiza O(1) para cualquier búsqueda de claves.

Answer 2

Empecemos pensando una forma muy ineficiente de realizar hashing perfecto: usando una tabla de hashing muy grande. Por ejemplo si tenemos m claves a insertar queremos saber cuál deberı́a ser el tamaño de una tabla de hash de forma tal que la probabilidad de una colisión sea menor a 1/2. Haciendo algunas cuentas llegamos a que la tabla debe tener un espacio de direcciones de m 2 . Si llamamos m al espacio de claves y n al espacio de direcciones entonces la probabilidad de una colisión es m/n. Si n = m^2 entonces la probabilidad de una colisión es 1/m, que es lo que queremos. El problema es que si tenemos 1 millón de claves no podemos tener una tabla de hash con capacidad para 1 billón de datos porque es un desperdicio muy grande de espacio y probablemente no tengamos lugar suficiente.

Answer 3

La solución a este problema es usar dos funciones de hashing en lo que conocemos como esquema FKS. Nuestra primera función de hashing va a tener un espacio de direcciones que podemos fijar como parámetro, llamémoslo k, siendo k un número primo cercano a m. A efectos de simplificar suponemos k = m. Cada uno de los k = m buckets apuntados por la primera función de hashing contiene un número que es la cantidad de claves que hashearon a esa posición (m_i), y una segunda función de hashing cuyo espacio de direcciones es (m_i)^2 (o el número primo más cercano a (m_i)^2). Esta función de hashing la tomamos de una familia universal hasta estar seguros de que no tenemos colisiones.

Answer 4

El esquema FKS garantiza O(1) para la recuperación de claves y el costo de espacio es 2m. El costo de la primera tabla es m y el de la segunda es sum(i=0 a m-1 de) (m_i)^2

Answer 5

Si se pueden dar de alta y de baja los datos.

Answer 6

Hashing perfecto y dinamico. Si tenemos m claves construimos una función perfecta para 2m claves usando el esquema FKS. Esta sirve hasta que tengamos 2m claves, en cuyo caso reconstruimos la función de hashing para 4m elementos. Como antes, si tenemos una colisión en la tabla de segundo nivel, simplemente reconstruimos la tabla eligiendo otra función de hashing de nuestra familia H. Esto no ocurre muy seguido por lo que el costo es bajo. Si eliminamos elementos hasta que tenemos m/4 claves en total, entonces reconstruimos la tabla para m (no para 2m), ya que si borramos lo suficiente podemos reconstruir a la mitad del tamaño. La posibilidad de mantener una función de hashing perfecta con bajo costo para datos dinámicos es una de las caracterı́sticas más importantes del esquema FKS.

Answer 7

Esto sólo es posible cuando conocemos cuáles son todas las claves que queremos almacenar en la tabla y los datos son estáticos. Cuando eso pasa es posible desarrollar una función que mapee cada clave a una única posición de forma tal de no tener colisiones.

Answer 8

Necesitamos una familia de funciones de hashing universales que podamos parametrizar con un número entero h(i, x). Las funciones de esta familia nos generan un número entre 0 y n − 1 que es la cantidad de claves que tenemos. En un primer paso vamos a hashear todas las claves a una tabla G usando h(0, x) y encadenando los sinónimos. El resultado es una simple tabla de hash con encadenamiento de sinónimos. Vamos a usar un vector de n bits para marcar qué valores ya hemos usado en la construcción de la función de hashing perfecta. Inicialmente este vector está en 0. En un segundo paso vamos a recorrer esta tabla ordenando los buckets que tengan 2 o más claves, de acuerdo a la cantidad de sinónimos en los mismos de mayor a menor. Es decir, procesamos primero el bucket (lista) con mayor cantidad de colisiones. Por cada bucket probamos funciones de hashing h(i, x) con i = 1, 2, ..., etc hasta encontrar una función que nos distribuya las claves en posiciones que aun no hemos usado para nuestra función de hashing. Notemos que inicialmente no hemos usado ninguna función, por lo que es muy probable que encontremos rapidamente una función de hashing que no produzca colisiones para las claves del primer bucket (frecuentemente h(1, x) funciona). Luego seguimos con el resto de los buckets, teniendo en cuenta que las posiciones que ya hemos usado anteriormente no podemos volver a usarlas. En cada caso, una vez que encontramos la función en la tabla G, ponemos el valor de i que corresponde a la misma. Luego del segundo paso solo nos quedan los buckets que tienen un solo registro. Estos los vamos a distribuir en las posiciones que quedaron libres simplemente indicando la posición en la tabla G. Para distinguir este caso de algún valor de i, lo vamos a marcar con un número negativo. La función h(0, x) y la tabla G nos determinan entonces la función de hashing perfecta y mı́nima. Para buscar una clave usando esta función usamos primero h(0, x). Esto nos da una posición en la tabla G. Accediendo a esta tabla, observamos si el número allı́ almacenado es positivo o negativo. Si es negativo entonces el valor absoluto del mismo nos da el resultado de la función de hashing. Si el número es en cambio positivo, z, el valor de la función de hashing es h(z, x).

Answer 9

Este algoritmo puede complementarse comprimiendo los números en la tabla G para que ocupen aun menos espacio, esto es factible ya que en general se trata de números pequeños en el caso de los positivos y de números cuyo valor absoluto es ascendente para los negativos. Aprovechando estas caracterı́sticas podemos usar alguna técnica de compresión de datos para que los números ocupen poco lugar minimizando la cantidad de memoria necesaria para la función de hashing.

Answer 10

El objetivo es poder determinar dado un dato (clave,valor), en qué equipo debemos almacenar el dato.

Answer 11

El principio es muy simple. Mapeamos cada máquina de nuestro cluster a un número en el intervalo [0, 1). Esto se puede hacer simplemente hasheando el nombre del equipo y normalizando al intervalo [0, 1). Lo mismo hacemos con nuestras claves. Hasheamos cada clave y normalizamos el resultado a un número en el intervalo [0, 1). El esquema que llamamos ”Hashing Consistente” propuesto en [54] es muy simple: a cada clave se le asigna el número de máquina o servidor que se encuentre inmediatamente a su derecha en el intervalo [0, 1), tomando el intervalo de forma circular.

Answer 12

Me da fiaca ponerlo aca; igual es sencillo.

Answer 13

En cada dimensiones se suma o resta 1, no solamente suma.

Answer 14

El efecto más interesante de este método es que el producto interno entre los vectores en nuestra nueva representación es equivalente al producto interno entre los vectores en el espacio original, lo cual admite el uso de THT para crear Hash Kernels en donde usamos el producto interno entre los nuevos vectores para estimar la semejanza entre dos vectores (a mayor producto interno más semejantes son los vectores).

Answer 15

ara todo conjunto de n datos en d dimensiones y una cierta tasa de error 0 < epsilon < 1 existe un entero positivo k de la forma: k = 4 log(n) (1)/(eps^2/2 - eps^3/3) Lo que el teorema nos dice, en definitiva es que es posible representar a los datos en una cantidad de dimensiones en el orden de O(log(n)), siendo n la cantidad de datos, de forma tal que las distancias en el nuevo espacio dimensional sean muy similares a las distancias entre los puntos en el espacio original.

Hashing Flashcards

(39 cards)