Compresion Flashcards

Question

Que ventajas trae Deflate respecto de LZ77?

Answer 1

- Esto introduce mejoras respecto al LZSS: en primer lugar ya no hace falta distinguir con un bit en 0 o 1 si se trata de un match o no. Cuando se emite un caracter no hay match y cuando se emite una longitud hay match. El de- scompresor sabe que si descomprime una longitud lo siguiente será una posición mientras que si descomprime un literal lo siguiente es o bien un literal o bien una longitud (mismo árbol). - Una segunda ventaja es que se puede aprender cuáles son los caracteres literales mas frecuentes en el archivo y usar menos bits para los mismos. También se puede aprender cuáles son las longitudes mas frecuentes en los matches y usar menos bits para estas longitudes que para las que son no tan comunes. Esto implica un importante ahorro de bits que termina generando un mejor nivel de compresión que LZSS.

Answer 2

La idea principal de LZW es la misma que la de todos los algoritmos de la familia LZ: reemplazar secuencias previamente observadas por un código que las represente. LZW logra esto mediante la utilización de una tabla o diccionario en donde va almacenando las secuencias previamente observadas en el archivo. De esta forma cuando encuentra alguna secuencia que ya vio simplemente la reemplaza por el ı́ndice de la misma en el diccionario o tabla. Inicialmente LZW comienza con una tabla de 512 posiciones en donde las primeras 256 entradas ya están llenas con las 256 combinaciones posibles de 8 bits y las restantes 256 posiciones están vacı́as. Cada posición de la tabla se representa lógicamente mediante 9 bits.

Answer 3

Cuando la tabla se completa, el compresor duplica la tabla y comienza a emitir códigos de 10 bits en lugar de 9. Este proceso se repite tantas veces como sea necesario. Puede prestar a confusión en qué momento el compresor comienza a emitir sı́mbolos de 10 bits. Esto puede ocurrir o bien cuando se llena la tabla o bien un sı́mbolo más adelante. Se pueden adoptar las siguientes dos polı́ticas: 1. Duplicar la tabla y emitir el próximo código en 10 bits 2. Emitir el próximo código en 9 bits y luego duplicar la tabla para agregar el sı́mbolo nuevo No hay un standard por lo que lamentablemente muchos compresores y descompresores LZW necesitan algún tipo de flag para indicar cuál de estas dos polı́ticas han usado. El formato PDF usa LZW y admite ambas polı́ticas de actualización del diccionario mediante un flag.

Answer 4

Se ha visto que en LZW a medida que se agregan strings en el diccionario se emiten cada vez mas bits. Llega un punto en el cual el nivel del compresor puede ser malo, esto se debe a que tiene en la tabla muchos strings que ya no vuelven a ocurrir en el archivo y por lo tanto está generando códigos mucho mas grandes de lo necesario. Cuando el compresor detecta que el nivel de compresión (bits x byte) no es bueno puede usar un sı́mbolo especial para avisarle al descompresor que tiene que hacer una purga de la tabla. Para esto se puede, por ejemplo, dedicar los sı́mbolos 256,257,etc empezando a guardar los strings a partir del 258 o mas adelante, todo depende de cuantos ”comandos” querramos tener a nuestra disposición en el compresor. Algunos de estos comandos pueden ser por ejemplo: 1. Eliminar todas las tablas, volver a 9 bits 2. Eliminar de las tablas los sı́mbolos menos usados para pasar a 1 bit menos 3. Eliminar de las tablas todos los sı́mbolos que se emitieron menos de x veces (x sigue a continuación en ”m” bits)

Answer 5

Como hemos mencionado que comprimir es modelar y codificar debemos notar que en LZW la codificación no es óptima, esto es muy fácil de demostrar puesto que al empezar con códigos de 9 bits podemos emitir 512 sı́mbolos diferentes, de los cuales solo 256 son posibles, luego solo 257 son posibles y ası́ sucesivamente, es decir que existen códigos que el compresor nunca puede emitir. Por ejemplo, el segundo código emitido puede ser a lo sumo 256 pero nunca 257 o superior. El descompresor también sabe esto pero sin embargo no hay forma de solucionarlo. Estos códigos imposibles hacen a la ineficiencia de LZW ya que no cualquier archivo es algo que se pueda descomprimir con LZW. Una forma de solucionar esto es usando compresión aritmética, en donde al principio tenemos 256 elementos en la tabla, todos equiprobables y luego al agregar el primer string al diccionario pasamos a tener 257 sı́mbolos y ası́ sucesivamente. La codificación aritmética como sabemos solo necesita −log 2 (1/257) = 8.00562454 bits que es mucho menos que los 9 bits que emitirı́amos en la versión tradicional de LZW.

Answer 6

Es posible usar LZ78 para estimar la complejidad de un string[60] desde el punto de vista de este compresor. La complejidad se define simplemente como la cantidad de patrones diferentes que ocurren en el string. Por ejemplo si tenemos el string 010101011 empezamos con el primer bit 0 y lo agregamos a la tabla. El segundo bit 1 no está en la tabla por lo que lo agregamos. Luego leemos 0 que ya fue visto ası́ que leemos otro bit: 01 no está en la tabla y lo agregamos. De esta forma continuamos y nos queda algo de tipo: 0|1|01|010|11| con lo cual estimarı́amos que la complejidad LZ de este string es 5. Es evidente que en un string o archivo en donde hay muchos patrones repetidos conllevará a tener una complejidad baja mientras que en un string o archivo completamente aleatorio eventualmente se tendrı́a una gran cantidad de patrones diferentes. Es posible usar esto para calcular la entropı́a de acuerdo a un compresor LZ simplemente calculando la probabilidad de cada patrón que es la cantidad de veces que el mismo ocurre en el archivo dividido la cantidad total de patrones encontrados. En un archivo aleatorio, se obtendrı́a algo del estilo 0|1|01|10|11|00|001|100|010|011|101. En este caso, la frecuencia de todos los patrones es 1 y la cantidad total de patrones depende de la longitud del archivo. Se tendrán siempre 2 patrones de longitud 1, 4 patrones de longitud 2, 8 patrones de longitud 3, etc. Eventualmente se puede probar que para un archivo random la entropı́a de acuerdo a la complejidad LZ es igual a la entropı́a simplemente calculando la probabilidad de cada bit es decir igual a la longitud del archivo mismo.

Answer 7

En Snappy el primer byte de cada bloque indica en sus primeros 2 bits el tipo de dato que sigue a continuación: ``` 00 = literales 01 = 1 byte match 10 = 2 byte match ``` Literales Cuando se indican literales (primeros dos bits =00) los siguientes 6 bits se usan para la longitud de los mismos de la siguiente forma: 0 a 59: Cantidad de literales 1 a 60 60: La cantidad de literales se indica en el proximo byte. 61: La cantidad de literales se indica en los proximos dos bytes. 62: La cantidad de literales se indica en los proximos tres bytes. 63: La cantidad de literales se indica en los proximos cuatro bytes. Matches Los matches de longitud 4 a 11 con offsets 1 a 2047 se almacenan usando 1 byte extra. La longitud del match menos 4 se almacena en los primeros 3 bits de los 6 bits que sobran en el byte de control. Los restantes 3 bits y los 8 bits del byte siguiente se usan para almacenar el offset.

Answer 8

En cada paso LZMA puede generar 7 códigos diferentes, a saber: - literal - match: es un match en el estilo de LZSS indicando longitud (len) y distancia en el buffer al mismo. - shortrep: es un match de longitud 1 cuya distancia es igual a la distancia anterior emitida - longrep[0]: es un match cuya longitud se indica y cuya distancia es igual a la i-ésima distancia anteriormente emitida, es decir la última para LONGREP[0], la ante-última para LONGREP1 y ası́ sucesivamente. - longrep[1] - longrep[2] - longrep[3]

Answer 9

Un archivo está localizado cuando en determinadas zonas del mismo hay preponderancia de un cierto conjunto de caracteres.

Answer 10

[ver ejemplo en apunte]

Answer 11

[ver ejemplo en apunte]

Answer 12

Los pasos a seguir en block sorting son los siguientes: - aplicar transformacio de Burrow-Wheeler - Aplicar MTF - aplicar algun compresor aritmetico.

Answer 13

PAQ es un compresor aritmético que funciona bit a bit, es decir que por cada bit a comprimir del archivo PAQ estima la probabilidad de que dicho bit sea 1 o 0 y subdivide el intervalo actual de acuerdo a dichas probabilidades quedándose con el intervalo que le corresponde al bit leı́do del archivo. Cuanto mejor sea capaz PAQ de estimar las probabilidades menos bits va a necesitar para representar la precisión necesaria para el siguiente intervalo y por lo tanto el archivo comprimido va a ser mas pequeño. Para llegar a la probabilidad del 1 y el 0 PAQ va a combinar la predicción de varios modelos que se detallarán luego. Suponiendo que tenemos ”n” modelos y que cada uno de ellos calcula la probabilidad de que el próximo bit sea un 1, lo que PAQ necesita es encontrar pesos de forma tal que la probabilidad final de que el bit sea 1 surja del promedio ponderado de las probabilidades de todos los modelos utilizados. Estos pesos en PAQ surgen de una red neuronal. El funcionamiento es en realidad muy simple, todos los bits anteriores y las predicciones de los modelos sirven como set de entrenamiento.

Compresion Flashcards

Se omite: - entropia conjunta y condicional - informacion mutua - entropia relativa - entropia cruzada (37 cards)