B1-Sistemas de codificación Flashcards
¿Qué es la codificación de datos?
Es el proceso de convertir información en un formato legible por un ordenador para su almacenamiento y procesamiento.
Tipos de codificación que existen
Codificación binaria
Codificación de caracteres
Codificación de imagenes
Codificación de audio
Codifcación de vídeo
Codificación binaria
Codificación más básica que utiliza sólo dos símbolos, 0 y 1, para representar información. Es comúnmente utilizado en sistemas digitales.
Codificación de números
Para enteros:
Binario (base 2): 0, 1
Octal (base 8): 0, 1, 2, 3, 4, 5, 6, 7
Decimal (base 10): 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
Hexadecimal (base 16): 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F
BDC numeración
Complemento a dos
Coma flotante para los números decimales
BCD (Binary Coded Decimal)
Se utiliza para representar valores enteros sin signo. Se utilizan 4 bits para codificar cada dígito (unidad, decena, centena …) del valor decimal, por lo que la conversión es inmediata.
Aiken
Código similar al código BCD natural con los “pesos” o “valores” distribuidos de manera diferente. En el código BCD natural, los pesos son: 8-4-2-1, en el código Aiken la distribución es: 2-4-2-1.
Complemento a dos
Es una forma de representar números negativos en el sistema binario. Se le suma 1 al numero resultante de invertir cada bit.
Base64
Es un sistema de numeración posicional que usa 64 como base. Es la mayor potencia que puede ser representada usando únicamente los caracteres imprimibles de ASCII.
La mayoria de esquemas usan el rango de caracteres A-Z, a-z y 0-9 en este orden para los primeros 62 dígitos
Se usa para codificación de correos electrónicos, PGP y otras aplicaciones.
Código ASCII (American Standard Code for Information Interchange)
Código de caracteres basado en el alfabeto latino, tal como se usa en inglés moderno. Consiste en una tabla numérica que asocia un código numérico de 7 bits consecutivos, el código binario formado por unos y ceros, a cada una de las letras, números y otro tipo de caracteres (signos de puntuación, símbolos, caracteres especiales, etc.).
Caracteres ASCII
Tiene 32 caracteres no imprimibles + otros 95 caracteres imprimibles que les siguen en la numeración (empezando por el carácter espacio).
ISO 8859-1 o Latin 1
Es una norma de la ISO que define la codificación del alfabeto español, incluyendo los diacríticos (como letras acentuadas, ñ, ç), y letras especiales. En total utiliza 8 bits.
¿Qué es Unicode?
Estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de numerosos idiomas y disciplinas técnicas, además de textos clásicos de lenguas muertas.
El término Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad, y unicidad.
Define cada carácter o símbolo mediante un nombre e identificador numérico, el punto de código (code point).
Formas de codificación Unicode
Los puntos de código se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8, 16 o 32 bits para representar dichos enteros
Así se definen tres formas de codificación bajo el nombre UTF, con diferentes formas de codificar puntos de código.
UTF-8 (8-bit Unicode Transformation Format)
Codificación orientada a byte con símbolos de longitud variable.
Un caracter puede ocupar de 1 a 4 bytes (long variable)
Características de UTF-8
Es capaz de representar cualquier carácter Unicode.
Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode).
Incluye la especificación US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se representa sin cambios.
Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación.
No superposición. Los conjuntos de valores que puede tomar cada byte de un carácter multibyte, son disjuntos, por lo que no es posible confundirlos entre sí.
UTF-16
Codificación de 16 bits de longitud variable optimizada para la representación del plano básico multilingüe (BMP).
Características de UTF-16
Es capaz de representar cualquier carácter Unicode.
Utiliza símbolos de longitud variable: 1 o 2 palabras de 16 bits por carácter Unicode (2 o 4 bytes). La unidad de información es la palabra de 16 bits.
Está optimizado para representar caracteres del plano básico multilingüe (BMP) y caracteres del rango U+0000 a U+FFFF.
UTF-16 puede ser considerado una forma de codificación con símbolos de tamaño fijo (16 bits).
No superposición: Los símbolos de 1 palabra (16 bits) utilizan un subconjunto de valores que no puede utilizarse en símbolos de 2 palabras (32 bits).
UTF-32 o UCS-4
Codificación de 32 bits de longitud fija, y la más sencilla de las tres.
Características de UTF-32
Utiliza exactamente 32 bits (cuatro bytes) por punto de código (pero debe haber una cantidad de bits iniciales que deben ser cero).
Cada valor de 32 bits en UTF-32 representa un punto de código Unicode y es exactamente igual a ese valor numérico de punto de código, con la ventaja de que los puntos de código Unicode están indexados directamente.
Codificación de imágenes
Las imágenes se pueden codificar utilizando diferentes formatos, como JPEG, PNG, BMP, etc. Cada formato de imagen utiliza diferentes algoritmos de compresión y descompresión.
Gráficos (png, jpeg, tiff)