2. dia UNICODE Flashcards
Unicode
Univerzális karakterkódolási szabvány írott karakterekhez és szövegekhez. Lefedi a világ összes modern és ősi nyelvének összes karakterét. Tartalmaz még szimbólumokat, írásjeleket és sok más karaktert. Széles körben használt és támogatott. Fejlesztője az Unicode Consortium non-profit szervezet.
Kódtér
A karaktereket kódoló egész számok tartománya.
Kódpont
A kódtér egy eleme, egy karaktert kódoló egész szám. 4-6 hexadecimális számjeggyel ábrázolandó. A vezető nullák elhagyhatóak ha 4 számjegy megvan nélkülük. Kötelező az U+ előtag.
BMP (Basic Multilingual Plane)
Az első 65536 kódpontot tartalmazó sík. A gyakran használt karaktereket tartalmazza, a világ összes karakterrendszeréhez, valamint számos történelmi és ritka karaktert is tartalmaz.
UTF-32
Minden kódpont ábrázolása 4 byte-on történik. Ez a legegyszerűbb karakterkódolás. Feldolgozás szempontjából ez a leghatékonyabb, azonban tárolás szempontjából a legkevésbé hatékony.
UTF-16
Minden kódpont ábrázolása 2 vagy 4 byte-on történik. A BMP karaktereinek ábrázolására van optimalizálva. Kompromiszzumot képvisel a hatékony hozzáférés és a hatákony tárhasználat között.
UTF-8
A kódpontok ábrázolása 1 és 4 byte között történik. Egy kódpontot ábrázoló byte-sorozat első byte-ja meghatározza a sorozat hosszát. Használt byte-ok számának tekintetében a legtömörebb, viszont nem hatékony a kelet-ázsiai írásrendszerek feldolgozása esetében.
ISO/IEC 8859-2 (Latin 2)
A közép-európai nyelvekhez használt 8-bites karakterkódolási szabvány.
CSS
Unikód karakterek megadásához a “\hhhhhh” formátumot használjuk. Ha 6 számjegynél kisebb a szám akkor tetszőleges whitespace karaktert kell a végére tennünk.
JSON
Sztringekben a BMP-hez tartozó Unicode karakterek megadhatók a “\uhhhh” formátumban.
XML, HTML
Szövegekben, attribútumértékekben és literális egyed értékekben Unicode karakterek kifejezhetők így:
&#nnnn (decimális az n)
&#xhhhh (hexadecimális a h)