Connaissances en TIC 1

Savez-vous ce que sont les jeux de caractères codés (ASCII, ANSI, Unicode et UTF-8) ? (8/31)

Solution

La relation entre un caractère et son encodage est établie par l'attribution à chaque caractère d'une valeur numérique appellée "point de code". Le nombre de points de code disponibles dépend du nombre de bits disponibles.

Un jeu de caractères codés à 8 bits peut encoder 256 caractères. Cela est généralement suffisant pour encoder les caractères utilisés dans les écritures alphabétiques comme l'arabe, l'anglais et le grec. Un jeu de caractères encodés à 16 bits peut encoder 65 536 caractères. Cela suffit à fournir un minimum utilisable par un système d'écriture idéographique comme le chinois.

Plutôt que de travailler avec des bits simples ou des séquences de bits d'une longueuer indéterminée, les ordinateurs ont tendance à travailler avec des groupes définis de bits connus sous le nom d'octets. Ceux-ci sont connus en tant qu'octets. D'une manière générale, les octets sont composés de 8 bits. Une fois la relation entre le caractère et les points de code établie, un ordinateur doit être dans la mesure de relier chaque point de code à un octet ou à une séquence d'octets. Il en résulte un schéma d'encodage de caractères.

[DE: ASii] — Il existe 95 caractères ASCII portant les numéros 32-126.

ASCII (code binaire/double)

La norme ASCII (American Standard Code for Information Interchange) permet l'encodage de données dans un code binaire. A l'origine il s'agit d'un jeu de caractères encodé à 7 bits et permettant l'échange d'informations. Ce jeu de caractères a été proposé par l'Institut national américain de normalisation (ANSI - American National Standards Institute) en 1963 et mis au point en 1968 alors qu'un grand nombre d'ordinateurs travaillait avec des groupes à huit bits (octets), la plus petite unité d'information.

Par la suite le code ASCII a dû être étendu car le nombre de symboles utilisés dans les langues ordinaires naturelles dépassaient ses capacités. Le nouveau code ASCII étendu ou high-ASCII décrit l'encodage de caractères à huit bits ou des encodages plus vastes (128 codes) comprenant entre autres les caractères standards à sept bits ASCII. De cette manière, un grand nombre de langues qui n'étaient pas aisément convertibles en ASCII peuvent être prises en compte.

Cependant, le code ASCII étendu n'est toujours pas suffisant pour prendre en compte toutes les langues et les extensions à huit bits ont besoin de variantes locales. ASCII signifie le texte en clair. Un "fichier ASCII" est donc un fichier de texte seul et non-formaté. ASCII est communément utilisé pour transmettre des données et a été développé comme norme de télécommunication.

ANSI

Il s'agit d'un jeu de caractères basé sur le jeu de caractères 256 ASCII. Il inclut des caractères spéciaux et spécifiques aux différents pays et est particulièrement important pour des logiciels fonctionnant sous MS-DOS, comme Windows. ANSI est également le nom collectif utilisé par Microsoft pour toutes les pages de codes Windows.

Unicode

A cause de l'incompatibilité des systèmes de codage des différents pays, de la complexité d'échanger des données codées dans des standards différents et du problème lié à l'utilisation de plus d'une langue dans un même texte, un essai visant à créer un jeu unifié de caractères a été réalisé dans les années 1980. Unicode (aussi connu sous le nom d'ISO 10646) en a été le résultat. Il attribue un code à chaque caractère graphique ou élément de chaque alphabet et système d'écriture du monde. Unicode peut être défini comme la norme universelle d'encodage de caractères qui fournit dans tout logicel moderne et dans tout protocole des technologies de l'information, quelle que soit la langue utilisée, les bases au traitement, au stockage et à l'échange de données de textes.

UTF-8

Unicode Transformation Format, forme d'encodage à 8 bits, rend Unicode compatible avec les environnements qui avaient été conçus entièrement autour d'ASCII, tels qu'Unix, Linux ou d'autres systèmes similaires.

UTF-16

Unicode Transformation Format, forme d'encodage à 16 bits, utilise deux octets de 8 bits pour chaque point de code sur le Bit Mapped Protocol (BMP). Cela le rend plus compact que l'UFT-8 pour les caractères chinois, japonais et coréens (CJK), mais moins compact lors de l'utilisation de caractères tels que les lettres latines qui tiendraient dans un seul octet en UFT-8. Dans les applications Microsoft, l'UFT-16 est connu comme Unicode alors que l'UFT-8 est connu en tant qu'Unicode (UFT-8).

Le tableau suivant montre quelques exemples de données Unicode :

Origine	Nom	Origine	Nom
Bhoutan	Gonpo Dorji (acteur)	འབྲུག་ཡུལ།	མགོན་པོ་རྡོ་རྗེ།
République Tchèque	Antonin Dvorak (compositeur)	Česko (Česká republika)	Antonín Dvořák
Inde (Hindi)	Madhuri Dixit (star de cinéma)	भारत	माधुरी दीक्षित

Pourquoi cette information est-elle importante pour les traducteurs et les professeurs de traduction ?

Selon le type d'alphabet utilisé différents jeux de caractères standards sont utilisés pour coder l'information. De plus, lorsqu'un client envoie un texte à traduire dont les données sont codées selon un jeu de caractères standard national et que le traducteur ouvre le fichier sur un ordinateur ayant un jeu de caractères différent, alors des problèmes risquent de survenir. Les traducteurs et les professeurs de traduction doivent savoir ce que sont les jeux de caractères encodés et comment les utiliser afin d'éviter de telles situations. Les jeux de caractères codés ne sont pas simplement importants pour afficher des données à l'écran, ils le sont aussi lorsque l'on échange et trie des données (les mots simples de la plupart des langues asiatiques) ou utilise des mémoires de traduction.