Skip to main content
Habilidades en las TIC 1

¿Sabe qué son los códigos de representación de caracteres (ASCII, ANSI, Unicode y UTF-8)? (8/31)

Averiguar

La relación entre un carácter y su codificación se establece asignando un valor numérico llamado "punto de código" a cada carácter. La cantidad de puntos de código disponibles depende de la cantidad de bits disponibles.

Un grupo de caracteres de 8 bits puede codificar 256 caracteres. Normalmente esto es suficiente para codificar los caracteres que se usan en escrituras alfabéticas como el árabe, el inglés o el griego. Un grupo de caracteres de 16 bits puede codificar 65,536 caracteres. Esto puede proporcionar un mínimo viable para un sistema de escritura ideográfico, como el que se usa en chino.

En lugar de trabajar con bits aislados o con secuencias de bits de una longitud indeterminada, los ordenadores trabajan normalmente con grupos de bits determinados a los que se conoce como bytes. En general, los bytes contienen 8 bits. Una vez establecida la relación entre el carácter y el punto de código, un ordenador necesita relacionar cada punto de código con un byte o una secuencia de bytes. Las normas que regulan esta relación crean un esquema de codificación de caracteres.

ASCII (código binario/dual)

El Código Estadounidense Estándar para el Intercambio de Información (ASCII, sigla inglesa de American Standard Code for Information Interchange) hace posible la codificación de datos en código binario. Inicialmente se trató de un conjunto de códigos de caracteres de 7 bits que fue propuesto en 1963 por el Instituto Nacional Estadounidense de Estándares (ANSI, por sus siglas en inglés) y se finalizó en 1968, cuando muchos ordenadores usaban grupos de 8 bits (bytes), la unidad más pequeña de información.

Más tarde, el código ASCII debió ser ampliado ya que el número de símbolos escritos empleados en las lenguas naturales excedía sus posibilidades. El nuevo código ASCII Extendido describe los códigos de caracteres de 8 bits o mayores (128 códigos) que incluyen los caracteres estándar del ASCII de 7 bits además de otros caracteres. De este modo se pudieron incluir muchas otras lenguas que anteriormente no podían representarse fácilmente con ASCII.

No obstante, el código ASCII Extendido continúa siendo insuficiente para cubrir todas las lenguas; de allí que incluso las extensiones de 8 bits tengan que tener variantes locales. ASCII implica sólo texto. Por eso, un "documento ASCII" es un archivo que contiene sólo texto sin formato. ASCII se usa comunmente para tranmitir datos y se desarrolló como un estándar de telecomunicaciones.

ANSI

Éste es un conjunto de caracteres basado en el conjunto de 256 caracteres ASCII. Incluye caracteres especiales y caracteres específicos de países, y resulta fundamental cuando se emplean aplicaciones de software que funcionan bajo MS-DOS, como Windows. En los años 80 hubo un intento de crear un conjunto de caracteres unificado a causa de la incompatibilidad de los códigos de cada país, la complejidad de la conversión a la hora de intercambiar datos entre estándares y los problemas que surgían cuando se trabajaba con más de una lengua en el mismo texto.

 

Unicode

A causa de la incompatibilidad de los códigos de cada país, la complejidad de la conversión a la hora de intercambiar datos entre estándares y los problemas que surgían cuando se trabajaba con más de una lengua en el mismo texto, en los años 80 se intentó crear un conjunto de caracteres unificado. El resultado fue Unicode (también llamado ISO 10646), cuyo objetivo es asignar un código a cada carácter o elemento gráfico de todos los alfabetos y sistemas de escritura conocidos en el mundo. Unicode se puede definir como el estándar de codificación de caracteres universal que proporciona la base para el procesamiento, almacenamiento e intercambio de datos textuales en cualquier lengua, en todos los softwares modernos y protocolos de tecnologías de la información.

 

UTF-8

El Formato de Transformación Unicode (Unicode Transformation Format) de 8 bits hace que Unicode sea compatible con entornos que fueron diseñados en ASCII, como Unix, Linux y otros sistemas similares.

 

UTF-16

El Formato de Transformación Unicode de 16 bits usa dos bytes de 8 bits para cada punto de código del Protocolo de Mapa de Bits (Bit Mapped Protocol, BMP por sus siglas en inglés) sin importar la posición de los puntos. Esto hace que el UTF-16 sea más compacto que el UTF-8 para los caracteres del chino, el japonés y el coreano (CJK), pero menos compacto cuando se trata de caracteres como letras latinas que caben en un solo byte en UTF-8. En aplicaciones de Microsoft, UTF-16 se conoce como Unicode mientras que a UTF-8 se le llama Unicode (UTF-8).

La siguiente tabla muestra algunos ejemplos de datos en Unicode:

Origen

Nombre

Origen

Nombre

Bután

Gonpo Dorji (actor de cine)

འབྲུག་ཡུལ།

མགོན་པོ་རྡོ་རྗེ།

República Checa

Antonin Dvorak (compositor)

Česko
(Česká republika)

Antonín Dvořák

India
(Hindi)

Madhuri Dixit (estrella de cine)

भारत

माधुरी दीक्षित

 

¿Por qué esta información es importante para traductores y profesores de traducción?
Dependiendo del tipo de alfabeto de un idioma se usan diferentes grupos de caracteres estándar para codificar información. Es por ello que pueden surgir problemas cuando un traductor recibe un archivo de un cliente para ser traducido –en el que los datos están codificados de acuerdo a un grupo de caracteres de un estándar nacional– y lo abre en un ordenador con un conjunto de caracteres diferente. Los traductores y profesores de traducción deben saber qué son los conjuntos de codificación de caracteres y cómo lidiar con ellos para evitar dañar los caracteres del texto original y la traducción. Los conjuntos de caracteres codificados son importantes no solo para visualizar datos en el ordenador, sino también para intercambiar y clasificar datos (por ejemplo, palabras sueltas en la mayoría de las lenguas asiáticas) y para usar las memorias de traducción.

 

siguiente