Wissen Sie, was kodierte Zeichensätze (ASCII, ANSI, Unicode und UTF-8) sind? (8/31)
Lösung
Die Beziehung zwischen einem Zeichen und seiner Codierung wird dadurch bewerkstelligt, dass jedem Zeichen ein numerischer Wert, die so genannte Code-Position, zugeordnet wird. Die Anzahl verfügbarer Code-Positionen hängt von der Anzahl der verfügbaren Bits ab.
Eine 8-Bit Code-Tabelle kann 256 Zeichen darstellen. Dies reicht normalerweise aus, um die Zeichen in einer alphabetischen Schrift wie zum Beispiel Arabisch, Englisch oder Griechisch darzustellen. Eine 16-Bit-Code-Tabelle kann bis zu 65.536 Zeichen verschlüsseln. Eine solche Tabelle stellt ein brauchbares Minimum für einen ideographischen Zeichensatz, wie beispielsweise die chinesische Schrift, bereit.
Jedoch arbeiten Computer weniger mit einzelnen Bits oder Bitsequenzen unbestimmter Länge als mit fest definierten Bitgruppen. Diese Bitgruppen werden als Bytes bezeichnet. Im Allgemeinen haben Bytes eine Größe von 8 Bit. Ist die Verbindung zwischen Zeichen und entsprechenden Code-Positionen hergestellt, muss ein Computer in der Lage sein, jede Code-Position einem Byte oder einer Byte-Sequenz zuordnen zu können. Die Regeln zur Verwaltung einer solchen Beziehung werden in einer Zeichentabelle festgehalten.
ASCII (Binärcode/Dualcode)
Der ASCII-Code (American Standard Code for Information Interchange) ermöglicht die Verschlüsselung von Daten in Binärcode. Ursprünglich war er ein 7-Bit Zeichensatz zum Austausch von Informationen und wurde 1963 von der amerikanischen Normungsinstitution (American National Standards Institute ANSI) vorgeschlagen. Er wurde jedoch erst 1968 fertig gestellt, als die meisten Computer schon mit 8-Bit-Gruppen (Bytes) als kleinster Informationseinheit arbeiteten.
Später musste der ASCII-Code erweitert werden, da die Anzahl der Schriftzeichen in üblichen natürlichen Sprachen seinen Umfang übertraf. Der erweiterte ASCII-Code ist eine auf 8 Bit erweiterte oder größere Zeichencodierung (128 Codes) mit den Standardzeichen des 7-Bit-ASCII und zusätzlichen Zeichen. Auf diesem Wege konnten auch viele bisher nicht in ASCII darstellbare Sprachen abgedeckt werden.
Dennoch reicht selbst der erweiterte ASCII-Code nicht aus, um alle Sprachen abzudecken, weshalb lokale Varianten für die 8-Bit-Erweiterung entwickelt werden mussten. ASCII steht für einfachen Text. Demzufolge ist eine ASCII-Datei eine einfache unformatierte Textdatei. ASCII wird gewöhnlich zur Datenübermittlung genutzt und entwickelte sich zum Standard für Telekommunikation.
ANSI
Dies ist ein Zeichensatz, der auf den 256 ASCII-Zeichen basiert. Er beinhaltet Sonderzeichen und länderspezifische Zeichen und ist besonders wichtig für Software, die auf MS-DOS-Basis läuft, wie beispielsweise Windows. ANSI ist auch der Sammelbegriff von Microsoft für alle Windows-Zeichentabellen.
Unicode
Wegen der fehlender Kompatibilität von Codierungen in verschiedenen Ländern, komplexen Konvertierungen beim Datenaustausch zwischen Standardsystemen und den Problemen beim Arbeiten mit mehr als einer Sprache im gleichen Text versuchte man in den 80er Jahren, einen einheitlichen Zeichensatz zu schaffen. Mit dem neu erstellten Unicode (auch ISO 10646) sollte jedem Schriftzeichen oder -element aller bekannten Alphabete und Schriften auf der Welt ein Code zugewiesen werden.
UTF-8
Das Unicode Transformation Format ist ein 8-Bit-Codierungssystem und passt Unicode an andere Systeme an, die vollständig unter ASCII entwickelt wurden, wie beispielsweise Unix, Linux oder ähnliche Systeme.
UTF-16
Das Unicode Transformation Format als 16-Bit-Version nutzt ein Zwei-Byte-Paar für jede Code-Position des Bit-Mapped-Protocol (BMP), ungeachtet der genauen Position. Damit ist es besser geeignet für chinesische, japanische und koreanische Schriftzeichen (CJK) als UTF-8, jedoch weniger geeignet für Zeichen, die in nur ein einziges Byte in der UTF-8 Codierung benötigen würden, wie zum Beispiel lateinische Buchstaben. In Microsoftanwendungen wird UTF-16 als „Unicode“ bezeichnet und UTF-8 als „Unicode ( UTF-8)“.
Die folgende Tabelle veranschaulicht einige Beispiele für Unicode-Daten:
Herkunft | Name | Herkunft | Name |
Bhutan | Gonpo Dorji (Schauspieler) | འབྲུག་ཡུལ། | མགོན་པོ་རྡོ་རྗེ། |
Tschechische Republik | Antonin Dvorak (Komponist) | Česko | Antonín Dvořák |
Indien | Madhuri Dixit (Filmstar) | भारत | माधुरी दीक्षित |
Warum ist diese Information für Übersetzer und Übersetzungsausbilder wichtig?
Je nach Art des Alphabets einer Sprache werden verschiedene Standardzeichensätze zur Kodierung von Informationen verwendet. Wenn daher der Kunde eines Übersetzers eine Datei schickt, der Daten anhand eines bestimmten nationalen Standardzeichensatzes kodiert sind, und der Übersetzer die Datei empfängt und sie auf einem Computer mit einem anderen Standradzeichensatz öffnet, können Probleme entstehen. Übersetzer und Übersetzungsausbilder sollten sich darüber im Klaren sein, was Kodierungssysteme sind und wie man mit ihnen umgehen sollte, um solche Situationen zu vermeiden. Kodierte Zeichensätze sind nicht nur für die Anzeige von Daten auf einem Computer von Bedeutung, sondern auch beim Austausch und Sortieren von Daten (z.B. einfache Wörter in den meisten asiatischen Sprachen) und bei der Nutzung von Translation-Memory-Systemen.