Skip to main content
Softwarelokalisierungskurs 3

Lokalisierungs-Dateiformate

5. HTML-Dateien (5/8)

5.1 Definition

HTML-Dateien sind Textdateien, die in HTML (HyperText Markup Language) geschrieben sind, einer textbasierten Auszeichnungssprache (engl. markup language), die für bestimmte Funktionen eine Reihe von vordefinierten Tags verwendet. HTML ist eigentlich von SGML (Standard Generalized Markup Language) abgeleitet.

Der Begriff Hypertext in HyperText Markup Language bezieht sich auf die Art und Weise, wie Texte oder Inhalte organisiert werden, so dass bestimmte Elemente mit anderen Elementen - Webseiten, interaktive Formulare, eingebundene Bilder und andere Objekte - durch sogenannte Hyperlinks verbunden werden. So können Inhalte nicht nur sequentiell, sondern auch über eine Navigation durch mehrere Dokumente und Webseiten aufgenommen werden, indem man den Hyperlinks folgt. Der Begriff markup (Auszeichnung) bezieht sich auf das Hinzufügen von Information zu Textstruktur und Textformatierung durch das Verwenden vordefinierter Tags. Zum Beispiel bieten diese vordefinierten Tags die Möglichkeit, strukturelle Elemente in Webseiten wie etwa Überschriften, Tabellen, Grafiken, Hyperlinks, usw. zu beschreiben. Beim Formatieren werden HTML-Tags dafür verwendet, dem Internet-Browser die Befehle für eine korrekte Darstellung von Text oder Inhalten zu übermitteln. (vgl. Zerfaß, 2005).

5.2 Entwicklungsumgebung

HTML ist die am häufigsten für die Erstellung von Web-Seiten verwendete Auszeichnungssprache. Sie unterstützt heute vier Millionen aktive Web-Seiten und wird allgemein als Standardformat für die Erstellung von Web-Seiten anerkannt. Bei der Softwarelokalisierung ist HTML zum Standard-Dateiformat für Web-Seiten und Online-Hilfe geworden.

HTML-Dateien werden bei der Lokalisierung normalerweise mit einem Translation-Memory-Tool oder einem Softwarelokalisierungstool übersetzt. Um HTML-Dateien ohne die Hilfe von Tools zu editieren, sollte ein geeigneter Editor verwendet werden - möglichst derjenige, der auch zur Erstellung der Ausgangsdateien eingesetzt wurde (vgl. Esselink, 2000:175).

5.3 Eigenschaften

HTML-Dateiformate verwenden Marker, die 'Tags' genannt werden. Diese stehen zwischen Kleiner-als- (<) und Größer-als (>)-Zeichen. Alle HTML-Dateien beginnen mit einem öffnenden <HTML>-Tag und enden mit einem schließenden </HTML>-Tag. Diese Tags ermöglichen es, Inhaltsstrukturen, Seitenlayout, Textformatierung, Einfügen von Bildern, usw. zu definieren.

Interne vs. Externe Tags

In HTML-Dateiformaten gibt es zwei Arten von Tags: interne und externe Tags. Interne Tags befinden sich innerhalb von Übersetzungssegmenten (z.B. in Sätzen). Ein Beispiel für interne Tags sind das öffnende <b> und schließende </b> zur Markierung von Fettdruck im Text. Externe Tags befinden sich außerhalb der Übersetzungssegmente und ermöglichen die Markierung von Absatzinhalten und Absatzformatierung (vgl. Esselink, 2000:2007). Für Übersetzer/Lokalisierer ist es wichtig, zwischen den beiden Arten von Tags zu unterscheiden, da interne Tags im übersetzten Text möglicherweise modifiziert werden müssen, externe Tags jedoch erhalten bleiben sollten.

DTD

In HTML-Dateiformaten sind alle Tags vordefiniert. Dies bedeutet, dass es eine Reihe von Tags gibt, die in einem Dokument verwendet werden können. Die Spezifizierung dieser Tags, die in einem Dokument enthalten sein können, ist in der DTD (document type definition) enthalten, wo auch die Angaben zur Dokumentstruktur niedergelegt werden (vgl. Esselink, 2000:2007). HTML-Dokumente verfügen auch über eine Deklaration, welche die HTML-Version und die Dokumentart angibt. In der Deklaration, wird das jeweilige HTML-Dokument für "gültig" ("valid") gemäß der HTML-DTD erklärt. Fast alle aktuellen Versionen von TM-Tools verfügen über eine Einstellungsdatei für HTML-Dateien (z.B. die HTML4.ini-Datei bei SDL TRADOS), in der vordefinierte Segmentierungsregeln enthalten sind.

Validierung

Um die Konformität von HTML-Dokumenten zu validieren, gibt es verschiedene Online-Tools (Parser), welche die Syntax des HTML-Dokuments mit der DTD abgleichen. Dokumente sollten nach der Lokalisierung validiert werden, um sicherzustellen, dass alle internen und externen Tags gültig sind und die Regeln des Dokumenttyps eingehalten werden. Ein Tool für die Validierung ist z.B. www.htmlvalidator.com (vgl. Esselink, 2000:268).