5.1 Definición
Se trata de archivos de texto escritos en HTML (HyperText Markup Language), un lenguaje de formateado por etiquetas (un lenguaje de marcado) que tiene finalidades específicas y usa un conjunto de etiquetas predefinidas. En su origen, HTML fue desarrollado a partir de SGML (Standard Generalized Markup Language).
El término hypertext en HyperText Markup Language se refiere al método de organizar texto o contenidos, de forma que ciertos elementos estén vinculados a otros, como sitios web, formularios interactivos, imágenes incrustadas y otros objetos (hipervínculos). Por tanto, el contenido no sólo puede leerse de forma lineal, sino también navegando por diversos documentos y sitios yendo de un hipervínculo a otro. El término marcado se refiere al proceso de añadir información estructural y de formateado al texto mediante etiquetas predefinidas. Por ejemplo, estas etiquetas permiten la descripción de elementos estructurales en las páginas web como encabezados, tablas, gráficos, hipervínculos, etc. Las etiquetas HTML se usan para el formateado, indicando al navegador web cómo mostrar el texto o contenido. (cf. Zerfaß, 2005).
5.2 Entorno de desarrollo
HTML es el lenguaje de marcado más extendido para la creación de páginas web. Hoy en día, cuatro millones de páginas web activas están escritas en HTML, y este formato es comúnmente aceptado como formato estándar para escribir páginas web. En el ámbito de la localización de software, el HTML se ha convertido en el formato de archivo estándar para las páginas web y los archivos de ayuda.
Al localizar, los formatos de archivo en HTML suelen ser traducidos con una memoria de traducción o una herramienta de localización de software. Para editar archivos HTML sin usar herramientas, debería usarse un editor apropiado, preferiblemente el mismo que se usó para crear los archivos originales (cf. Esselink 2000:175).
5.3 Características
Los formatos de archivo HTML consisten en etiquetas, encerradas por signos de "menor que" (<) y "mayor que" (>). Todos los archivos HTML comienzan con una etiqueta de apertura, <HTML>, y una de cierre, </HTML>. Estas etiquetas permiten la definición de la estructura del contenido, del diseño de página, del formato del texto, de la inserción de imágenes, etc.
Etiquetas externas frente a internas
En el formato de archivo HTML hay dos tipos de etiquetas: internas y externas. Las etiquetas internas están dentro de los segmentos traducibles (p.ej. en frases). Un ejemplo de etiquetas internas son las de apertura <b> y cierre </b> de texto en negrita. Las etiquetas externas se encuentran fuera de los segmentos traducibles, y permiten el marcado del contenido y el formateado de los párrafos (cf. Esselink, 2000:2007). Es importante para los traductores/localizadores distinguir entre ambos tipos de etiquetas, ya que puede que hay que modificar las internas al traducir, mientras que las externas deben mantenerse tal cual.
DTD
En los formatos de archivo HTML, todas las etiquetas están predefinidas. Esto significa que hay un número concreto de etiquetas que pueden usarse en un documento dado. La especificación de las etiquetas que se pueden usar está contenida en la definición de tipo de documento (DTD), en la que también se especifican las reglas que debe seguir la estructura del documento (cf. Esselink, 2000:2007). Los documentos HTML también incluyen una declaración que especifica la versión de HTML y el tipo de documento. En la declaración, un documento HTML dado se "declara" válido de acuerdo con la DTD de HTML. Casi todas las ediciones actuales de herramientas de MT incluyen un archivo de ajustes para archivos HTML (p.ej. el archivo HTML4.ini de SDL TRADOS), que contiene reglas de segmentación predefinidas.
Validación
Con el fin de validar la conformidad de los documentos HTML con la norma, hay varias herramientas en Internet (analizadores sintácticos o "parsers") que comprueban la sintaxis del documento respecto a la DTD. Los documentos deberían validarse tras la localización, para verificar que todos los enlaces internos y externos funcionan y que no hay etiquetas corruptas. Algunos ejemplos de herramientas de validación en línea son www.htmlvalidator.com (cf. Esselink, 2000:268).