Les fichiers balisés sont des fichiers dans lesquels les informations concernant la mise en forme ou la structure sont séparées du texte/des contenus. Ces informations sont enregistrées sous forme de codes et encadrent les éléments du texte. Par exemple, les sites Internet sont codés dans le système de balises HTML (HyperText Markup Language). (voir balises)
L'exemple montre une partie d'un document HTML et les balises qui encadrent les éléments du texte. Les balises contiennent des informations sur la structure du texte et permettent d'identifier les différentes parties du document Web (par exemple les titres ou les en-têtes).
En traduisant de tels documents, le traducteur doit veiller à ne pas modifier, écraser ou supprimer ces balises car elles permettent aux navigateurs Internet d'afficher correctement le document Web.
Pendant le processus de traduction avec les systèmes de MT, l'une des fonctions principales de l'éditeur est de protéger les balises contre les suppressions ou modifications involontaires du/des traducteur(s).
Pour cela, certains systèmes masquent complètement les balises dans l'éditeur et proposent un aperçu du document Web dans la langue cible comme vous pouvez le constater sur la capture d'écran du logiciel across.
Toutefois, dans d'autres systèmes, les balises apparaissent dans l'éditeur sous forme de paramètres substituables.
Dans DéjàVu par exemple, elles sont représentées par des nombres entre parenthèses ("codes imbriqués"). Un nombre correspond à une balise dans le document original.
L'utilisateur peut choisir d'afficher la signification de ces codes imbriqués. Selon le système utilisé, le traducteur peut afficher toutes les balises et même les modifier, bien que cela ne soit pas recommandé.
Dans un système tel que DéjàVu, il est impossible d'exporter le projet si toutes les balises ne sont pas insérées dans leurs segments respectifs. Si cela se produit, le système avertit l'utilisateur et lui indique le segment pour lequel il manque un code. L'utilisateur doit revenir à ce segment et insérer le code manquant afin de pouvoir exporter le projet.
Dans Trados TagEditor, les balises sont affichées en partie ou en totalité. Elles peuvent être déplacées, modifiées ou supprimées pendant la traduction. Si nécessaire, le traducteur peut également ajouter de nouvelles balises.
Il est important de faire la différence entre les balises externes et internes :
- Les balises externes ont une bordure noire par défaut, c'est le cas par exemple des balises HTML. Elles contiennent généralement des informations sur la structure du texte. Ces balises et leur contenu sont complètement ignorés au cours de la traduction et apparaissent uniquement en dehors des phrases. Au cours d'une traduction vous ne devez que très rarement déplacer ou effacer les balises.
- Les balises internes ont une bordure rouge par défaut, c'est le cas par exemple de la balise B. Ces balises peuvent représenter des informations relatives à la mise en forme (caractères gras par exemple), encadrer des liens hypertextes ou autres marqueurs et peuvent apparaître dans le texte. La plupart des balises internes peuvent être déplacées au sein-même de la phrase afin d'être adaptées à la traduction. Selon le format du fichier, certaines balises internes peuvent être ajoutées ou supprimées si nécessaire. TagEditor considère par défaut les balises qui lui sont inconnues comme des balises internes. Si les balises contiennent du texte sans relation avec sa structure ou sa mise en forme, TagEditor classe le contenu de ce texte comme étant à traduire ou non.
Pour importer/convertir certains formats de fichiers balisés tels que HTML ou des fichiers balisés créés par des filtres d'importation de formats de publication assistée par ordinateur comme FrameMaker, InDesign etc., les outils de MT sont généralement en mesure de reconnaître les balises utilisées dans ces formats.
Toutefois, pour les fichiers ayant un format dont les balises peuvent être définies par l'auteur du texte source (XML par exemple), le traducteur doit configurer lui-même les filtres à partir d'une Définition de Type de Document (DTD) fournie par le client ou par l'analyse des fichiers. Il doit également définir la fonction des balises, c'est-à-dire si elles servent à délimiter les segments ou à indiquer que certains éléments du texte ne sont pas à traduire.