Tout traducteur, qu’il soit humain ou non, doit avoir pour vocation de traduire le sens de mots, d’une phrase, d’un texte, mais aussi le sentiment, le style, et tous les éléments implicites qui font la richesse d’une langue et d’un style d’écriture. C’est à cette limite que se sont confrontés pendant longtemps les traducteurs en ligne : qui n’a pas déjà traduit une phrase via Google Traduction et a constaté que l’outil comprenait mal la phrase de départ et donnait une traduction incohérente ? C’est dans ce contexte que des entreprises comme Google elle-même se sont penchés sur la possibilité d’utiliser l’intelligence artificielle dans le domaine de la traduction, pour créer un outil 100% fonctionnel, qui ne nécessiterait pas à terme de relecture critique par un humain et qui traduirait rapidement tout type de texte dans toutes les langues. Sur le papier, cela en fait forcément rêver beaucoup : plus besoin d’apprendre à parler une langue si une machine traduit tout pour moi, gain de temps, de productivité, de confort, etc. Cependant, il y a un corps de métier qui pourrait prendre peur face au développement de ces “traducteurs intelligents”, c’est bien sûr les traducteurs et interprètes. Dans cette étude, nous réfléchirons à l’avenir du métier de traducteur (écrits, nous laisserons de côté la question des interprètes) face au développement des traducteurs en ligne basés sur l’IA.

1. Présentation de la “traduction automatique”

Il est impossible de parler du lien entre IA et traduction sans présenter le machine translation (“traduction automatique”) avant toute chose : comment en est-on venus à utiliser l’intelligence artificielle dans ce domaine ? A quoi ressemblait le machine translation avant cela ? Le machine translation est la traduction d’un texte d’une langue à l’autre entièrement par un ou plusieurs programmes informatiques, sans intervention humaine. Dès le 9ème siècle, Al-Kindi, un scientifique arabe, réfléchit sur le sujet et pose les bases des règles de probabilité et de statistiques qui constitueront la base de la traduction automatique à la fin du 20ème siècle. La notion de traduction automatique resurgit au cours du 17ème siècle, mais ce n’est finalement qu’après la Seconde Guerre mondiale qu’elle se développe, le point d’orgue étant la présentation du Georgetown-IBM experiment en 1954. Globalement, entre les années 1950 et les années 1990, la méthode est basée sur le rule-based translation qui, comme son nom l’indique, respecte les règles constituant une langue : syntaxe, vocabulaire, grammaire, sémantique. La qualité de la traduction obtenue n’était pas satisfaisante, notamment parce que même si les règles forgent une langue, les exceptions à ces règles la forgent tout autant. A partir des années 1990, le rule-based translation est abandonnée au profit du SMT : Statistical Machine Translation. Cette méthode devient la base de tous les traducteurs en ligne qui se développent dans les années 2000. Ce n’est qu’en 2014 qu’apparaît pour la première fois dans un article scientifique le terme de Neural Machine Translation (NMT), méthode basée sur l’intelligence artificielle.

a) Le Statistical Machine Translation (SMT)

Schéma
“Progress in MT”, schéma fait à la main par Chris Manning, professeur à Stanford NLP
  Le modèle du Statistical Machine Translation utilise des règles mathématiques de probabilités et de statistiques pour déterminer quelle est la traduction la plus probable d’une phrase x d’une langue source s dans une langue cible t. La méthode utilise deux corpus : un corpus bilingue (langue source - langue cible) d’un côté, et un corpus monolingue (langue cible) de l’autre.
Schéma2
Schéma représentant le fonctionnement simplifié du SMT
Sur ce schéma, on voit bien les deux pans de la méthode :
  • Grâce à une analyse statistique faite sur le corpus bilingue, la machine détermine p(s|t) soit la probabilité que la phrase y de la langue cible t soit la traduction de la phrase x de la langue source s. C’est la phase de Translation Model, qui donne une probabilité de traduction.
  • Grâce à une analyse statistique faite sur le corpus monolingue, la machine détermine p(t) soit la probabilité que la phrase y en langue cible soit écrite dans une langue correcte et fluide. C’est la phase de Language Model, qui donne une probabilité de fluidité de la phrase.
Les deux probabilités sont ensuite utilisées pour déterminer p(t|s) soit la probabilité d’une phrase y de la langue cible t en sachant la phrase de la langue source s, en utilisant le théorème de Bayes. En simplifiant, on obtient que argmax p(t|s) = argmax p(s|t)*p(t). En utilisant un exemple un peu plus concret, voici un schéma utilisé par Kevin Knight et Philipp Koehn dans leur article “What’s new in Statistical Machine Translation” :
traduction intelligente
Tous les outils de traduction en ligne s’étant développés dans les années 2000 utilisaient cette méthode de traduction automatique. Mais quiconque a déjà utilisé ces outils s’est déjà confronté à de grosses problématiques de traduction. Voici un exemple parmi tant d’autres d’erreurs grossières de traduction proposée ici par Google Translate en 2015 (quand Google Translate utilisait encore le SMT) :
traduction

b) Le Neural Machine Translation (NMT)

Au début des années 2010, avec le développement de l’intelligence artificielle et son utilisation potentielle dans de nombreux domaines, des chercheurs commencent à réfléchir à son application dans le domaine de la traduction automatique. Le terme Neural Machine Translation fait son apparition dans un article scientifique en 2014, puis ne cessera de se développer jusqu’à aujourd’hui. Son fonctionnement se veut similaire au fonctionnement du cerveau humain, et plus particulièrement au cerveau d’un enfant apprenant une langue. Comme un enfant découvrant une langue en l’entendant autour de lui et en repérant des patterns, la machine, grâce à son réseau neuronal, va faire de même pour apprendre une langue. Cette méthode d’auto-apprentissage est la base du NMT. De plus, le gros avantage du NMT par rapport au SMT est qu’il vise à traiter une phrase dans son ensemble pour en saisir le sens avant même de commencer le processus de traduction en tant que tel. Là où le SMT traduisait mot par mot ou brique de mots par brique de mots, le NMT prend en compte le sens des mots/phrases précédent(e)s pour déduire le sens des mots/phrases suivant(e)s, notamment grâce à l’utilisation de RNN (réseaux neuronaux récurrents). Cet aspect est très bien résumé par Dzmitry Bahdanau et KyungHyun Cho Yoshua Bengio dans leur étude “Neural Machine Translation by jointly learning to align and translate” : “Unlike the traditional phrase-based translation system which consists of many small sub-components that are tuned separately, neural machine translation attempts to build and train a single, large neural network that reads a sentence and outputs a correct translation”. Le but de cette étude n’est pas d’étudier le fonctionnement du Neural Machine Translation, mais il me paraît important d’en comprendre les bases simplifiées. Le schéma suivant nous permettra d’aborder les points clés du fonctionnement du NMT :
NMT comportement
Basiquement, le NMT va utiliser un système d’encodeur et de décodeur pour traduire la phrase de la langue source vers la langue cible. L’encodage et le décodage consistent en fait à transformer des phrases/mots en vecteurs, c’est ce qu’on appelle “embedding layer” sur le schéma. Les réseaux neuronaux récurrents (RNN) permettent non seulement de mener à bien ce processus d’encodage et de décodage, mais aussi et surtout à prendre en considération le contexte de la phrase à traduire. La boucle que l’on voit sur le schéma illustre la possibilité de garder des informations tout au long du processus. Le réseau regarde tous les mots précédents et garde en mémoire l’information pour déterminer ce que veut dire x. Enfin, la dernière notion importante présentée par ce schéma est l’idée d’attention. L’attention aide la machine à se concentrer sur les parties les plus importantes de la phrase, celles qui nécessitent le plus d’attention.

2. Pourquoi le Neural Machine Translation pourrait mettre à mal le métier de traducteur ?

Maintenant que nous avons en tête les principes basiques du NMT, il est intéressant de nous pencher sur le sujet en tant que tel : le NMT produit-il des résultats suffisamment satisfaisants pour mettre en danger le métier de traducteur ? “Two years ago, translation technology would produce something that at best would let you get a general understanding of what the text was about - but in most cases, a professional translator would tell you they would rather just translate from scratch because they couldn’t understand a lot of the output. […] Today with neural machines, for a growing amount of material and categories, they only need to make a very small number of changes to what a machine outputs, in order to get a human-quality translation” : voici les mots prononcés par Ofer Shoshan, le dirigeant de l’agence de traduction One Hour Translation, en 2018. Ainsi, selon lui, en deux ans (entre 2016 et 2018 donc) les progrès du Neural Machine Translation ont été énormes, permettant d’obtenir en 2018 des résultats nécessitant peu de révisions par un traducteur humain. En considérant que nous sommes aujourd’hui en 2020 et que l’intelligence artificielle n’est qu’au début de son développement, on peut imaginer que le NMT va encore beaucoup progresser. De plus, plus concrètement, un point sur lequel la machine gagne facilement le match contre l’humain est celui de la fatigue. Une machine n’est jamais fatiguée, et alors que l’humain devient moins productif au fil du temps à cause de la fatigue, la machine elle, devient plus performante au fil du temps car elle apprend en continu. Ainsi, un contenu de 500 pages sera traduit bien plus vite via la traduction automatique que via une traduction humaine. Le gain de temps lié à l’utilisation de la traduction automatique est évidemment intrinsèquement associé à un gain d’argent : il devient plus économique de faire traduire ce fameux contenu de 500 pages par une machine que par un humain. Pour une entreprise ayant des besoins constants de traduction de documents, cet argument pèse forcément très lourd. D’ailleurs, ce n’est pas pour rien que plusieurs entreprises développant des traducteurs automatiques basés sur le NMT ont axé leur communication sur la cible business. Prenons l’exemple de DeepL 6 qui propose une version “Pro” payante :   deepl  
Sécurité des données, intégration d’outils de traduction automatique, utilisation d’une API : ces arguments sont mis en avant sur le site de DeepL, et l’abonnement Pro semble être leur axe de communication principal, laissant penser qu’une bonne partie de leur business model est basé dessus. Et en effet, il me semble que pour des documents “business”, l’outil est très adapté. J’en ai fait l’expérience avec un document de spécifications fonctionnelles pour un projet x, écrit initialement en anglais. En moins d’une minute, DeepL (sa version gratuite) a traduit ce document de 86 pages de l’anglais vers le français. Le résultat n’est pas parfait (mais l’anglais du document initial ne l’était pas non plus), mais il est largement satisfaisant pour l’usage qui sera fait du document dans le cadre d’un projet web. Faites le test par vous-mêmes avec un document du même type et vous pourrez constater l’efficacité de l’outil. Ceci dit, le résultat n’est pas parfait et nécessiterait peut-être une phase de relecture et de correction par un traducteur humain. La traduction automatique peut alors être vue comme une phase de pré-traduction, donnant un résultat déjà satisfaisant mais peaufiné ensuite par un humain. Disons-le sans détour, le NMT est donc aujourd’hui très répandu et très efficace sur des documents ne sortant pas trop de l’ordinaire et pour des langues ne sortant pas trop de l’ordinaire non plus.

3. Les problématiques auxquelles se confronte le Neural Machine Translation

Comme nous l’avons dit, la base du Neural Machine Translation est l’auto-apprentissage. Il a donc besoin de beaucoup de data pour fonctionner correctement, ce qui constitue en soi une problématique à surmonter : inévitablement, cette méthode de traduction offre des résultats beaucoup moins satisfaisants lorsqu’il s’agit de traduire des langues “rares” ou même des documents de certains domaines spécifiques (par exemple, le langage médical ou le langage judiciaire qui sont presque des langues à part entière). De plus, des problématiques très concrètes peuvent se poser suivant les langues. Par exemple, certaines langues n’utilisent pas d’articles de genre (le/la), comme l’anglais par exemple qui traduit tous les articles par “the”. Autre exemple : en espagnol, les pronoms personnels sont peu utilisés - ainsi, si le pronom personnel n’est pas indiqué dans une phrase x mais qu’il faut aller le chercher dans une phrase précédente x-1, la machine peut “facilement” se tromper et mal traduire le sujet de la phrase x. Une autre problématique à laquelle se confronte le Neural Machine Translation est l’existence de liens forts entre la langue et les émotions d’une part, la langue et la culture d’autre part. Il est bien plus facile de saisir le sarcasme ou l’ironie d’une phrase et d’un texte pour un humain que pour une machine. L’humain va mieux réussir à saisir le contexte, le ton, le style pour restituer un résultat au plus juste. A propos du lien entre langue et culture, il me semble intéressant de lire les mots de Catherine Hua Xiang 7 : “In a guest-host relationship in a Chinese business setting, for example, it is considered polite and necessary to insist and impose on guests to accept the invitation or have more food. This is considered essential to show sincerity and hospitality. Chinese people will use the imperative form, such as « You must come » as an invite, or « Eat, eat, eat » or « Eat more, you are not eating enough », during the actual business meal. Despite the fact it may sound like orders, it is absolutely not in this particular context". Il est plus que difficile pour une machine de prendre en compte ce contexte culturel qui indique que même si c’est la forme impérative qui est utilisée en chinois, la meilleure traduction n’est sûrement pas la forme impérative dans une langue occidentale comme l’anglais. Enfin, la dernière problématique est sûrement la plus compliquée à surmonter pour la traduction automatique : comment réussir à restituer dans la langue cible le style d’écriture d’un auteur dans la langue source ? C’est selon moi ce qui fait d’un traducteur littéraire humain un bon traducteur, mais c’est un point pour lequel il n’y a pas de règles strictes, tout est basé sur un ressenti, ce qui est compliqué à gérer pour la traduction automatique. Pour illustrer ce point, j’ai fait traduire une même phrase par Google Translate et DeepL (tous deux utilisent le NMT) et j’ai confronté les deux traductions. La phrase était la suivante : “Los árboles suenan a mar y en toda la solitaria llanada inmensa el resol da raros tonos de esmalte.” A première vue, les deux traductions se ressemblent assez. Un point est cependant étonnant la traduction de “el resol” donne en français “le résol” pour DeepL et “la résol” pour Google Translate. Selon le dictionnaire Larousse, seul le nom masculin “le résol” existe (mauvais point pour Google Translate qui a donc inventé un mot) mais voici sa signification : “Phénoplaste obtenu dans les tout premiers stades de la synthèse menée en présence de catalyseurs alcalins.” Rien à voir donc avec le reste de la phrase. Pourtant en espagnol, le mot “resol” existe bien et signifie selon le Diccionario de la Real Academia española : “reverberación del sol”, autrement dit “réverbération du soleil”. C’est bien ainsi que l’aurait probablement traduit un traducteur humain, mais aucun des 2 outils de traduction automatique n’est parvenu à le faire, sûrement à cause du style trop poétique de la phrase. Nous pourrions également contester le style des phrases en français, mais pour ne pas fausser le test, il aurait fallu fournir à l’outil plus de matière (l’article entier pour commencer). Il est déjà bien assez frappant de constater la peine qu’ont rencontré les deux outils à traduire une phrase au style peu courant et un peu poétique.

Conclusion

Pour conclure, l’intelligence artificielle ne fera selon moi pas disparaître le métier de traducteur, mais elle le transformera. Dans beaucoup de domaines ou de langues, les traducteurs humains restent nécessaires pour restituer le sens, le style, et l’aspect culturel d’un texte : la prose poétique (sans parler de la poésie elle-même) en est un exemple frappant. Mais pour des textes à faible valeur ajoutée, ou des grosses quantités de documents, le Neural Machine Translation peut faire gagner beaucoup de temps et donner un résultat plus que correct. Pour prendre l’exemple de Sooyoos et de la gestion de projets, la traduction automatique est aujourd’hui assez mature pour être utilisée pour traduire des documents de spécifications, quitte à effectuer une rapide phase de relecture et correction ensuite. Reste à suivre les futures avancées du Neural Machine Translation pour voir si les problématiques évoquées finiront par être dépassées complètement. ________ Rédigé par Cécile, Cheffe de projet chez Sooyoos.   Références :