Google passe une étape clé pour son projet de traducteur oral gérant 1000 langues

8 mars 2023 salwa

Google Research a dévoilé de nouveaux détails sur son projet de modèle d’intelligence artificielle pour la parole, capable de transcrire et traduire les 1000 langues les plus parlées dans le monde. Entraîné sur 12 millions d’heures de données vocales et 28 milliards de phrases textuelles, il serait d’ores et déjà capable de prendre en charge 100 langues.

Google avance dans la mission qu’il s’est donné de construire un modèle d’IA dédiée à la communication orale et capable de traduire 1000 langues entre elles. Lundi 6 mars 2023, Yu Zhang et James Qin, respectivement chercheur et ingénieur logiciel chez Google Research, ont publié un billet de blog détaillant l’avancée d ce projet annoncé en novembre 2022.

Ils décrivent le modèle universel de parole (USM) comme « une famille de modèles vocaux de pointe » comprenant 2 milliards de paramètres entraînée sur 12 millions d’heures de parole enregistrées et 28 milliards de phrases de texte, dans 300 langues. Pour l’heure, il serait fonctionnel sur une centaine d’entre elles.

Principal frein : le manque de données sur certaines langues

Parmi ces 1000 langues, il y en a des très parlées comme l’anglais et le mandarin et d’autres sous-utilisées telles que le cebuano ou l’azerbaïdjanais. Le billet explique que certaines sont parlées par moins de 20 millions de personnes.

Et c’est là que se trouve le principal défi du projet. Dans un modèle classique d’apprentissage, le manque de données vocales et textuelles disponibles rend difficile la formation de l’IA. Google a donc choisi un apprentissage en trois étapes. D’abord, un pré-entraînement non supervisé qui s’appuie sur des données audio.

Il améliore ensuite le modèle en l’entrainant sur des données vocales non étiquetées, des données vocales étiquetées et des données textuelles. Et enfin, il ajoute un entraînement supervisé à certaines tâches, et un réglage fin sur un ensemble plus restreint de données étiquetées.

L’objectif est évidemment est d’intégrer ce modèle à l’intérieur de ses produits, notamment YouTube et Google traduction. Pour le moment, alors qu’il y a 7000 langues dans le monde, ce dernier n’en prend que 130 en charge.

Meta travaille évidemment sur un projet similaire. L’entreprise a annoncé, à la fin de l’année dernière, avoir créé un modèle capable de traduire la langue hokkien, pour laquelle il n’existe pas de forme écrite standardisée vers l’anglais. Ceci serait le cas pour 40% des 7000 langues parlées dans le monde.