Google dote ses robots de lecture d’instruments avec Gemini Robotics-ER 1.6

15 avril 2026 salwa

Google DeepMind sort Gemini Robotics-ER 1.6, un modèle de raisonnement permettant aux robots d’analyser leur environnement avec une précision accrue dans la détection et le comptage d’objets. La société a notamment travaillé avec Boston Dynamics pour lancer une nouvelle fonctionnalité de lectures d’instruments, comme les jauges et indicateurs analogiques. Un vrai atout dans le secteur industriel.

Permettre aux robots quadrupèdes et humanoïdes déployés en milieu industriel de mieux percevoir leur environnement : c’est l’ambition de Google DeepMind avec son nouveau modèle d’IA appliqué à la robotique Gemini Robotics-ER 1.6, sorti le 14 avril. Celui-ci fait suite au modèle de raisonnement vision-langage ER 1.5, lancé fin septembre. Il s’agissait alors du premier modèle autorisant les robots à interroger Google Search pour collecter des données et adapter son comportement en fonction.

Catégoriser des objets et identifier les relations entre eux

Gemini Robotics-ER 1.6 apporte une meilleure précision dans le pointage et le comptage d’objets, soit leur catégorisation et les relations pouvant exister entre eux. Un robot équipé du modèle peut ainsi faire des comparaisons entre les éléments d’une même catégorie, cartographier des trajectoires et identifier la meilleure méthode de préhension. “Il peut s’en servir pour compter les éléments d’une image ou pour identifier les points essentiels afin d’aider le modèle à effectuer des opérations mathématiques et ainsi améliorer ses estimations métriques”, avance même Google DeepMind.

La filiale de Google prend l’exemple d’un atelier de bricoleur (cf. figure ci-dessus) : alors que Gemini Robotics-ER 1.5 ne parvenait pas à identifier le nombre exact d’outils, en confondait certains et n’arrivait pas en détecter d’autres, le nouveau modèle réussit à regrouper tous les types d’outils (ciseaux, marteaux, pinceaux, pinces) et à indiquer les objets demandés absents de son champ de vision. Sur ces compétences, Gemini Robotics-ER 1.6 affiche un taux de réussite de 80%, contre 61% pour ER 1.5 et 72% pour Gemini 3.0 Flash.

Lecture de manomètres, thermomètres et indicateurs de niveau

Les chercheurs ont également amélioré les capacités de “détection de succès” du modèle, autrement dit qui vont permettre au robot de savoir s’il peut passer à l’étape suivante ou s’il doit recommencer suite à un échec. Ils ont concentré leurs efforts sur le raisonnement multi-vues (de haut, depuis le poignet), pour identifier la relation entre les capteurs et ainsi éviter toute gêne (occlusions, problèmes d’éclairage). Sur le raisonnement multi-vues, Gemini Robotics-ER 1.6 obtient un taux de réussite de 84%, contre 72% pour son prédécesseur.

La réelle innovation de Gemini Robotics-ER 1.6 réside dans la capacité du modèle à lire des instruments analogiques utilisés dans le secteur industriel, comme les manomètres, thermomètres et indicateurs de niveau pour les produits chimiques. “Le modèle effectue d’abord un zoom sur l’image pour mieux appréhender les petits détails d’un indicateur, puis utilise le pointage et l’exécution de code pour estimer les proportions et les intervalles et obtenir une mesure précise, détaille Google DeepMind. Enfin, il applique ses connaissances du monde pour interpréter la mesure.”

Vers plus d’autonomie pour les robots Spot de Boston Dynamics ?

Pour mettre au point cette fonctionnalité, Google a travaillé avec Boston Dynamics, derrière le robot humanoïde Atlas et le robot quadrupède Spot. Le partenariat entre les deux entreprises avait été annoncé au CES 2026, visant à équiper les prochains Atlas de modèles Gemini dédiés. La généralisation de ces modèles sur les robots Spot pourrait ainsi avoir lieu, la gamme étant conçue pour s’adapter à tous types de systèmes, y compris les bras robotisés.

Marco Da Silva, VP et GM Spot chez Boston Dynamics, assure que ces outils permettront au robot quadrupède de “de voir, de comprendre et de réagir aux défis du monde réel de manière totalement autonome”. Les appareils réalisent pour l’heure des missions d’inspection industrielle en semi-autonomie (avec un itinéraire préprogrammé, par exemple) ou en étant guidé par un humain et piloté à distance.

Google DeepMind assure obtenir un taux de réussite de 93% sur la lecture d’instruments, un taux quatre fois plus élevé que Gemini Robotics-ER 1.5. Il est d’ores et déjà accessible aux développeurs via Google AI Studio et l’API Gemini.

Source : usine-digitale.fr