Modèle Cosmos 3, outils agentiques, déploiement de robots avec Foxconn

2 juin 2026 salwa

Nvidia dévoile le dernier-né de sa famille de “world models” Cosmos, réunissant des outils de raisonnement visuel, de modélisation du monde et de prédiction d’actions. Il publie en outre une suite d’outils open source permettant à des agents d’IA d’utiliser des bibliothèques et frameworks Nvidia pour accélérer l’entraînement des robots et véhicules autonomes. Le robot infirmier Nurabot de Foxconn, basé sur des solutions Nvidia, est désormais déployé dans certains hôpitaux taïwanais.

À l’occasion du Computex, qui se tient cette semaine à Taïwan, Nvidia a fait le plein d’annonces sur ses modèles et outils robotiques. À commencer par Cosmos 3, son dernier “world model” intégré dans sa plateforme de développement d’applications d’IA physique Omniverse. Pour Nvidia, les world models sont définis comme des outils d’IA prenant en compte les paramètres spatiaux et physiques d’une scène, qui utilisent plusieurs types de données (texte, images, vidéos, son, mouvements), pour générer des environnements et prédire des actions. Une manière d’aider les développeurs à accélérer l’entraînement de leurs modèles dans la robotique et la conduite autonome.

Cosmos 3, un world model capable de générer et prédire des actions

Nvidia assure que Cosmos 3 est le premier modèle “entièrement ouvert au monde capable de comprendre et de générer nativement du texte, des images, des vidéos, des sons ambiants et des actions avec une précision physique inégalées, réduisant les cycles d’entraînement (…) de plusieurs mois à quelques jours”. Pour ce faire, la firme américaine a construit une architecture de type “mixture-of-transformers” (MoT), combinant un système de raisonnement et un système de génération. Ainsi, Cosmos 3 analyse les interactions entre les objets, les mouvements et les liens spatio-temporels avant de générer des trajectoires vidéo et de prédiction d’actions.

En étant capable de générer et prédire des actions – et plus seulement des environnements, Cosmos 3 remplit ainsi plusieurs fonctions pour les développeurs dans la robotique, qui peuvent l’utiliser comme un simple modèle vision-langage, un world model pour la simulation et un “world action model”, planifiant les conséquences physiques de tel ou tel mouvement. Le média américain Axios rapporte que Cosmos 3 a été entraîné sur 20 000 milliards de tokens de données multimodales, parmi lesquels un milliard d’images et 400 millions de vidéos réelles et générées.

Deux versions déjà disponibles pour les développeurs

Deux modèles sont d’ores et déjà accessibles : une version Super, optimisée pour les modèles de robotique et de conduite autonome nécessitant une précision maximale, et une version Nano conçue pour la génération de vidéos et de capacités de raisonnement “en une fraction de seconde”. Un troisième modèle, capable de fonctionner en edge, devrait être “bientôt disponible”. Nvidia revendique des performances de pointe sur sept benchmarks d’IA Physique, qu’il s’agisse de la modélisation du monde, la prédiction d’actions (RoboLab notamment) et la compréhension visuelle.

En parallèle, Nvidia a lancé “Cosmos Coalition”, une initiative incluant plusieurs acteurs de taille dans la robotique avec pour but de “faire progresser les world models ouverts dans tous les secteurs (…) en utilisant les technologies Cosmos 3, les outils de formation et l’infrastructure Nvidia DGX Cloud.” La start-up allemande de robotique humanoïde Agile Robots figure parmi les membres fondateurs, tout comme le développeur de modèles à usage général Skild AI et la société américaine de solutions de générations d’images et vidéos Runway.

Permettre aux agents IA d’exécuter des workflows robotiques

Le Computex est aussi l’occasion pour Nvidia de sortir une suite d’outils pour “agents d’IA physique”, s’appliquant à la fois à Omniverse, à Cosmos, à Alpamayo et à Metropolis. L’idée ? Faire évoluer les workflows robotiques en tâches exécutables directement par des agents de programmation IA. “Les ‘compétences’ en IA physique de Nvidia, disponibles dans l’Agent Toolkit, permettent aux agents d’utiliser les bibliothèques, modèles et frameworks pour accélérer les processus de génération de données, de simulation, d’entraînement, d’évaluation et de déploiement des robots, des véhicules autonomes, des usines et des laboratoires”, explique la firme de Santa Clara dans un communiqué.

À noter que les développeurs peuvent aussi se servir de ces outils et “compétences” pour créer et déployer des agents avec NemoClaw. Dans la robotique, ils pourraient permettre d’accélérer à la fois la génération de données d’entraînement, l’amélioration de l’apprentissage des robots et le réglage des systèmes embarqués basés sur Jetson Thor. Pour ce qui est de la conduite autonome, cette collection devrait “permettre aux agents de reconstruire les données capturées par les flottes dans des environnements de simulation et générer des scénarios de conduite photoréalistes à grande échelle”. Nvidia cite également des cas d’usage dans l’IA industrielle et la santé.

Le Nurabot progressivement déployé dans plusieurs établissements taïwanais

La santé est justement l’un des axes prioritaires de Nvidia dans ses travaux sur la robotique avec le géant taïwanais de l’électronique Foxconn. Lors du Computex 2025, Nvidia, Foxconn et Kawasaki avaient levé le voile sur Nurabot, un robot conçu pour éviter au personnel infirmier de reproduire des tâches répétitives (transport d’échantillons, distribution de médicaments, orientation des patients et visiteurs de jour et de nuit…).

Ce Nurabot s’appuie à la fois sur FoxBrain, le LLM sorti par Foxconn l’année dernière, et sur plusieurs solutions de Nvidia, en particulier Isaac for Healthcare (framework de développement intégrant des modèles de génération de données anatomiques) et Omniverse pour la création de jumeaux numériques des hôpitaux. Testé à l’Hôpital général des vétérans de Taichung (TCVGH), sur la côte ouest de Taïwan, le Nurabot est désormais déployé à plus grande échelle et progressivement installé dans d’autres établissements. Nvidia cite notamment l’Hôpital général des vétérans de Taipei, l’Hôpital Tung’s Taichung MetroHarbor, des établissements de soins longue durée et des instituts de formations en soins infirmiers en dehors de Taïwan.

Source : usine-digitale.fr