OpenAI publie une paire de modèles, o3 et o4-mini, ainsi qu’un agent dédié au code
OpenAI accélère et cherche à renouveler son offre de modèles. Après avoir annoncé le remplacement de GPT-4 par GPT-4o en tant que version par défaut dans ChatGPT, les utilisateurs voient également o1 et o3-mini disparaître au profit des modèles o3 et o4-mini, estimés plus performants, multimodaux, et capables de tendre vers l’agentique.
« Ils sont entraînés pour réfléchir plus longtemps avant de répondre ». Les modèles o3 et o4-mini, derniers de la série o, publiés cette semaine, viennent s’ajouter à la longue liste de modèles de raisonnement publiés jusqu’alors par OpenAI. Leur différence ? Ils peuvent utiliser et combiner tous les outils intégrés à ChatGPT : recherche web, analyse de fichiers ou de données avec Python, raisonnement poussé sur des entrées visuelles et même génération d’images.
« Surtout, ces modèles ont appris quand et comment recourir aux outils afin de produire des réponses détaillées, pertinentes et au bon format, généralement en moins d’une minute, pour résoudre des problèmes complexes », assure OpenAI. Pour la coqueluche de l’IA, c’est une étape de plus vers un ChatGPT plus « agentique », capable d’exécuter des tâches de manière autonome.
o3 et o4-mini succèdent à o1 et o3-mini
A en croire OpenAI, o3 est son modèle de raisonnement le plus puissant : il repousse les frontières en code, mathématiques, sciences, perception visuelle, etc. Idéal pour les requêtes complexes qui demandent une analyse multidimensionnelle et dont la réponse n’est pas évidente, il est particulièrement performant sur les tâches visuelles (analyse d’images, de graphiques, de diagrammes…). Dans des évaluations externes, o3 commet 20% d’erreurs majeures en moins que le modèle o1 sur des problèmes réels difficiles, notamment en programmation, conseil/gestion et idéation créative.
De son côté, o4-mini est un modèle plus compact, optimisé pour un raisonnement rapide et économique. Pour son gabarit et son coût, ses performances sont à souligner, surtout en mathématiques, codage et tâches visuelles ; il surpasse aussi son prédécesseur o3-mini sur les tâches non-STEM et dans des domaines comme la data science. « Son efficacité lui permet des quotas d’utilisation nettement plus élevés qu’o3 : c’est un excellent choix pour des volumes importants de questions nécessitant du raisonnement ».
Les images directement intégrées dans le schéma de pensée
Un autre point est à noter dans l’introduction de ces modèles. Ces derniers peuvent intégrer directement des images dans leur chaîne de pensée. Ils ne se contentent pas de « voir ». Ils « pensent » avec l’image, mêlant ainsi raisonnement visuel et textuel. En pratique, les utilisateurs pourraient donc charger une photo de tableau blanc, un schéma de manuel ou un croquis fait main et le modèle l’interprète même si elle est floue, inversée ou de faible qualité. Grâce aux outils à sa disposition, il peut la manipuler (rotation, zoom, transformation, etc.) et répondre aux questions à ce sujet.
La porte ouverte à l’agentique
En ayant un accès complet aux outils de ChatGPT, ainsi qu’aux outils personnalisés des entreprises via des API, les deux modèles sont entraînés à raisonner pour résoudre un problème, choisir quand et comment employer les outils et produire rapidement des réponses détaillées et au bon format (généralement en moins d’une minute).
Par exemple, à la question de savoir « Comment la consommation d’énergie de la Californie cet été se compare-t-elle à celle de l’an dernier ? », le modèle peut rechercher des données publiques, écrire du code Python pour établir une projection, générer un graphique ou une image, puis expliquer les facteurs déterminants, en faisant appel à plusieurs outils. Il est clair qu’avec une telle approche, o3 et o4-mini se rapprochent de la quête d’agents autonomes et capables de traiter tous types de fichiers.
Une disponibilité immédiate
Les utilisateurs ChatGPT Plus, Pro et Team peuvent dès aujourd’hui accéder à o3, o4-mini et o4-mini-high dans le sélecteur de modèles, remplaçant o1, o3-mini et o3-mini-high. Les versions Enterprise et Edu auront accès à ces modèles d’ici une semaine. Les utilisateurs gratuits peuvent quant à eux essayer o4-mini en choisissant « Think » avant d’envoyer leur requête. Les limites de débit restent inchangées. OpenAI prévoit en outre de publier o3-pro d’ici quelques semaines avec un accès complet aux outils ; d’ici là, les abonnés Pro peuvent toujours utiliser o1-pro.
Les développeurs peuvent également accéder à o3 et o4-mini dès à présent via les API Chat Completions et Responses (vérification d’organisation requise pour certains). L’API Responses gère les résumés de raisonnement, la préservation des tokens autour des appels de fonction pour de meilleures performances et, bientôt, des outils intégrés (recherche web, recherche de fichiers, interprète de code).
Un agent de code à exécuter directement sur une machine
OpenAI publie dans la foulée Codex CLI, un agent de code léger à exécuter dans un terminal. Il fonctionne localement sur une machine et exploite au maximum les capacités de raisonnement de modèles comme o3 et o4-mini (support de GPT-4.1 à venir). Codex CLI est disponible en open source depuis GitHub.
Parallèlement, la start-up lance une initiative d’un million de dollars pour soutenir des projets utilisant Codex CLI et les modèles OpenAI. Des subventions de 25 000 dollars en crédits API seront accordées. Les candidatures sont ouvertes.
Source : usine-digitale.fr