Google lance Gemini, son nouveau modèle d’IA générative multimodal
Google dévoile sa réponse au GPT-4 d’OpenAI. Baptisé Gemini, il s’agit d’un modèle multimodal, qui fonctionne aussi bien avec du texte que des images ou des vidéos, et ce à bas niveau. Il n’est pour l’instant disponible qu’en anglais, et sa version la plus puissante, Gemini Ultra, ne sera commercialisée que l’année prochaine.
“C’est le début d’une nouvelle ère”, assure Sundar Pichai, le directeur général de Google. Mercredi 6 décembre, le géant de Mountain View a officiellement dévoilé son nouveau modèle d’intelligence artificielle générative, devant rivaliser avec GPT-4, déployé en mars par la start-up OpenAI.
Trois tailles
Selon le moteur de recherche, Gemini est le fruit de “l’un des plus grands efforts scientifiques et techniques [qu’il a] entrepris depuis [sa] création”. Il a été développé par la nouvelle unité dédiée à l’IA, rassemblant les équipes de ses deux laboratoires, le britannique DeepMind et l’américain Google Brain.
Comme promis au printemps lors de la conférence I/O, le nouveau modèle de Google est doté de trois tailles différentes : Ultra, pour les tâches les plus complexes, Pro, pour la majorité des requêtes, et Nano, pour les tâches “embarquées”, c’est-a-dire réalisées directement sur un appareil, sans passer par le cloud.
Meilleur que GPT-4?
Gemini est un modèle multimodal, capable de comprendre et de générer du texte, du code, des images, des vidéos et de l’audio. Le groupe assure avoir optimisé le processus d’entraînement, lui permettant d’afficher des performances qui “dépassent de loin celles des modèles existants”, et des capacités qui “repoussent les limites de l’état de l’art dans presque tous les domaines”. Plutôt que d’entraîner différentes versions sur chaque modalité, Gemini les mélange dès le départ, ce qui augmente grandement ses capacités pour les requêtes complexes.
Google assure ainsi que Gemini Ultra affiche de meilleurs résultats que les autres dans 30 des 32 référentiels académiques utilisés dans la recherche et le développement de grands modèles de langage. La société ne communique que les résultats de 18 tests, montrant, à une exception près, que Gemini devance GPT-4. Gemini Pro est, quant à lui, annoncé comme plus performant que GPT-3.5.
Gemini Ultra disponible en 2024
Le déploiement des trois versions du modèle va s’effectuer par phases. Dès à présent, Gemini Pro est intégré à Bard, le chatbot de Google concurrent de ChatGPT. Mais seulement en anglais et seulement dans 170 pays. Les pays de l’Union européenne ne sont pas concernés dans un premier temps.
Google promet que Gemini Ultra sera déployé en début d’année prochaine au sein d’une version “avancée” de Bard. Et payante, à l’image de ChatGPT Plus, qui permet d’utiliser GPT-4 en échange d’un abonnement de 20 dollars par mois. Enfin, la version Nano va permettre de lancer à Google de nouvelles fonctionnalités sur les Pixel 8 Pro, ses derniers smartphones haut de gamme lancés mi-octobre.
Source : usine-digitale.fr