Microsoft Build : 7 nouveaux modèles d’IA pour accélérer l’innovation en entreprise

4 juin 2026 salwa

Microsoft franchit une nouvelle étape dans sa quête d’indépendance vis-à-vis d’OpenAI. Avec une famille de modèles maison couvrant le raisonnement, le code, l’image et la voix, le géant américain affiche ses ambitions dans la course à l’IA générative. Au-delà des performances annoncées, ces avancées révèlent surtout une stratégie visant à proposer aux entreprises des modèles personnalisables et entraînés sur leurs propres données.

“Aujourd’hui, nous annonçons une famille de sept nouveaux modèles développés en interne par Microsoft AI”. Et l’on a presque envie de dire “enfin !” pour celui qui s’est jusqu’à présent largement reposé sur les modèles de ses concurrents et partenaires, à commencer par OpenAI et Anthropic.

Des modèles qui couvrent l’image, la voix, la transcription, le code et le raisonnement

Pour rappel, Microsoft avait entamé le développement d’une famille de modèles avec de premières itérations publiées au fil du temps. Quelques modèles avaient ainsi été publiés courant 2025, puis, en avril dernier, elle publie un système de reconnaissance vocale appelé MAI-Transcribe-1 ainsi qu’une seconde version de son modèle text-to-image, tous disponibles dans Foundry avec l’idée, à terme, d’être intégrés aux produits clés de l’hyperscaler, à commencer par Copilot, Bing, PowerPoint et Azure Speech.

Aujourd’hui, la firme de Redmond agrandit la famille MAI avec une kyroelle de modèles adaptés aux différentes tâches du quotidien.

MAI-Thinking-1, son nouveau modèle de raisonnement dit “de taille intermédiaire” figure parmi les meilleurs de sa catégorie, avance la firme, capable d’égaler les modèles leaders sur des benchmarks clés d’ingénierie logicielle.

De son côté, MAI-Code-1-Flash est un modèle dédié à l’agentic coding optimisé pour l’inférence. Conçu spécifiquement pour GitHub Copilot, VS Code et l’écosystème Microsoft, il est profondément intégré à ces outils. Avec 5 milliards de paramètres, cette itération relativement compacte offre des performances comparables à Haiku pour un coût inférieur.

Sur le sujet de la génération d’images, Microsoft avait déjà publié MAI-Image-1 en octobre 2025, puis MAI-Image-2 en avril de cette année, avec une amélioration considérable des performances et de la vitesse de génération d’images dans Copilot, selon Microsoft. Aujourd’hui, le géant dévoile MAI-Image-2.5, ainsi que sa variante ultra-efficace Flash, qui prend en charge à la fois la génération d’images à partir de texte et l’édition d’images à un niveau tel qu’il dépasse le score obtenu par Nano Banana Pro sur Arena.

Microsoft avait déjà jeté les premières bases de la transcription à l’aide de l’IA avec son modèle MAI-Transcribe-1, un modèle speech-to-text dédié à la transcription donc, et couvrant 25 langues, publié début avril. Aujourd’hui, MAI Transcribe-1.5 est désormais, selon Microsoft, “le meilleur modèle de transcription au monde, avec une précision de pointe”. Il est cinq fois plus rapide que les modèles concurrents et intègre une prise en charge native de la terminologie spécialisée dans 43 langues.

Enfin, sur le sujet de la voix, là encore, Microsoft monte en gamme avec MAI-Voice-2 qui permet la génération vocale naturelle et de haute qualité dans 15 langues (faisant ainsi suite à une première version publié en août 2025). Ce modèle a la capacité d’adapter une voix à partir d’un court échantillon, tout en intégrant de solides mécanismes de protection contre les usages abusifs, précise la firme. MAI-Voice-2-Flash, qui sera lancé prochainement, offrira les mêmes capacités dans “une version plus économique et ultra-efficiente”, promet-elle.

En plus de leur distribution via Foundry et de leur optimisation pour les produits propriétaires de Microsoft, ces modèles seront également accessibles aux développeurs sur différentes plateformes.

Personnaliser les modèles à l’aide des données des entreprises

Microsoft le sait : la clé réside dans la personnalisation. Et ce, quel que soit le produit. C’est pourquoi elle publie en même temps que sa série de modèles un environnement d’apprentissage par renforcement (RLE) qui permette aux modèles MAI d’apprendre directement à partir des processus métier des entreprises clientes. Baptisé Frontier Tuning, cet espace de travail est accessible uniquement à l’organisation selon des principes de sécurité définis.

“Les développeurs et les entreprises réclament depuis longtemps une IA qui fonctionne selon leurs propres règles et sous leur contrôle. Nous considérons cette avancée comme une étape majeure dans cette direction”, commente Microsoft.

Microsoft avance enfin sur le sujet de l’IA générative avec ses propres clés

Avec cette série de modèles, Microsoft entend donc prendre en charge davantage d’aspects du travail au quotidien, incluant le raisonnement, la génération de code et les workloads de conversion text-to-image et image-to-image pour les développeurs. A l’en croire, cela ne serait d’ailleurs qu’une première étape de sa stratégie.

“La puissance de calcul utilisée pour entraîner les modèles d’IA de pointe a été multipliée par mille milliards. Nous prévoyons désormais une nouvelle multiplication par mille au cours des trois prochaines années, ce qui se traduira par des capacités toujours plus avancées et par le déploiement continu d’IA de plus en plus performantes”.

Un laboratoire dédié à la “superintelligence”

En parallèle, Microsoft explique s’atteler à la construction d’un laboratoire dédié à la “superintelligence”, misant sur ses jeux de données propriétaires, ses propres puces Maia 200 avec l’objectif à long terme de tendre vers davantage “d’autonomie” pour Microsoft et ses partenaires. “Au cours de l’année à venir, attendez-vous à une accélération rapide de nos capacités de calcul et de nos performances alors que nous poursuivons cette ambition”, conclut la firme.

Source : usine-digitale.fr