Microsoft intègre deux nouveaux modèles MAI dans ses produits Copilot
MAI-Voice-1 est un modèle de synthèse vocale (text-to-speech), tandis que MAI-1-preview est un modèle de langage (text-to-text), destiné à comprendre et générer du texte, répondre à des questions, ou aider à la rédaction. Deux atouts qui pourraient aider Microsoft à proposer des systèmes d’IA internes, plus contrôlables et adaptés à ses produits et ainsi réduire sa dépendance aux modèles externes.
Microsoft revient doucement dans la course. Après avoir dévoilé VibeVoice, un modèle ouvert générant des conversations audio dans NotebookLM en début de semaine, la firme de Redmond publie aujourd’hui MAI-Voice-1, son premier modèle de génération vocale « hautement expressif et naturel » entièrement développé en interne. Ce dernier est disponible dans Copilot Daily et Podcasts, ainsi que dans Copilot Labs à essayer.
Son plus grand atout réside dans sa capacité à produire une minute complète d’audio en moins d’une seconde sur un seul GPU. Moins axé sur la durée ou le nombre de locuteurs simultanés, il sera donc très performant en termes de qualité et de rapidité et Microsoft devrait cibler les utilisateurs finaux en quête d’expériences vocales immersives et interactives, comme des assistants vocaux ou des contenus audio personnalisés.
Un premier LLM interne arrive dans le catalogue Microsoft
En parallèle, Microsoft affirme avoir commencé des tests publics de MAI-1-preview sur LMArena (le modèle est 13e au classement général). Il s’agit d’un LLM propriétaire (text-to-text uniquement), destiné à comprendre et générer du texte, répondre à des questions, ou aider à la rédaction. Ce modèle de type « mixture-of-experts » (MoE) a été pré-entraîné et post-entraîné sur environ 15 000 GPU NVIDIA H100, ce qui en fait un modèle très puissant et performant.
Conçu pour comprendre et répondre de manière utile et précise aux requêtes quotidiennes des utilisateurs, en suivant des instructions complexes ou nuancées, il est donc intégré dans Copilot – pour l’heure uniquement dans un certain nombre de cas d’usage afin de recueillir des retours utilisateurs et d’améliorer ses performances.
Pour Microsoft, cela sonne la fin d’une ère de dépendance totale aux modèles propriétaires d’autres acteurs de l’IA, avec une option fiable et complémentaire qui permet d’offrir des réponses plus adaptées et personnalisées. Jusqu’à présent, Microsoft avait misé sur une approche multi-modèles avec un partenariat phare, celui qui le lie à OpenAI. Mais les choses pourraient bien changer, le géant ajoutant avoir « une feuille de route passionnante en matière de calcul chez MAI, avec notre cluster de nouvelle génération GB200 désormais opérationnel ». Affaire à suivre.
Source : usine-digitale.fr