fr.wedoany.com Rapport : Lors de sa conférence annuelle Build 2026, Microsoft a présenté plusieurs modèles d’IA maison, couvrant les domaines du raisonnement, de la génération d’images, de la transcription audio et de la synthèse vocale. Les utilisateurs peuvent les essayer gratuitement sur le site Playground de Microsoft. Les tests montrent que ces modèles offrent des performances globalement correctes, sans toutefois surpasser les concurrents existants dans leurs domaines respectifs.

Les modèles de la série MAI (Microsoft AI) reposent sur des grands modèles de langage (LLM) internes, contrairement au chatbot Copilot qui fonctionne sur la technologie OpenAI. Les modèles dévoilés incluent : le modèle de raisonnement MAI-Thinking-1, les modèles de génération d’images MAI-Image-2.5 et 2.5 Flash, le modèle de transcription audio MAI-Transcribe-1.5, ainsi que les modèles de synthèse vocale MAI-Voice-2 et 2 Flash. Microsoft qualifie ces modèles d’« expérimentaux » et en « aperçu limité ». MAI-Thinking-1 n’est actuellement accessible en avant-première qu’à certains utilisateurs.
En tant que premier modèle de raisonnement de Microsoft, MAI-Thinking-1 a été comparé au modèle Claude Sonnet d’Anthropic pour le traitement de requêtes complexes. Les tests révèlent que le modèle de Microsoft ne peut pas accéder à Internet et n’apporte pas d’amélioration significative par rapport à Sonnet en termes de précision, de qualité des réponses ou de rapidité, notamment pour répondre à des questions sur les mécanismes du jeu *Path of Exile 2* ou la construction de structures de bases de données.
MAI-Image-2.5 marque une nette amélioration par rapport à la première version d’octobre 2025, mais reste en retrait face à Nano Banana Pro de Gemini en matière de netteté d’image et de rendu du texte. Lors des tests, les bandes dessinées et graphiques générés par MAI-Image-2.5 présentaient des déformations de texte, contrairement à Nano Banana Pro.
Lors des tests de transcription, MAI-Transcribe-1.5 a commis 13 erreurs, contre seulement 6 pour Gemini dans le même scénario. Lors du test de décryptage des paroles d’une chanson difficile, les deux modèles ont commis des erreurs, mais la transcription de MAI-Transcribe-1.5 a été interrompue avant la fin de la chanson. Google ne promeut pas spécifiquement Gemini comme outil de transcription.

MAI-Voice-2 propose plusieurs options de langues et de styles, mais lors des tests, la combinaison de la qualité audio, des bruits de respiration, du rythme et de l’intonation a donné un résultat nettement non humain à l’écoute, loin du réalisme de technologies vocales comme Sesame. Ce modèle permet actuellement de personnaliser la voix selon différents styles.

Les premiers tests, du point de vue du consommateur, montrent que l’évaluation globale des modèles MAI de Microsoft est « correcte », à l’image des performances de Copilot. Leur compétitivité repose davantage sur un large éventail de fonctionnalités et l’intégration dans l’écosystème Microsoft que sur la supériorité absolue des modèles sous-jacents. Cependant, compte tenu de la vitesse d’amélioration de la série MAI-Image ces derniers mois, Microsoft continuera à tester ces modèles.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









