Alibaba lance Qwen3.7-Plus : l’agent multimodal passe de la compréhension visuelle à l’exécution de bout en bout

2026-06-02 09:19

Favoris

fr.wedoany.com Rapport : Le 2 juin, Alibaba a officiellement lancé le modèle d’agent multimodal Qwen3.7-Plus. Ce modèle améliore les capacités vision-langage sur la base des compétences textuelles de Qwen3.7, tout en conservant les capacités d’agent telles que le codage, l’utilisation d’outils et les workflows de productivité.

Le changement principal de Qwen3.7-Plus consiste à faire passer la « compréhension du contenu » à la « compréhension de l’interface et exécution de tâches ». La page du modèle Qwen d’Alibaba Cloud indique que l’agent multimodal Qwen3.7-Plus peut non seulement comprendre les interfaces et utiliser les applications, mais aussi écrire du code et livrer des résultats, visant à réaliser une boucle fermée de bout en bout : « voir, penser, écrire, faire et vérifier ». Pour les applications d’IA en entreprise, les capacités multimodales étaient auparavant principalement concentrées sur la compréhension d’images, la reconnaissance de documents, l’analyse de graphiques et le résumé de contenu vidéo, le modèle jouant principalement un rôle de lecture d’informations et d’interprétation de contenu. En entrant dans la phase d’agent, les entreprises ont besoin que le modèle, après avoir compris l’écran, interprété les pages web, reconnu les interfaces logicielles et lu les documents métier, continue à effectuer des opérations, notamment appeler des outils, générer du code, remplir des formulaires, organiser des documents, exécuter des processus bureautiques et vérifier les résultats. Qwen3.7-Plus met l’accent sur la combinaison des capacités vision-langage avec les capacités d’agent, ce qui signifie que le modèle multimodal commence à s’étendre de la « couche de perception » à la « couche d’exécution de tâches ».

Cette mise à jour s’inscrit également dans la continuité de l’orientation produit de la série Qwen 3.7 d’Alibaba, conçue pour l’ère des agents. La page d’Alibaba Cloud indique que la série Qwen3.7 a fait des progrès complets en matière de programmation, d’automatisation bureautique et de capacité d’exécution autonome de tâches à long terme, se positionnant pour les applications d’agent dans des scénarios complexes.

D’un point de vue de la mise en œuvre technique, Qwen3.7-Plus est mieux adapté pour prendre en charge les tâches composites dans les scénarios de productivité en entreprise. De nombreux processus d’entreprise ne sont pas des tâches purement textuelles, mais sont composés de pages web, de tableaux, d’images, de PDF, de systèmes back-end, de comptes rendus de réunions, de dépôts de code et de bases de données métier. Si le modèle ne peut traiter que du texte, une main-d’œuvre importante est nécessaire pour transcrire les informations de l’interface en instructions ; s’il ne peut que reconnaître des images, il ne peut pas non plus effectuer directement les opérations ultérieures. La valeur du modèle d’agent multimodal réside dans la connexion de la reconnaissance visuelle, du raisonnement linguistique, de la génération de code, de l’appel d’outils et de la vérification des résultats en un seul flux, permettant à l’IA de fonctionner dans une chaîne de tâches plus proche de l’environnement de bureau réel. Par exemple, dans un scénario de développement logiciel, le modèle doit lire les captures d’écran d’erreurs, localiser les fichiers de code, modifier la logique, exécuter des tests et fournir des explications de correction ; dans les scénarios opérationnels et bureautiques, le modèle doit identifier les pages back-end, extraire des données, générer des rapports, mettre à jour des documents et vérifier la cohérence du format. La capacité à livrer de manière stable ce type de capacités affectera directement la vitesse à laquelle les agents passeront de produits de démonstration à des flux de travail d’entreprise.

Qwen3.7-Plus reflète également que la concurrence des grands modèles en Chine passe d’une échelle de paramètres unique et de capacités de questions-réponses générales à des agents multimodaux, à l’adaptation de chaînes d’outils et à l’intégration de workflows d’entreprise. Alibaba couvre simultanément la génération de texte, la compréhension visuelle, la parole, la génération d’images, les agents de code et les modèles multimodaux complets dans sa série de modèles Qwen, soutenue par une matrice de produits comprenant des services cloud, une plateforme de développement, des points d’entrée d’application et des API d’entreprise. Pour les clients professionnels, la capacité du modèle elle-même n’est que la première couche ; les décisions d’adoption sont également influencées par le coût d’appel, la longueur du contexte, la vitesse d’inférence, la gestion des autorisations, la sécurité des données, les méthodes de déploiement privé ou cloud, et la capacité à former des interfaces stables avec les systèmes métier existants. Si Qwen3.7-Plus peut maintenir des performances stables dans la compréhension des interfaces visuelles et les opérations d’outils, cela aidera Alibaba à intégrer davantage les capacités de Qwen dans les scénarios de R&D, de bureautique, de service client, de traitement de données, de conception collaborative et d’automatisation des processus métier.

Les variables futures se concentrent sur le taux de réussite des tâches réelles, la capacité d’adaptation aux interfaces complexes, la stabilité d’exécution des longs processus, le coût d’intégration dans les systèmes d’entreprise et l’expansion de l’écosystème des développeurs. La concurrence des modèles d’agents multimodaux ne porte plus seulement sur la capacité du modèle à répondre à des questions, mais sur sa capacité à accomplir continuellement des tâches dans des processus métier réels, à détecter des erreurs et à livrer des résultats utilisables. Le lancement de Qwen3.7-Plus montre qu’Alibaba continue de concentrer l’itération de son modèle Qwen sur les applications d’agent de niveau production.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Chine

Information et communication Ingénierie de l'intelligence artificielle

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com