fr.wedoany.com Rapport : Le 24 juin, Qwen, entreprise chinoise, a officiellement lancé Qwen-AgentWorld, un modèle de langage du monde natif, ainsi que le benchmark d'évaluation AgentWorldBench couvrant sept domaines. Ce modèle et ce benchmark sont désormais disponibles en accès libre sur Hugging Face et ModelScope, destinés à des scénarios tels que la simulation d'environnements d'agents IA, l'entraînement de tâches et l'évaluation des capacités.
Le positionnement central de Qwen-AgentWorld est celui d'un « modèle de langage du monde », et non d'un simple modèle de dialogue généraliste. Il simule, par le biais du langage, les changements d'état de l'environnement dans lequel évolue l'agent. En se basant sur les actions de l'agent et l'historique des interactions, il prédit les retours de l'environnement à l'étape suivante. Pour les agents IA, ce type de modèle équivaut à fournir un espace d'interaction virtuel permettant des essais et erreurs répétés, utilisé pour entraîner et évaluer les capacités de planification, d'exécution et de correction des agents dans des tâches complexes.
Qwen-AgentWorld, publié cette fois-ci, couvre sept domaines d'interaction des agents, notamment l'appel d'outils MCP, la recherche, le terminal, le génie logiciel, Android, le web et les systèmes d'exploitation. Ces domaines incluent à la fois des environnements textuels, des interfaces graphiques et des environnements d'exploitation logicielle, couvrant les points d'entrée de tâches courants pour les agents IA actuels. Le modèle peut être utilisé pour simuler les résultats d'exécution de commandes dans un terminal, les retours d'actions sur une page web, les changements d'interface d'une application mobile, la progression de tâches de génie logiciel et les réponses environnementales après un appel d'outil.
Selon les informations officielles, Qwen-AgentWorld-35B-A3B est entraîné sur la base de Qwen3.5-35B-A3B-Base, avec un nombre total de paramètres de 35B et environ 3B de paramètres activés, prenant en charge une longueur de contexte de 262K. Son processus d'entraînement comprend trois phases : pré-entraînement continu, ajustement supervisé fin et apprentissage par renforcement. Dès les premières phases d'entraînement, l'objectif est de se concentrer sur la modélisation de l'environnement, plutôt que d'ajouter temporairement des capacités de simulation à un modèle de langage généraliste.
Publié simultanément, AgentWorldBench est utilisé pour évaluer la qualité de simulation des modèles de langage du monde dans différents environnements d'interaction. Ce benchmark évalue les observations environnementales prédites par le modèle selon cinq dimensions : format, factualité, cohérence, réalisme et qualité, aidant ainsi les chercheurs à comparer les performances de différents modèles dans les tâches de simulation environnementale. La page Hugging Face indique que l'ensemble de données AgentWorldBench est ouvert sous forme d'ensemble de test, contenant environ 2 170 échantillons.
Ce type de modèle a une importance directe pour la recherche et le développement d'agents IA. Actuellement, l'entraînement des agents est confronté à un problème concret : le coût d'appel à l'environnement réel est élevé, l'état des tâches est complexe, et les environnements d'API, de pages web, de terminaux et d'applications mobiles sont difficiles à reproduire de manière stable à grande échelle. Si un modèle de langage du monde peut simuler avec une relative précision les retours de l'environnement, les chercheurs peuvent alors permettre à l'agent de procéder à de multiples essais et erreurs dans un environnement virtuel, puis transférer les stratégies acquises aux tâches réelles.
La publication de Qwen-AgentWorld montre également que la concurrence entre grands modèles passe de la « réponse aux questions » à la « compréhension de l'environnement et la prédiction de ses changements ». Par le passé, les grands modèles se mesuraient principalement sur leurs capacités de connaissance, de raisonnement et de génération. À l'ère des agents, l'accent est davantage mis sur la capacité à juger des conséquences des actions dans le cadre d'interactions multiples. La valeur d'un modèle du monde réside précisément dans l'établissement d'un pont de simulation entraînable, évaluable et extensible entre l'action et le résultat.
Cependant, les modèles de langage du monde ne peuvent pas encore remplacer l'environnement réel. Les pages web, les systèmes d'exploitation, les applications mobiles et les appels d'outils sont tous affectés par les versions, les autorisations, l'état du réseau et les changements de services externes. Les résultats de simulation doivent donc être validés dans des scénarios réels. Qwen-AgentWorld est plus adapté pour servir d'infrastructure pour l'entraînement et l'évaluation des agents, afin de réduire les coûts d'essais et d'erreurs, d'élargir la couverture environnementale et de détecter les faiblesses des agents, plutôt que d'être directement assimilé au fonctionnement d'un système réel.
Avec l'ouverture simultanée du modèle et du benchmark, les développeurs peuvent effectuer des évaluations secondaires et des ajustements fins dans des scénarios tels que le terminal, le génie logiciel, les applications mobiles, la recherche et l'appel d'outils. Pour que les agents IA passent de la démonstration à une utilisation pratique, ils ont besoin d'une simulation environnementale plus stable, de normes d'évaluation reproductibles et d'une boucle d'entraînement orientée vers des tâches réelles. Qwen-AgentWorld vient justement combler ce maillon en fournissant une nouvelle base d'outils.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









