WudoAny dévoile le modèle MWA d’IA incarnée, atteignant 75,2 % et se classant premier au RoboCasa

2026-06-29 16:22

Favoris

fr.wedoany.com Rapport : Le 29 juin, l’entreprise chinoise d’IA incarnée WudoAny a officiellement lancé le MWA™, un cerveau généraliste pour l’IA incarnée, positionné comme un modèle d’espace latent à « chaîne causale physique bidirectionnelle à long terme ». Dans l’évaluation RoboCasa GR1 TableTop pour l’IA incarnée, le MWA™-WALA, développé conjointement par WudoAny et l’Institut d’automatique de l’Académie chinoise des sciences, a obtenu la première place mondiale avec un taux de réussite moyen de 75,2 %, surpassant des modèles tels que le GR00T-N1.6 de NVIDIA, l’ACE-EGO-0 de Daxiaorobot, le DIAL de XPeng et l’ABot-M0 d’AutoNavi. Cette annonce pousse plus loin la stratégie « modèle d’espace latent + apprentissage par renforcement » de WudoAny vers des tâches d’opération à long cycle, multi-étapes et de haute précision.

Le rôle d’un modèle du monde est de permettre au robot de comprendre les changements environnementaux et les conséquences de ses actions avant d’exécuter une tâche. Pour l’IA incarnée, le modèle doit non seulement « voir » les objets, mais aussi déterminer comment ils se déplacent, entrent en collision, glissent, subissent des forces et se stabilisent.

Le changement clé du MWA™ réside dans la modélisation des relations de cause à effet physiques dans l’espace latent. Les modèles robotiques traditionnels reposent souvent sur une cartographie directe entre la vision, le langage et l’action, permettant d’effectuer des tâches courtes comme la préhension, le placement ou l’interrupteur, mais ils souffrent de ruptures dans la continuité des actions, de dérives de trajectoire, d’instabilité de force et d’erreurs de jugement d’état cible dans les tâches à long cycle. Le MWA™ utilise un mécanisme de modélisation de dynamique inverse par lots temporels, produisant des groupes d’actions Latent Action Chunk en continu, permettant au robot de ne plus générer des actions isolées, mais de construire une chaîne d’actions continue autour d’un segment de tâche. Ainsi, lors d’opérations multi-étapes, le robot peut traiter « l’action actuelle », « l’état suivant » et « l’objectif final de la tâche » dans un même cadre temporel.

Le système de données centrales d’échantillons négatifs AnyPhys sert à combler la compréhension du robot des limites de l’échec. L’entraînement de l’IA incarnée ne peut pas se baser uniquement sur des démonstrations réussies ; dans les opérations réelles, les glissements, les collisions, les préhensions décalées, les pertes de posture, les projections d’objets et les erreurs dans les espaces confinés sont plus courants. Le MWA™ utilise un grand nombre d’échantillons d’échecs, d’instabilités et de situations limites pour déduire inversement les domaines de stabilité physique dans différentes conditions de travail, permettant au robot d’éviter les trajectoires à haut risque lors de la génération d’actions. Pour les scénarios industriels et de services commerciaux, cette capacité est plus cruciale que la simple amélioration des performances de démonstration, car le robot doit maintenir stabilité, sécurité et reproductibilité sur de longues périodes de fonctionnement.

Le RoboCasa GR1 TableTop teste principalement la capacité de généralisation du robot dans des tâches de bureau. Les objets complexes, les scènes non standard, les variations de lumière et les interférences de débris amplifient les différences de compréhension spatiale, de continuité d’action et de planification de tâches entre les modèles.

Un taux de réussite moyen de 75,2 % indique que le MWA™ a obtenu des performances élevées dans des tâches telles que les opérations continues multi-étapes, la préhension dans des espaces confinés et la collecte précise d’objets dispersés. La valeur des environnements de simulation comme RoboCasa réside dans leur capacité à tester les stratégies robotiques dans de nombreuses tâches de cuisine, de bureau et d’interaction avec des objets, plutôt que de se concentrer uniquement sur une action de préhension unique. Cette première place du MWA™ montre que la voie du modèle d’espace latent est très compétitive dans les évaluations de simulation, fournissant également une nouvelle base de validation algorithmique pour le déploiement futur sur des robots réels. Selon la documentation officielle de RoboCasa, son benchmark est utilisé pour comparer les stratégies robotiques généralistes, couvrant plusieurs types d’opérations dans des environnements quotidiens, et se concentre sur l’apprentissage multitâche et l’évaluation de la généralisation.

Cette annonce s’inscrit également dans le rythme technologique et commercial récent de WudoAny. WudoAny avait déjà finalisé un tour de financement d’amorçage de plus de 200 millions de dollars américains, et construit le cerveau généraliste MWA™ autour de la stratégie « modèle d’espace latent + apprentissage par renforcement » ; le robot de deuxième génération K15 de l’entreprise est entré en phase de production en série, avec des applications couvrant la fabrication industrielle, les services commerciaux, etc. Pour WudoAny, les résultats dans les classements de modèles ne sont qu’une porte d’entrée technique ; le véritable test réside dans la capacité du MWA™ à entrer dans des usines réelles, des espaces commerciaux et des tâches d’opération mobile à long cycle, en supportant les pressions d’ingénierie liées aux cadences de production, aux environnements ouverts, aux contraintes de sécurité et au multitâche.

L’IA incarnée passe de la « capacité à démontrer » à la « capacité à fonctionner de manière stable sur le long terme ». Si le MWA™ peut transférer ses capacités d’action temporelle de la simulation à des robots réels, cela contribuera à améliorer la fiabilité des robots dans l’assemblage, le tri, la préhension et le placement, le service, l’inspection et les opérations dans des espaces complexes. Pour l’ensemble du secteur, cette compétition de modèles ne se limite plus à la compréhension du langage ou à la reconnaissance visuelle, mais porte sur la modélisation du monde physique, la continuité des actions, l’apprentissage à partir d’échantillons d’échecs et la capacité d’itération en boucle fermée dans des scénarios réels. Avec le lancement du MWA™, WudoAny fait du modèle d’espace latent une branche technologique importante dans la voie du cerveau généraliste pour l’IA incarnée.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com