fr.wedoany.com Rapport : La société chinoise de robotique X Square Robot pousse les robots humanoïdes vers des scénarios d’application plus complexes, avec pour objectif central de permettre aux robots d’effectuer des opérations autonomes dans des environnements réels, chaotiques et imprévisibles, qu’ils soient domestiques ou professionnels.

Wang Qian, fondateur et PDG de l’entreprise, a déclaré que les bases matérielles de l’industrie robotique sont déjà en place, avec des progrès rapides dans les domaines de la locomotion humanoïde, des mains dextres et des systèmes de contrôle en force. Le véritable goulot d’étranglement réside dans l’intelligence. Pour combler cet écart, X Square Robot a ouvert en open source trois technologies au cours des dernières semaines : le modèle vision-langage-action Wall-OSS-0.5, le modèle d’action mondial WALL-WM conçu pour comprendre les événements physiques, et le cadre de collecte de données et d’entraînement sans robot XRZero-G0.
Wall-OSS-0.5 répond directement à la question de savoir si le pré-entraînement peut enseigner des compétences utiles aux robots. Contrairement aux approches qui évaluent des modèles après un fine-tuning, l’entreprise a déployé le modèle pré-entraîné directement sur des robots physiques et l’a testé sur 17 tâches du monde réel. Le système a démontré des performances en zero-shot dans le tri d’objets, l’empilage d’anneaux et la manipulation d’objets déformables. Ce modèle utilise un cadre d’entraînement par « pont de gradient », qui convertit les actions robotiques en jetons d’action, appris conjointement avec les représentations linguistiques et visuelles pendant le pré-entraînement, permettant à la perception, à la compréhension du langage et à la génération d’actions de co-évoluer au sein d’un modèle unifié. L’entreprise a constaté que l’entraînement aux actions améliore non seulement les capacités de manipulation, mais renforce également les performances d’ancrage visuel, indiquant que l’interaction physique peut enrichir la compréhension du monde par le modèle.
WALL-WM vise à résoudre le problème de la plupart des systèmes VLA qui n’apprennent que des trajectoires d’action sans véritablement comprendre les relations de cause à effet physiques. Ce modèle fait passer l’apprentissage de séquences d’actions fixes à des événements physiques significatifs, tels que tendre la main, saisir, soulever et placer. Contrairement aux architectures traditionnelles, WALL-WM aligne les observations visuelles, les descriptions linguistiques et les actions autour d’événements du monde réel, dans le but de permettre au robot non seulement d’agir, mais aussi de prédire les résultats, de raisonner sur les changements physiques et de s’ajuster en cas d’échec du plan.
Face au goulot d’étranglement des données pour l’IA incarnée, X Square Robot a lancé le cadre logiciel et matériel XRZero-G0. Ce système combine des interfaces portables, des capteurs multi-vues, un contrôle qualité automatisé et une validation sur robot réel, pour la collecte de données et l’entraînement sans robot. Grâce à des expériences contrôlées, l’entreprise a découvert que la combinaison de dix démonstrations sans robot avec une seule démonstration sur robot réel permet d’atteindre des performances comparables à celles d’un ensemble de données entièrement construit à partir de données de robots réels. L’entreprise a également publié plus de 2 000 heures de données multimodales, couvrant environ 3 000 tâches, afin de soutenir la recherche en IA incarnée.
Ces trois technologies open source forment ensemble un cadre complet couvrant les données, les modèles du monde et les modèles de base robotiques. Wang Qian estime que le « moment eurêka » de l’IA incarnée pourrait être plus proche que ce que l’on imagine.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









