Alibaba lance la série Qwen-Robot pour promouvoir le déploiement des modèles d’intelligence incarnée

2026-06-16 14:04

Favoris

fr.wedoany.com Rapport : Le 16 juin, Alibaba a lancé la série Qwen-Robot, un grand modèle d’intelligence incarnée, comprenant trois modèles : le modèle d’opération VLA Qwen-RobotManip, le modèle de navigation VLN Qwen-RobotNav et le modèle du monde Qwen-RobotWorld. Il s’agit de la première série complète de modèles d’intelligence incarnée de la famille Qwen, destinée respectivement à l’opération robotique, à la navigation mobile et à la compréhension environnementale. Ces modèles peuvent être déployés individuellement ou fonctionner en synergie, fournissant une base de modèles universels pour que différents types de robots entrent dans des scénarios réels.

La clé de l’intelligence incarnée est de permettre à l’IA non seulement de comprendre et de générer du texte, des images et des vidéos, mais aussi d’interagir avec le monde physique. Pour travailler dans un environnement réel, un robot doit accomplir simultanément plusieurs capacités, telles que « voir un objet, comprendre une tâche, planifier un chemin, contrôler des actions et évaluer les résultats ». La série Qwen-Robot divise l’opération, la navigation et la modélisation du monde en trois directions de modèles, ce qui montre qu’Alibaba souhaite étendre les capacités des grands modèles universels à la chaîne d’actions robotiques, sans se limiter au dialogue ou à la reconnaissance visuelle.

Qwen-RobotManip est un modèle d’opération VLA, où VLA signifie modèle vision-langage-action, se concentrant sur le problème de la « main » du robot. Face à des objets de table, des outils, des pièces ou des articles quotidiens, le robot doit identifier la cible, comprendre les instructions, puis générer des actions exécutables telles que saisir, déplacer, placer, ouvrir/fermer et ranger. Le contrôle robotique traditionnel repose sur des programmes fixes et des environnements structurés ; une fois que la position de l’objet, l’arrière-plan, l’éclairage ou l’expression de la tâche changent, la capacité de généralisation diminue facilement. La valeur du modèle VLA réside dans le fait de placer la perception visuelle, les instructions linguistiques et le contrôle des actions dans un même cadre, permettant au robot de générer des stratégies d’action en fonction du langage naturel et des images de la scène.

Qwen-RobotNav est un modèle de navigation VLN, où VLN signifie modèle de navigation vision-langage, se concentrant sur le problème du « pied » du robot. Lorsque des robots de service, d’inspection, quadrupèdes ou des plateformes mobiles entrent dans des bureaux, usines, entrepôts, parcs ou environnements domestiques, ils doivent comprendre « où aller, comment y aller, quoi éviter et quoi faire après être arrivé ». La navigation mobile ne se limite pas à la planification de chemin ; elle implique également la compréhension sémantique spatiale, l’évitement d’obstacles, le suivi d’instructions multiples et la confirmation de la position de la tâche. Le modèle VLN permet au robot de faire correspondre les objectifs linguistiques avec l’environnement visuel, accomplissant ainsi des tâches de mobilité dans des environnements ouverts plus complexes.

Qwen-RobotWorld assume le rôle de modèle du monde, se concentrant sur le problème du « cerveau » du robot. Le modèle du monde sert à comprendre les relations entre les objets, la structure spatiale, les conséquences des actions et les changements environnementaux, aidant le robot à prédire et planifier avant d’exécuter. Si un robot ne fait qu’exécuter des actions pas à pas selon les instructions, il lui est difficile de gérer les situations imprévues du monde réel ; le modèle du monde permet au système d’estimer « ce qui se passera après avoir fait cela » et d’ajuster la stratégie en cours de tâche. Pour les scénarios industriels, logistiques, de services commerciaux et domestiques, cette capacité détermine si le robot peut passer de tâches de démonstration à un travail continu.

Alibaba avait déjà mené des recherches dans le domaine Qwen-VLA. Les documents techniques officiels de Qwen-VLA montrent que ce modèle intègre l’opération, la navigation et la prédiction de trajectoire dans un cadre unifié d’action et de prédiction de trajectoire, et s’adapte à différentes plateformes robotiques via des invites de perception incarnée. Les recherches associées soulignent qu’un modèle unifié peut servir plusieurs plateformes incarnées, sans avoir à concevoir des têtes de sortie distinctes pour chaque plateforme. Après le lancement de la série Qwen-Robot, la feuille de route de l’intelligence incarnée de Qwen passe d’un cadre de recherche à un système de modèles orienté produit.

D’un point de vue industriel, le lancement de la série Qwen-Robot intervient dans un contexte d’accélération du déploiement des robots humanoïdes, des robots mobiles et des agents industriels. Les entreprises robotiques sont généralement confrontées à un problème : le matériel progresse rapidement, mais la capacité à effectuer des tâches universelles, la généralisation des scénarios et la boucle de données restent des goulets d’étranglement. Les capteurs, articulations, actionneurs et méthodes de contrôle des différentes formes de robots varient considérablement ; si chaque produit entraîne un modèle à partir de zéro, le coût est élevé, le cycle long, et il est difficile de capitaliser sur des capacités multiplateformes. L’objectif des grands modèles d’intelligence incarnée est de fournir à différents robots des capacités réutilisables de perception, compréhension, planification et génération d’actions.

Pour Alibaba, la série Qwen-Robot complète également le maillon de l’interaction entre le langage, le multimodal, l’agent et le monde physique dans le grand modèle Qwen. Les grands modèles universels passent de l’exécution de tâches en ligne à l’exécution dans des scénarios réels, tandis que les robots ont besoin de grands modèles pour fournir une meilleure compréhension des tâches et une capacité de planification d’actions. À l’avenir, la véritable mise en œuvre des modèles incarnés dépendra encore des interfaces matérielles robotiques, de l’échelle des données d’entraînement, du transfert entre simulation et environnement réel, des limites de sécurité des actions et de l’adaptation aux scénarios industriels. Le lancement du modèle n’est qu’un point de départ ; les résultats de validation ultérieurs dans les entrepôts, l’inspection, la fabrication, les services commerciaux et domestiques détermineront sa valeur industrielle.

L’importance de la série Qwen-Robot réside dans le fait qu’Alibaba commence à entrer dans le cœur de l’intelligence incarnée avec une combinaison complète de modèles. VLA résout l’opération, VLN résout la mobilité, et le modèle du monde résout la compréhension et la planification environnementales. Une fois ces trois éléments en synergie, le robot a la possibilité de passer de l’exécution de compétences uniques au traitement de tâches en plusieurs étapes. Alors que l’intelligence incarnée passe du laboratoire à l’environnement de travail réel, la base de modèles universels, la capacité d’adaptation matérielle et la boucle de données de scénarios deviendront des variables clés dans la compétition de l’industrie robotique.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com