Alibaba, en Chine, publie la suite Qwen-Robot Suite, composée de trois modèles d’IA pour robots
2026-06-19 11:41
Favoris

fr.wedoany.com Rapport : Les ingénieurs d’Alibaba ont dévoilé la suite Qwen-Robot Suite, composée de trois modèles d’IA fondamentaux conçus pour les robots et les agents intelligents. Ces modèles sont capables non seulement de comprendre du texte et des images, mais aussi d’exécuter des actions dans le monde physique.

Cette suite comprend trois modèles, chacun destiné à répondre à différents besoins en matière de tâches robotiques.

Qwen-RobotNav est un modèle intégrant plusieurs scénarios de navigation, incluant le suivi d’instructions, le déplacement vers un point désigné, la recherche d’objets, le suivi de cibles et la conduite autonome. Ce modèle est positionné comme un modèle de base pour la navigation des systèmes d’agents intelligents. Un planificateur externe peut le combiner avec des sous-tâches issues de la décomposition de grandes tâches, et basculer dynamiquement entre les modes du modèle lors de l’exécution.

Ce modèle prend en charge la configuration de protocoles d’observation, permettant au système d’effectuer des ajustements dynamiques lors du traitement du contexte visuel, par exemple en ajustant le nombre de tokens ou les poids des différentes caméras. Les ingénieurs l’ont entraîné sur 15,6 millions d’échantillons, et le nombre de paramètres a été étendu de 2 milliards à 8 milliards pour améliorer les performances.

Qwen-RobotManip est un modèle vision-langage-action basé sur Qwen-VL, spécialisé dans les interactions physiques avec les objets. Ce modèle vise à résoudre le problème de l’hétérogénéité des données robotiques, c’est-à-dire les différences entre robots dues à leurs structures, capteurs et modes de contrôle variés.

Pour résoudre ce problème, Qwen-RobotManip adopte un mécanisme d’alignement des représentations, des actions et des comportements, permettant aux développeurs de transférer plus facilement les compétences entre différents robots. Ce modèle a été entraîné sur un ensemble de données comprenant 38 000 vidéos, des données robotiques et des données synthétiques.

Qwen-RobotWorld est un modèle du monde capable de « prédire » l’évolution de l’environnement physique en fonction d’observations en temps réel et d’instructions textuelles. Ce modèle peut générer des trajectoires visuelles futures pour différents scénarios.

Actuellement, tous les modèles de cette suite sont open source et des vidéos de démonstration sont disponibles sur la page officielle.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com