NVIDIA dévoile Cosmos 3, un modèle de base ouvert pour l'IA physique
2026-06-05 10:18
Favoris

fr.wedoany.com Rapport : NVIDIA a dévoilé NVIDIA Cosmos 3, un modèle de base ouvert pour l'IA physique, construit sur une architecture de transformateur hybride, intégrant le raisonnement visuel, la génération de mondes et la prédiction d'actions en un seul système.

Cosmos 3 est le premier modèle polyvalent entièrement ouvert au monde, capable de comprendre et de générer nativement du texte, des images, des vidéos, des sons environnementaux et des actions, avec une précision physique de pointe, réduisant le cycle de formation et d'évaluation de l'IA physique de plusieurs mois à quelques jours.

Ce modèle résout un défi fondamental de l'IA physique : permettre aux robots, aux véhicules autonomes ou aux agents visuels de généraliser dans le monde réel avec des données de formation limitées et des piles de simulation fragmentées. Son architecture de transformateur hybride associe un transformateur de raisonnement à un transformateur expert en génération, permettant à Cosmos 3 de comprendre les interactions entre objets, les mouvements et les relations spatio-temporelles avant de générer des vidéos et des trajectoires d'actions. Le modèle est formé sur un ensemble de données d'IA physique multimodales contenant des milliards d'échantillons de texte, d'images, de vidéos, de sons et de trajectoires d'actions, offrant aux développeurs une base de préformation puissante pour construire des systèmes d'IA physique avec moins de données et des coûts de formation réduits.

Dans les tests de référence de l'IA physique, Cosmos 3 obtient des résultats de pointe. Parmi les modèles ouverts, sa précision de génération de mondes se classe première dans les évaluations Artificial Analysis, Physics-IQ, PAI-Bench et R-Bench ; ses stratégies d'action sont premières dans RoboLab et RoboArena ; sa compréhension visuelle est première dans les classements VANTAGE-Bench et TAR.

La série Cosmos 3 propose plusieurs versions : Cosmos 3 Super est destiné aux modèles de robots et de véhicules autonomes en post-formation nécessitant la plus haute précision physique et qualité de génération ; Cosmos 3 Nano est conçu pour un raisonnement vidéo et d'actions de haute qualité en une fraction de seconde ; Cosmos 3 Edge, à venir, est destiné à l'inférence en temps réel en périphérie.

NVIDIA a également lancé le NVIDIA Cosmos Coalition, une organisation de coopération mondiale composée de constructeurs de modèles mondiaux et de développeurs d'IA, dont les membres fondateurs incluent Agile Robots, Black Forest Labs, Generalist, LTX, Runway et Skild AI. Cette coalition vise à promouvoir les modèles mondiaux ouverts dans tous les secteurs, permettant aux membres de contribuer avec des modèles, des recherches et des techniques d'évaluation, tout en utilisant la technologie Cosmos 3, les outils de formation et l'infrastructure NVIDIA DGX Cloud pour une formation à grande échelle.

La plateforme Cosmos soutient la pile d'IA physique de NVIDIA, incluant de nouveaux ensembles de données pour la robotique, la physique, le mouvement humain, la conduite autonome, la sécurité des entrepôts et le raisonnement spatial, ainsi que des compétences d'agents d'IA physique pour la reconstruction de scènes neuronales, la génération d'images de défauts et l'amélioration vidéo. Les développeurs d'IA physique construisent sur cette plateforme, impliquant Agile Robots, Doosan Robotics, LG Electronics, Samsung Electronics, Skild AI dans le domaine de la robotique, Li Auto dans la conduite autonome, et Centific, Fogsphere, Linker Vision, Milestone Systems et Yuan dans les agents visuels d'IA.

Cosmos 3 Super et Cosmos 3 Nano sont désormais disponibles, Cosmos 3 Edge sera bientôt lancé. Les développeurs peuvent essayer Cosmos 3 sur build.nvidia.com, télécharger le modèle ouvert depuis Hugging Face, et utiliser Hugging Face Diffusers et les ressources GitHub pour personnaliser le modèle et générer des données synthétiques, tout en déployant le modèle en tant que microservice NVIDIA NIM. Les constructeurs de modèles et les fournisseurs de logiciels peuvent accélérer l'accès, la personnalisation et le déploiement de Cosmos pour les charges de travail critiques d'inférence et de génération de données synthétiques via les compétences d'agents d'IA physique sur GitHub, en utilisant les services d'inférence et les partenaires d'infrastructure cloud (dont Baseten, CoreWeave, Microsoft Azure, Nebius, Deep Infra, Classmethod).

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com