L’Institut de recherche sur l’intelligence artificielle de Pékin (BAAI) dévoile le modèle de base universel du monde physique, Wujie Physis

2026-06-15 14:35

Favoris

fr.wedoany.com Rapport : Le 12 juin, la huitième édition de la Conférence BAAI de Pékin s’est tenue dans la capitale chinoise. L’Institut BAAI a présenté le modèle de base universel du monde physique, Wujie·Physis-v0.1. Ce modèle, conçu pour la modélisation du monde physique réel, met l’accent sur la justesse physique, la traçabilité causale des actions, la cohérence à long terme et la capacité de généralisation universelle. Il peut s’adapter à des scénarios d’application physique réelle tels que la robotique, la génération vidéo, les jeux et l’industrie, fournissant un socle sous-jacent aux systèmes d’intelligence incarnée et d’intelligence industrielle.

Cette annonce place le modèle du monde à une position plus fondamentale. Les grands modèles de langage excellent dans la compréhension et le raisonnement textuels, et les modèles multimodaux connectent en outre les images, la parole et la vidéo. Cependant, la robotique, la simulation industrielle, la conduite autonome, la fabrication intelligente et les tâches spatiales complexes nécessitent non seulement de « comprendre l’image », mais aussi de comprendre comment les objets se déplacent, comment les actions produisent des résultats et si les changements environnementaux sont conformes aux lois physiques. Le positionnement de Wujie·Physis-v0.1 est précisément d’étendre le modèle, de la génération de contenu numérique, vers la prédiction et l’interaction avec le monde physique.

La difficulté des modèles du monde réside dans la continuité. Un clip vidéo peut sembler clair, mais si le mouvement des objets ne respecte pas la gravité, si les relations de collision sont contradictoires, ou si la causalité des actions est intraçable, il devient difficile de servir les robots réels et les scénarios industriels. Pour l’intelligence incarnée, un robot doit juger des conséquences de ses actions avant d’exécuter une tâche ; pour les applications industrielles, le modèle doit maintenir un raisonnement cohérent à travers les processus de production, le fonctionnement des équipements, les changements de matériaux et les contraintes spatiales. Physis-v0.1 met l’accent sur la cohérence à long terme et la traçabilité causale, indiquant que l’objectif du modèle n’est pas seulement de générer des images plus réalistes, mais de soutenir un raisonnement physique vérifiable, exécutable et transférable.

Parmi les autres résultats publiés simultanément par l’Institut BAAI figurent le grand modèle multimodale en neurosciences Wujie·Brainμ1.0, ainsi que les progrès dans les agents intelligents, l’écosystème des logiciels et matériels de base, et la construction d’un écosystème open source. Cela confère au système « Wujie » une orientation multidirectionnelle plus claire : d’un côté, il se tourne vers le monde physique et l’intelligence incarnée ; de l’autre, il se connecte aux neurosciences et aux sciences de la vie ; et enfin, il soutient l’expansion des applications via les agents intelligents et l’écosystème logiciel-matériel. Pour les instituts de recherche fondamentale en intelligence artificielle, cette combinaison signifie que l’accent de la recherche passe des capacités d’un modèle unique à la construction systémique de modèles, de données, d’agents, de plateformes et d’écosystèmes open source.

Physis-v0.1 est particulièrement important pour l’industrie robotique. Actuellement, les robots humanoïdes et les robots mobiles manipulateurs peuvent déjà effectuer des tâches telles que la préhension, le transport, l’inspection et la préparation de commandes en pharmacie. Cependant, ce qui limite véritablement leur déploiement à grande échelle, c’est la stabilité à long terme et la capacité de généralisation dans des environnements complexes. Un robot ne peut pas se contenter de suivre des programmes prédéfinis dans des scénarios fixes ; il doit comprendre les relations entre les tables, les étagères, les outils, les portes, les liquides, les objets flexibles et les actions humaines. Si un modèle universel du monde peut fournir des capacités de prédiction physique plus fiables, il contribuera à réduire les coûts d’essais et d’erreurs des robots lors de l’entraînement, de la simulation, de la planification des tâches et de la récupération après anomalies.

Dans le domaine industriel, le modèle du monde pourrait également devenir une nouvelle base pour les jumeaux numériques et la fabrication intelligente. La simulation industrielle traditionnelle repose généralement sur des règles explicites, des paramètres et des modèles d’ingénierie, adaptés à des équipements ou processus spécifiques, mais avec une capacité de transfert limitée entre scénarios. Si un modèle de base universel du monde peut apprendre les lois communes à différents systèmes physiques, il pourrait à l’avenir être utilisé pour la planification de lignes de production, la déduction de l’état des équipements, l’optimisation des paramètres de processus, la compréhension de vidéos industrielles et la prédiction des risques de sécurité. Pour les entreprises manufacturières, la valeur d’un tel modèle ne réside pas seulement dans la « génération d’images », mais dans l’aide apportée au système pour anticiper les conséquences d’une action, d’un processus ou d’un changement environnemental.

Les scénarios de jeux et de génération vidéo offrent une autre voie de validation. La génération de contenu de haute qualité nécessite des images réalistes, mais une génération plus avancée exige une cohérence des processus physiques, comme la continuité des mouvements des personnages, des collisions d’objets, des changements de lumière et d’ombre, de l’écoulement des liquides, des mouvements mécaniques et des relations spatiales. Si Physis-v0.1 peut maintenir une plausibilité physique dans ces scénarios, il pourra faire évoluer la production de contenu, passant de la génération de courts clips à la génération de mondes virtuels interactifs, contrôlables et évolutifs de manière durable. Cela permettrait également au modèle du monde de servir à la fois l’industrie du contenu numérique et les systèmes d’entraînement à l’intelligence incarnée.

Cette annonce a également des implications pour l’écosystème open source. L’Institut BAAI travaille depuis longtemps à la construction autour des grands modèles, des ensembles de données, des systèmes d’évaluation et des technologies de base open source. Si le modèle universel du monde est lié à des données open source, des plateformes d’évaluation, des cadres d’agents intelligents et un écosystème logiciel-matériel de base, cela contribuera à abaisser le seuil d’entrée pour les universités, les instituts de recherche et les équipes industrielles souhaitant se lancer dans la recherche sur les modèles du monde. Pour l’industrie chinoise de l’IA, la percée des capacités des modèles de base nécessite des efforts de la part des équipes de premier plan, mais aussi un écosystème ouvert permettant à davantage de développeurs de former des validations applicatives autour de la robotique, de l’industrie, de la recherche scientifique et de la génération de contenu.

Les prochaines étapes dépendent principalement de trois aspects : premièrement, si Wujie·Physis-v0.1 ouvre ses modèles, données, interfaces ou outils d’évaluation, permettant à des équipes externes de vérifier sa cohérence physique et sa capacité de généralisation ; deuxièmement, si les applications pilotes dans des scénarios tels que la robotique, l’industrie, les jeux et la génération vidéo produisent des cas reproductibles ; troisièmement, si des modèles neuroscientifiques comme Wujie·Brainμ1.0 peuvent établir des connexions plus profondes avec le système du modèle du monde, faisant progresser l’IA de l’intelligence linguistique et visuelle vers la recherche interdisciplinaire sur le monde physique et les sciences de la vie. Si ces directions progressent, cette annonce de l’Institut BAAI ne sera pas simplement une mise à jour de modèle, mais pourrait constituer une étape importante dans la construction du système technologique de base chinois pour les modèles universels du monde et l’intelligence incarnée.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com