NVIDIA et BAAI accélèrent sur les modèles du monde, la course aux bases de données s’intensifie
2026-07-04 14:52
Favoris

fr.wedoany.com Rapport : NVIDIA et l’Institut de recherche en intelligence artificielle de Pékin (BAAI) ont récemment envoyé des signaux convergents : l’IA passe du monde numérique au monde physique, où les données, les modèles du monde et la simulation deviennent les moteurs essentiels de cette évolution. Lors de l’assemblée générale annuelle des actionnaires du 25 juin 2026, Jensen Huang, PDG de NVIDIA, a déclaré que les centres de données IA sont des usines « produisant des tokens », chaque token pouvant être transformé en code, réponse, design, action ou service. Les clients n’achètent pas seulement des serveurs, mais des usines IA génératrices de revenus. Il a souligné que l’IA physique représente la prochaine vague de croissance, où robots, véhicules et usines deviendront des agents intelligents dans le monde réel. NVIDIA formera des modèles via ses usines IA, les simulera avec Omniverse, puis les déploiera sur des dispositifs physiques via des plateformes comme Jetson. Presque simultanément, le BAAI a identifié le modèle du monde comme une direction consensuelle majeure vers l’intelligence artificielle générale (AGI), proposant de passer de « prédire le mot suivant » à « prédire l’état suivant du monde ».

Le cœur du modèle du monde est de permettre à l’IA de percevoir, comprendre et raisonner sur le temps, l’espace et les lois physiques du monde réel, en couvrant des données multimodales complètes et en possédant une capacité d’interaction active. Fei-Fei Li, professeure à Stanford, souligne que l’intelligence spatiale est la capacité des machines à percevoir, raisonner et agir dans un espace 3D et dans le temps. Sa startup, World Labs, a récemment levé 1 milliard de dollars, pour une valorisation de 5 milliards. Selon elle : « Les grands modèles apprennent aux machines à lire et écrire ; l’intelligence spatiale leur apprend à observer et construire. »

Le secteur des modèles du monde devient rapidement très concurrentiel à l’échelle mondiale, couvrant des domaines allant de la conduite autonome en extérieur aux espaces urbains, en passant par les scénarios intérieurs. Dans la conduite autonome, Momenta a lancé en avril 2026 le modèle du monde R7 en production, s’appuyant sur plus de 12 milliards de kilomètres de données de conduite réelle pour permettre au système d’anticiper le monde. Li Auto a dévoilé MindVLA-o1, définissant la conduite autonome comme le point de départ de l’IA physique. Pour les scénarios intérieurs et domestiques, Ezviz a présenté son « Modèle du monde Ezviz Xingchen », dont le robot laveur de sols IA construit une carte sémantique 3D du domicile pour anticiper les mouvements des animaux et des personnes. Daxiao Robotics, en collaboration avec l’Université chinoise de Hong Kong (CUHK), a lancé Kairos-HomeWorld, le premier modèle du monde capable de générer l’intégralité d’un logement et d’interagir avec tous les objets, tout en open-sourcant un ensemble de données de 300 000 plans de maisons réelles chinoises et 5 000 scénarios simulés. Dans le domaine de l’architecture et du BIM, le géant mondial du logiciel de conception Autodesk a investi stratégiquement dans World Labs, poussant l’IA physique de la « compréhension des données » à la « compréhension des bâtiments ». En juin 2026, l’équipe de Fei-Fei Li a publié la technologie World Tracing, capable de reconstruire la géométrie 3D complète d’un bâtiment à partir d’une seule photo. Pour les espaces extérieurs et urbains, Amap a lancé en juin 2026 le premier modèle du monde urbain 3D natif au monde, ABot-Earth0.5, couvrant plus de 190 pays et régions. En entrant une image satellite, il génère en seulement 10 minutes une scène urbaine 3D à l’échelle kilométrique sur un GPU grand public, pour un coût équivalent à 1 % des méthodes traditionnelles. Baidu a intégré les capacités des modèles du monde dans son grand modèle ERNIE 5.0 et son système de conduite autonome Apollo. Google DeepMind a connecté 280 milliards d’images Street View couvrant 110 pays à son modèle Genie, permettant aux utilisateurs de générer des environnements interactifs basés sur des lieux réels. Dans l’intelligence spatiale intérieure, on trouve à l’étranger Mappedin, la plus grande plateforme mondiale de cartographie intérieure, qui utilise l’IA et le LiDAR pour transformer des plans de bâtiments en cartes numériques 3D dynamiques, couvrant plus de 10 milliards de pieds carrés d’espaces intérieurs dans 86 pays. NavVis, fournisseur allemand de solutions d’intelligence spatiale intérieure fondé en 2013, sert des entreprises comme Daimler et Huawei via ses systèmes de numérisation mobile et sa plateforme de jumeau numérique. VergeSense a publié un Large Spatial Model (LSM), basé sur huit années de données comportementales collectées sur plus de 200 millions de pieds carrés d’espaces de bureau, pour prédire les schémas de comportement humain. Vestella Labs, entreprise d’intelligence spatiale spécialisée dans l’IA physique, dont la technologie centrale convertit automatiquement des informations spatiales non structurées (images, PDF, plans CAO) en données spatiales compréhensibles par l’IA. En Chine, Shuwei Tech collecte des données sur le terrain via un modèle participatif et un étiquetage automatique, mettant à jour continuellement depuis dix ans une base de données d’informations spatiales intérieures chinoises. Elle étiquette de manière continue et point par point des espaces urbains accessibles aux piétons, comme des espaces intérieurs complexes, avec des informations multimodales (visuelles, textuelles, empreintes sans fil, etc.), générant finalement des ensembles de données multimodales à grande échelle.

Les données sectorielles montrent que le marché chinois de l’IA incarnée atteindra environ 915 milliards de yuans en 2025, et devrait dépasser 1 090,4 milliards en 2026. Le marché mondial de la navigation et du positionnement intérieur est estimé à 16,9 milliards de dollars en 2025, et devrait atteindre 72,46 milliards en 2032, avec un taux de croissance annuel composé de 23,11 %. Le marché mondial du BIM est d’environ 9,5 milliards de dollars en 2025, et devrait atteindre 32,5 milliards en 2036. Les acteurs majeurs du secteur ont déjà compris que la barrière ultime des modèles du monde réside dans les données, non dans les algorithmes. 90 % des activités humaines (vie, travail, consommation) se déroulent à l’intérieur. Que ce soit pour les robots incarnés entrant dans les foyers, les appareils intelligents comprenant l’agencement d’une maison, ou les décisions commerciales hors ligne des entreprises, l’intelligence spatiale intérieure est une capacité centrale incontournable. C’est la partie la plus précieuse et la plus difficile à obtenir de la base de données des modèles du monde.

La compétition autour des modèles du monde est essentiellement une compétition de bases de données, dont le cœur réside dans des données spatiales intérieures réelles, granulaires et commercialisables. Lorsque Jensen Huang annonce que l’IA physique est la prochaine vague de croissance, qu’Amap reconstruit des villes en 3D, que Momenta anticipe les conditions de circulation, et qu’Ezviz permet à ses robots de « comprendre » un foyer, chaque direction exige des données spatiales réelles, précises et évolutives. L’IA apprend à « imaginer » le monde physique, mais ce qui empêche cette imagination de s’éloigner de la réalité et rend les modèles du monde réellement utilisables, ce sont les briques et le mortier du monde réel, chaque personne, chaque lieu, chaque entrée et chaque sortie.

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com