fr.wedoany.com Rapport : Le 8 juin, le modèle de monde 5D EvoPhys-World, développé par l’équipe EvoPhys de l’Université de Pékin, s’est classé premier dans la catégorie « Génération de mondes » de l’évaluation publique WorldScore de l’Université Stanford. Ce modèle, centré sur l’humain, est conçu pour la génération contrôlable au niveau scénique et les tâches d’interaction physique. L’intégralité de sa formation native a été réalisée sur les GPU MTT S5000 de Moore Threads et la pile logicielle MUSA.
L’accent technique d’EvoPhys-World réside dans le passage du modèle de monde de « génération de scènes visibles » à « génération de systèmes scéniques interactifs, contrôlables et évolutifs ». Selon les informations divulguées sur la page du projet, ce modèle utilise des données d’interaction à la première personne et une mémoire scénique pour construire un jumeau numérique du monde humain. Il introduit en outre des mécanismes d’interaction contrôlable et d’auto-évolution, permettant à un état scénique de déduire différents futurs sous différentes branches d’action. Son modèle central comprend deux formes : le World Engine et le World Policy. Le premier met l’accent sur la jumellisation universelle et l’interaction physique, tandis que le second souligne la prévisibilité du monde et la sélection des actions. Ensemble, ils forment une boucle fermée allant de la génération de scènes, à la prédiction d’états, à la prédiction d’actions, jusqu’à l’évolution par rétroaction. Pour l’intelligence incarnée, l’entraînement des robots, la simulation virtuelle et la génération de scènes complexes, la valeur de ce type de modèle est de permettre à l’IA non seulement de comprendre les relations spatiales dans les images, mais aussi de saisir les liens entre les actions, la causalité, les retours physiques et les résultats des tâches.
WorldScore est un benchmark d’évaluation unifié pour les tâches de génération de mondes. Il évalue la capacité des modèles 3D, 4D et vidéo à générer des mondes sur instruction, avec des indicateurs clés incluant la contrôlabilité, la qualité et la performance dynamique. Le classement public montre qu’EvoPhys-World se positionne en tête sur des indicateurs tels que WorldScore-Static.
Cette avancée met également en lumière la capacité d’adaptation des GPU et des piles logicielles chinois dans l’entraînement de modèles de pointe. L’entraînement des modèles de monde impose des exigences élevées en matière de débit de données à long terme, de stabilité de l’entraînement distribué, de modélisation spatio-temporelle multimodale, de support des opérateurs et d’efficacité de la collaboration matériel-logiciel. L’intégralité de la formation native d’EvoPhys-World a été réalisée sur les GPU MTT S5000 de Moore Threads et la pile logicielle MUSA, ce qui signifie que l’équipe de développement du modèle n’a pas utilisé la puissance de calcul locale uniquement pour l’inférence ou l’adaptation en aval, mais a validé l’ensemble de la chaîne principale d’entraînement, du matériel et de la pile logicielle au flux de travail du modèle. Pour l’industrie chinoise des infrastructures d’IA, ce type de cas est plus complexe que le simple déploiement d’inférence de modèles linguistiques, car les modèles de monde impliquent plusieurs types de charges de travail, telles que la génération vidéo, l’interaction physique, la prédiction d’états et les stratégies d’action, imposant des exigences plus élevées en matière de clusters GPU, d’efficacité de communication et de compatibilité des frameworks d’entraînement.
Les applications d’EvoPhys-World sont également plus proches du monde physique. La page du projet présente des scènes incluant des opérations manuelles, des interactions sur table, le déplacement de tasses, le stockage, des usines chimiques, des villes et des villes anciennes, montrant que ce modèle tente de couvrir des tâches de génération à plusieurs niveaux, allant des mouvements locaux des mains à l’exploration de grandes scènes, du contact avec les objets à la déduction de tâches. Si cette voie continue de progresser, les modèles de monde pourraient devenir une base importante pour l’entraînement de l’intelligence incarnée, offrant aux robots un environnement d’entraînement virtuel à faible coût, hautement contrôlable et pouvant évoluer de manière répétée avant un déploiement réel. Ils pourraient également être utilisés dans des scénarios tels que la simulation industrielle, les jumeaux numériques, la répétition d’opérations complexes et la validation de la collaboration homme-machine.
À l’avenir, l’impact d’EvoPhys-World dépendra du degré d’ouverture des capacités du modèle, de la construction de l’écosystème des développeurs, des résultats de validation sur davantage de tâches réelles, ainsi que de la stabilité continue de la pile logicielle GPU chinoise lors d’entraînements à plus grande échelle. Cette première place au classement WorldScore montre au moins que les équipes universitaires chinoises sont déjà entrées dans le peloton de tête des évaluations publiques internationales dans le domaine des modèles de monde, et fournit un échantillon observable de la capacité de la puissance de calcul IA locale à soutenir l’entraînement de modèles multimodaux de pointe.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









