Alibaba ATH lance HappyOyster, un modèle de monde interactif en temps réel

2026-06-21 10:20

Favoris

fr.wedoany.com Rapport : Alibaba ATH lance HappyOyster 1.0, un produit de modèle de monde ouvert interactif en temps réel. Ce produit est capable de construire et de faire évoluer en temps réel un monde numérique, permettant aux utilisateurs d'explorer et d'interagir librement dans un environnement généré, se distinguant ainsi des produits de génération vidéo texte-à-vidéo à usage unique présents sur le marché.

Les produits actuels de génération vidéo par IA présentent des limitations communes : après que l'utilisateur a saisi une description, les séquences vidéo rendues par le modèle sont immuables et ne permettent aucune interaction avec le contenu visuel. De plus, à mesure que la durée augmente, l'image peut souffrir d'incohérences dans l'apparence des personnages ou de changements soudains dans l'état des objets. HappyOyster 1.0 vise quant à lui à créer un monde numérique interprétable, explorable et interactif, où l'utilisateur peut donner des instructions en temps réel après la génération de l'image, et le monde réagit et continue d'évoluer en conséquence.

Ce produit propose deux modes principaux. Le mode Adventure est un mode d'exploration du monde, où l'utilisateur peut contrôler un personnage pour se déplacer, sauter, attaquer, etc., dans le monde généré. Le modèle peut automatiquement adapter les interactions possibles en fonction du contenu de la scène ; par exemple, si une calèche apparaît dans la scène, la fonction d'équitation est débloquée, et si une voiture apparaît, des actions comme allumer/éteindre les phares ou klaxonner deviennent possibles.

Au cours de l'exploration, l'utilisateur peut à tout moment prendre une capture d'écran pour conserver l'image, sauvegarder le monde et partager un lien en un clic, permettant à d'autres d'accéder au monde complet. Le mode Directing est un mode de réalisation en temps réel, où l'utilisateur peut saisir des instructions pour guider le développement de l'histoire, avec un support de référence multimodale permettant de verrouiller l'apparence des personnages. Ce mode offre également des fonctions de retour en arrière et de branches narratives : l'utilisateur peut revenir à un nœud précédent et saisir différentes instructions pour orienter l'histoire vers des branches différentes. Le site officiel fournit également un guide d'expérience pour aider les utilisateurs à créer de meilleurs mondes.

L'architecture technique de HappyOyster 1.0 repose sur plusieurs méthodes fondamentales. Le produit utilise une technologie de modélisation d'état de monde en boucle fermée, qui comprime l'état actuel du monde en un résumé d'état latent et le transmet de manière récursive dans la chaîne de génération, assurant ainsi la cohérence de la génération sur de longues durées.

Pour résoudre le problème de dérive des sujets, le produit utilise une représentation de référence persistante qui participe au mécanisme d'attention tout au long du processus, attribuant des identifiants aux personnages, objets, etc., pour maintenir la stabilité de leur identité. Son espace d'action causal ouvert place les instructions d'action et le langage naturel dans la même interface sémantique, permettant au modèle de déduire automatiquement une séquence d'actions cohérente à partir des instructions. En matière de synchronisation audio-vidéo, l'audio et la vidéo sont décodés conjointement dans le même état du monde, garantissant que les changements sonores et visuels sont synchrones et conformes aux lois physiques.

Actuellement, face à l'absence de référentiel d'évaluation systématique dans le domaine des modèles de monde, l'équipe HappyOyster prend l'initiative de collaborer avec l'Université de Nanjing pour établir un tel référentiel. Le produit est désormais officiellement en ligne et peut être utilisé après inscription avec un numéro de téléphone. Le site officiel prévoit également d'ouvrir prochainement une interface API, qui pourra être appliquée à des scénarios tels que la création de jeux, la génération de courtes séries, les expériences de divertissement, les diffusions en direct avec des personnages numériques et l'accompagnement virtuel.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com