ShengShu Technology dévoile le modèle vidéo interactif en temps réel Vidu S1
2026-07-04 10:43
Favoris

fr.wedoany.com Rapport : Le 3 juillet, lors de la Conférence mondiale sur l'économie numérique 2026, ShengShu Technology a dévoilé le modèle de base vidéo de nouvelle génération Vidu S1, qui permet la génération de vidéos interactives en temps réel, transformant la vidéo IA de la création de séquences uniques en une interaction continue en temps réel.

Vidu S1 prend en charge le dialogue vidéo en temps réel avec contrôle des personnages via des instructions vocales. Les utilisateurs peuvent contrôler naturellement un avatar IA par saisie vocale et effectuer des interactions continues illimitées. Le modèle offre une résolution de 540P (960x540) avec un taux de 25 FPS (jusqu'à 42 FPS), permettant aux utilisateurs de créer instantanément des personnages interactifs personnalisés à partir d'une seule image (personnes réelles, personnages d'anime, voire animaux de compagnie), avec des voix personnalisables. L'ensemble du système peut fonctionner sur un GPU grand public, réduisant considérablement les barrières matérielles pour la génération de vidéos interactives en temps réel.

La plupart des modèles de génération vidéo existants utilisent un flux de travail hors ligne : l'utilisateur soumet une invite et attend la génération de la vidéo, dont le contenu reste fixe une fois créé. Vidu S1 introduit un cadre de génération vidéo interactive en temps réel, permettant aux utilisateurs de fournir en continu des entrées vocales lors d'un dialogue vidéo en temps réel. Le modèle traite l'entrée vocale avec le contexte du dialogue et le contexte visuel actuel, permettant ainsi la génération et la mise à jour en temps réel du contenu vidéo suivant. Ce modèle ne dépend pas des mouvements labiaux pilotés par l'audio ni de bibliothèques d'animations prédéfinies, mais comprend la sémantique, l'intention et le contexte émotionnel de l'entrée vocale pour générer en temps réel des mouvements labiaux synchronisés, des expressions faciales, des mouvements oculaires, des gestes, des postures corporelles et des actions complètes du corps.

Vidu S1 adopte une architecture de diffusion autorégressive (AR+Diffusion). Au lieu de générer l'intégralité de la vidéo à l'avance, il prédit et génère en continu le contenu vidéo suivant en fonction des images déjà générées, des instructions vocales actuelles et du contexte du dialogue. Lorsque l'utilisateur fournit une nouvelle instruction, le modèle met à jour en temps réel les expressions, les actions et le comportement ultérieur du personnage, permettant à l'interaction d'évoluer en continu au cours du dialogue. Ce modèle est un modèle de pointe pour la génération vidéo en temps réel de durée illimitée, offrant une réponse en temps réel lors de longs dialogues tout en maintenant la cohérence de l'identité du personnage, des mouvements naturels et fluides, et en traitant en continu les entrées utilisateur.

Pour atteindre une résolution de 540P (960x540) à 25 FPS pour la génération vidéo interactive en temps réel, avec un support allant jusqu'à 42 FPS, ShengShu Technology a adopté des techniques d'accélération de l'inférence au niveau du modèle, notamment TurboDiffusion, SageAttention à faible précision, les méthodes d'attention sparse SLA et SpargeAttention, réduisant le coût de calcul par image grâce à la génération en peu d'étapes, à la quantification du modèle et à l'optimisation des noyaux d'inférence. Au niveau système, le moteur de service d'inférence TurboServe planifie efficacement la charge de travail d'inférence et alloue dynamiquement les ressources de calcul en fonction de l'état de l'interaction. Ces optimisations permettent à Vidu S1 d'exécuter la génération interactive en temps réel sur un GPU grand public, fournissant une base technique pour des applications telles que le dialogue vidéo en temps réel, la diffusion interactive en direct, les compagnons IA, les jeux interactifs et les expériences XR.

En matière de création de personnages, Vidu S1 introduit un flux de travail entièrement génératif. L'utilisateur n'a qu'à télécharger une image, et le modèle capture l'identité, l'apparence et le style visuel du personnage, générant en temps réel des mouvements labiaux synchronisés, des expressions faciales, des gestes et des actions complètes du corps, sans nécessiter de modélisation ou d'entraînement spécifique au personnage. Qu'il s'agisse d'une personne réelle, d'un personnage d'anime ou d'un animal de compagnie, une seule image suffit pour créer un personnage interactif en temps réel, avec des voix personnalisables.

Vidu S1 est désormais disponible publiquement. Les utilisateurs peuvent créer et interagir en temps réel avec un avatar IA à partir de leurs propres images personnalisées. Sa plateforme API permet aux développeurs et aux partenaires commerciaux de construire des applications interactives en temps réel.

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com