fr.wedoany.com Rapport : Le 3 juin, JD.com a lancé JoyAI-Echo, un framework de génération de vidéos longues avec audio, dont le code et les poids ont été entièrement open-sourcés. Ce framework, conçu pour la génération de vidéos longues avec audio, intègre un « Assistant Réalisateur » intelligent, Director Agent, et configure une mémoire audiovisuelle intermodale pour conserver et rappeler en continu les caractéristiques d'apparence des personnages et les informations de timbre vocal des locuteurs lors de la génération multi-plans.
JoyAI-Echo s'attaque au problème persistant de stabilité dans la génération de vidéos longues. Les modèles actuels de génération vidéo montrent déjà de bonnes performances pour les courts extraits, les plans uniques et les scènes à personnage unique. Cependant, dès qu'il s'agit de narration multi-plans, d'apparitions continues de personnages, de dialogues et de génération de contenu de longue durée, les modèles sont sujets à des problèmes tels que la dérive de l'apparence des personnages, l'incohérence du timbre vocal, la logique de plan fragmentée et une vitesse de génération trop lente. JoyAI-Echo utilise une mémoire audiovisuelle intermodale pour enregistrer l'identité des personnages, leur apparence visuelle et le contexte audio, permettant aux plans suivants de continuer à utiliser les informations précédentes. Director Agent, quant à lui, assure la décomposition du scénario, des personnages et des plans, permettant aux utilisateurs de formuler des demandes de création et de modification en langage naturel, réduisant ainsi le coût de régénération répétée de l'intégralité du contenu lors de la génération de vidéos longues.
Selon le dépôt open source de JD.com, JoyAI-Echo prend en charge la génération de vidéos avec audio multi-plans à l'échelle de la minute, peut générer une histoire cohérente à partir d'un seul prompt JSON, et utilise le schéma d'inférence à étapes réduites par distillation DMD pour améliorer la vitesse de génération.
L'importance de ce framework réside dans le fait qu'il fait passer la génération de vidéos longues avec audio d'un « résultat de génération unique » à un « processus créatif éditable en continu ». Dans des scénarios tels que la prévisualisation de films, les vidéos marketing de marque, le contenu de personnages numériques, la création d'histoires virtuelles et les courtes séries en direct, les créateurs ont besoin non seulement de générer une image, mais aussi de maintenir une apparence, une voix et un style narratif cohérents pour les personnages à travers plusieurs séquences. JoyAI-Echo intègre l'audio, la vidéo, la mémoire des personnages, la planification des plans et l'édition dialoguée dans un même cadre, contribuant ainsi à abaisser le seuil technique de la production de contenu long. Le code et les poids étant entièrement open-sourcés, les développeurs peuvent également effectuer des développements secondaires, des évaluations de modèles et des adaptations verticales basées sur ce framework, favorisant ainsi l'expansion de l'écosystème de génération de vidéos longues avec audio en Chine.
Les variables ultérieures se concentrent sur l'adaptation de la communauté open source, le coût réel de déploiement, la performance de cohérence des vidéos longues, l'expérience d'édition interactive et la vitesse de mise en œuvre dans les scénarios commerciaux. Alors que la génération vidéo par IA passe de la démonstration de courts extraits à des étapes de production de contenu plus complexes, la mémoire des personnages, la cohérence vocale, la continuité des plans et l'éditabilité deviendront des indicateurs clés de compétitivité pour les frameworks de modèles. L'open source de JoyAI-Echo fournira une entrée technique reproductible et extensible dans le domaine de la génération de vidéos longues avec audio.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









