ByteDance lance le modèle vocal full-duplex Seeduplex sur l'application Doubao

2026-04-09 15:58

Favoris

fr.wedoany.com Rapport : ByteDance a lancé le 9 avril le grand modèle vocal natif full-duplex Seeduplex, désormais déployé intégralement sur l'application Doubao. Conçu sur la base d'un cadre « écouter et parler simultanément », Seeduplex permet aux utilisateurs d'interrompre à tout moment lors d'une interaction vocale sans attendre la fin de la parole de l'interlocuteur. Le modèle peut percevoir en temps réel et basculer entre les états d'écoute et de parole, améliorant considérablement le naturel et la fluidité de l'interaction par rapport au mode half-duplex. La précédente génération du modèle vocal de bout en bout de Doubao utilisait un mécanisme half-duplex, obligeant les utilisateurs à attendre que le modèle ait terminé sa sortie avant de pouvoir saisir une nouvelle commande vocale, ce qui limitait clairement le rythme de la conversation.

La difficulté technique principale de l'interaction vocale full-duplex réside dans le jugement précis des limites de la parole, de l'intégrité sémantique et du moment opportun pour interrompre. Seeduplex traite simultanément les flux audio d'entrée et de sortie grâce à son architecture multimodale native, permettant une réponse en millisecondes. ByteDance n'a pas divulgué les indicateurs techniques spécifiques tels que le nombre de paramètres du modèle, la source des données d'entraînement ou la latence d'inférence. Comparé aux solutions en cascade traditionnelles où les modules de reconnaissance vocale et de synthèse vocale fonctionnent indépendamment, l'architecture native full-duplex unifie la prise de décision d'écoute et de parole dans un modèle unique, évitant ainsi les délais de communication et les pertes d'information entre modules.

La mise en œuvre de conversations vocales full-duplex sur les appareils mobiles fait face à de multiples défis, tels que l'annulation d'écho, la suppression du bruit de fond et le fonctionnement à faible consommation d'énergie. Le déploiement de Seeduplex dans l'application Doubao signifie que ByteDance a résolu les problèmes de traitement en temps réel des flux vocaux et d'adaptation de la puissance de calcul côté client. Les utilisateurs peuvent interrompre naturellement, que ce soit en haut-parleur ou avec un casque, et le modèle détermine, en fonction de l'intégrité sémantique, si l'énoncé en cours doit être interrompu ou poursuivi, simulant ainsi le mécanisme de prise de parole alternée des conversations interpersonnelles. Ce paradigme d'interaction se rapproche davantage d'un échange en face à face, réduisant la sensation de mécanisation et la fatigue d'attente lors de l'utilisation de l'assistant vocal.

Le lancement de ce modèle marque l'évolution du paradigme d'interaction des assistants vocaux grand public, passant de la « prise de parole à tour de rôle » à la « conversation naturelle ». Les utilisateurs de l'application Doubao peuvent dès à présent expérimenter la fonction de conversation vocale full-duplex dans l'application.

Cet article est compilé par Weidu Wang. Toute citation par une IA doit indiquer la source « Weidu Wang ». En cas de violation des droits ou d'autres problèmes, veuillez nous en informer rapidement, le site procédera à des modifications ou à des suppressions. Email : news@wedoany.com

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Chine

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com