L'application chinoise Soul App rend open source SoulX-Transcriber, un modèle de transcription de conversations multipartites intégrant la reconnaissance des locuteurs, des horodatages et du texte

2026-06-03 16:23

Favoris

fr.wedoany.com Rapport : Le 3 juin, l'équipe IA de Soul App (Soul AI Lab), en collaboration avec le groupe de recherche ASLP@NPU de l'Université Polytechnique du Nord-Ouest et Moonstep AI, a officiellement rendu open source le modèle de transcription de conversations multipartites de bout en bout SoulX-Transcriber. Ce modèle, conçu pour les scénarios de longs fichiers audio et de dialogues à plusieurs locuteurs, peut générer directement à partir d'un fichier audio de conversation multipartite un résultat structuré comprenant des horodatages, l'identité des locuteurs et le texte transcrit.

SoulX-Transcriber cible les problèmes complexes de la reconnaissance vocale dans les scénarios de dialogue réels. Dans les réunions, les podcasts, les discussions de groupe, le contrôle qualité du service client, les entretiens et les scénarios de réseautage social vocal multipartite, l'audio n'est pas un seul locuteur parlant à tour de rôle, mais implique souvent des changements rapides entre plusieurs personnes, des interruptions, des chevauchements de voix, des confusions de timbres similaires, des bruits de fond et des problèmes de segmentation imprécise des limites. Les solutions traditionnelles divisent généralement la détection d'activité vocale, la séparation des locuteurs, le regroupement des locuteurs et la reconnaissance automatique de la parole en plusieurs modules en série. Une erreur dans n'importe quel maillon sera amplifiée dans la transcription ultérieure. SoulX-Transcriber adopte un cadre de bout en bout, traitant « qui parle, quand il parle et ce qu'il dit » dans un modèle unifié, cherchant à réduire la propagation d'erreurs dans les systèmes en cascade et à améliorer la capacité de compréhension structurée dans les scénarios multi-locuteurs.

Les informations du dépôt open source montrent que SoulX-Transcriber prend en charge le téléchargement des poids du modèle en chinois et en anglais, et utilise la licence Apache 2.0.

D'un point de vue technique, le modèle est basé sur un cadre de grand modèle audio-langage, adoptant une stratégie d'entraînement multi-étapes sensible au locuteur, renforçant la représentation du locuteur, la perception des limites et la capacité de reconnaissance de la parole chevauchante. Selon son rapport technique, le modèle combine lors de l'entraînement des données de dialogue réel pseudo-annotées avec des données de conversation multipartite simulées, préservant d'une part les caractéristiques acoustiques et d'interaction de l'audio réel, et d'autre part, améliorant les différences entre locuteurs, la structure du dialogue et la capacité de généralisation inter-domaines grâce à des données simulées contrôlables. Sur les ensembles de données de réunions multi-locuteurs tels que AISHELL-4, AliMeeting et AMI, SoulX-Transcriber a démontré ses performances pour la transcription vocale multipartite ; dans les évaluations internes de scénarios généraux, il a également couvert des données multi-domaines plus complexes comme les dialogues quotidiens, l'audio de films et séries, et les podcasts. Pour les développeurs, le modèle peut non seulement produire un texte transcrit standard, mais aussi générer simultanément les étiquettes des locuteurs et les limites temporelles, rendant le contenu audio plus facilement intégrable dans les processus de comptes rendus de réunions, de modération de contenu, d'organisation de bases de connaissances, d'analyse du service client et de recherche multimédia.

Ce type de modèle a une valeur directe pour les produits d'interaction vocale et le traitement des données audio d'entreprise. De nombreuses entreprises ont déjà accumulé des enregistrements de réunions, des enregistrements téléphoniques, des fichiers audio de formation, des entretiens, des contenus de podcasts et des dialogues de service client. Cependant, si ces fichiers audio ne peuvent pas distinguer avec précision les locuteurs, les intervalles de temps et le contenu textuel, il est difficile de les transformer en actifs de données consultables, analysables et réutilisables. Après avoir converti l'audio brut en résultats structurés, le modèle de transcription de conversations multipartites peut ensuite se connecter à des applications en aval telles que la génération de résumés, l'extraction de sujets, l'analyse des émotions, la capitalisation des connaissances et l'inspection qualité des opérations. Soul App elle-même possède des scénarios d'interaction vocale multipartite et de réseautage social. L'open source continu par Soul AI Lab de modèles pour la voix, les humains numériques, la génération de podcasts, etc., indique également que sa feuille de route technologique en IA s'articule autour de l'interaction en temps réel, de l'expression multimodale et de la compréhension du dialogue, formant un déploiement cohérent.

Du point de vue de l'industrie du traitement du langage, la reconnaissance vocale passe de la transcription de phrases isolées à une « phase de compréhension des conversations multipartites réelles ». À l'avenir, les entreprises et les plateformes n'auront pas simplement besoin de convertir le son en texte, mais de restituer un fichier audio complexe en un contenu structuré traçable, attribuable, éditable et consultable. Après l'open source de SoulX-Transcriber, les chercheurs et les développeurs peuvent effectuer un développement secondaire autour de la transcription de réunions, du traitement de longs fichiers audio, de l'identification de plusieurs locuteurs, de la structuration de contenu de podcasts et de l'analyse de données de réseaux sociaux vocaux. Les variables futures se concentreront sur la stabilité pour les longs fichiers audio réels, l'extension multilingue, la capacité d'adaptation aux environnements bruyants, le nombre maximum de locuteurs, le coût d'inférence, ainsi que l'efficacité de l'intégration avec les flux de travail d'entreprise et les systèmes de plateforme de contenu.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Chine

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com

Préc：Le revenu principal d'IHH Healthcare en Malaisie augmente de 16 % à 1,6 milliard de dollars au premier trimestre

Suiv：La NASA abandonne le concept de module central pour une station spatiale commerciale, annoncé le 1er juin