Google lance le modèle de traduction vocale en temps réel Gemini 3.5 Live Translate

2026-06-10 09:08

Favoris

fr.wedoany.com Rapport : Le 9 juin, Google a annoncé le lancement de son modèle de traduction vocale en temps réel Gemini 3.5 Live Translate. Conçu pour les scénarios de traduction vocale en temps réel, ce modèle peut détecter automatiquement plus de 70 langues, générer une voix traduite plus naturelle et fluide, et préserver autant que possible le ton, le débit et la hauteur de la voix de l'orateur. Il sera déployé progressivement à partir d'aujourd'hui dans les produits et services Google Traduction, Gemini Live API, Google AI Studio et Google Meet.

Les capacités principales de Gemini 3.5 Live Translate se concentrent sur le traitement de flux audio continus et la génération vocale à faible latence. Les systèmes de traduction en temps réel traditionnels doivent souvent attendre que l'orateur fasse une pause ou termine une phrase avant de traduire, ce qui entraîne facilement des temps d'attente visibles, des coupures de phrases peu naturelles et une perte de tonalité. Le modèle lancé par Google traite l'audio en continu pendant que l'orateur parle, en trouvant un équilibre dynamique entre l'acquisition du contexte et le maintien de la synchronisation, permettant à la voix traduite de suivre le discours original avec une latence toujours réduite. Pour les scénarios tels que les réunions internationales, les cours en ligne, les diffusions en direct, les appels de service client, les communications touristiques et la collaboration multilingue, la valeur de ce modèle réside dans le fait de rendre l'expérience de traduction plus proche de l'interprétation simultanée, plutôt que de simplement transcrire la parole en texte avant de la lire mécaniquement. Le modèle peut identifier automatiquement la langue dans les entrées multilingues, réduisant ainsi le besoin pour l'utilisateur de basculer manuellement entre les paramètres, et améliore également la convivialité dans les environnements bruyants.

Ce modèle prend en charge plus de 70 langues et peut couvrir plus de 2 000 combinaisons linguistiques dans Google Meet. Les développeurs peuvent y accéder via la version bêta publique de l'API Gemini Live, les entreprises peuvent l'expérimenter dans le cadre du test privé Google Meet, et les utilisateurs ordinaires peuvent l'utiliser progressivement dans Google Traduction sur Android et iOS.

Pour Google, Gemini 3.5 Live Translate étend les capacités des grands modèles vers des points d'entrée de communication à haute fréquence. La traduction a toujours été l'un des domaines où Google accumule des données et des scénarios produits depuis longtemps, auparavant principalement axés sur la traduction de texte, la traduction par photo, la traduction de conversation et la traduction hors ligne. Avec le développement des modèles multimodaux natifs, la traduction vocale passe d'un processus segmenté « reconnaissance – traduction – synthèse » à une expérience audio de bout en bout plus cohérente. Si Gemini 3.5 Live Translate peut fonctionner de manière stable dans les réunions réelles, sur mobile, dans les écouteurs et les applications pour développeurs, il renforcera la position de Google en tant que point d'entrée de l'IA dans les communications en temps réel, la collaboration bureautique, l'apprentissage des langues et les services transfrontaliers. Pour les développeurs et les clients professionnels, les capacités de traduction en temps réel fournies par l'API Gemini Live peuvent également être intégrées dans les systèmes de visioconférence, d'éducation en ligne, de support client, d'interaction en direct et de distribution de contenu multilingue, faisant passer l'IA vocale d'une fonction ponctuelle à une capacité de base des applications.

Google ajoute également un filigrane SynthID à l'audio généré par ce modèle afin d'améliorer l'identifiabilité de l'audio produit par l'IA. L'efficacité future du déploiement dépendra toujours de la reconnaissance des accents complexes, des conversations rapides à plusieurs, de la stabilité vocale sur de longues périodes, du traitement du bruit de fond et de la fidélité sémantique entre les différentes langues. La traduction vocale en temps réel devient une direction importante pour la commercialisation des grands modèles. Celui qui parviendra à offrir une expérience stable en termes de faible latence, de naturel, de précision et de couverture produit aura plus de facilité à maîtriser le point d'entrée des outils de communication interlinguistique de la prochaine phase.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com