Google publie le modèle de diffusion de texte open source DiffusionGemma

2026-06-11 08:51

Favoris

fr.wedoany.com Rapport : Le 10 juin, Google a publié un modèle open source expérimental, DiffusionGemma. Ce modèle utilise une architecture de diffusion de texte, est disponible sous licence Apache 2.0, et s’adresse aux chercheurs et développeurs souhaitant explorer des scénarios d’inférence locale rapide, de génération de texte interactive et de faible concurrence. Sur GPU dédié, sa vitesse de génération de texte est jusqu’à 4 fois supérieure à celle des grands modèles de langage autorégressifs traditionnels.

La voie technique de DiffusionGemma diffère de celle des grands modèles de langage courants. Les modèles autorégressifs traditionnels génèrent généralement les tokens un par un, de gauche à droite : plus le texte est long, plus l’attente pour la sortie suivante est perceptible. DiffusionGemma, quant à lui, tente de générer une trame de texte en une seule fois, puis de corriger le contenu par itérations multiples. Google l’a conçu comme un modèle à experts mixtes d’une taille totale de 26B de paramètres, activant environ 3,8B de paramètres lors de l’inférence, et pouvant être adapté, après quantification, à un GPU grand public haut de gamme doté de 18 Go de mémoire vidéo. Pour les développeurs locaux, cela signifie que le modèle n’est pas seulement destiné à un déploiement à grande échelle dans le cloud, mais peut également effectuer des tâches d’édition rapide, de complétion de code, de réorganisation de texte et de génération expérimentale sur une seule carte graphique haute performance.

L’avantage en vitesse de ce modèle provient principalement de son mécanisme de génération parallèle. Chaque calcul direct de DiffusionGemma peut générer 256 tokens en parallèle, permettant aux tokens d’un bloc de sortie de s’influencer mutuellement et d’être corrigés en continu lors des itérations suivantes. Cette structure est adaptée à l’édition en ligne, au remplissage de code, aux structures textuelles non linéaires, aux graphiques mathématiques et à certaines tâches nécessitant des contraintes contextuelles. Google a révélé que, sur un seul NVIDIA H100, DiffusionGemma peut atteindre un débit de plus de 1000 tokens par seconde ; sur un NVIDIA GeForce RTX 5090, il peut atteindre plus de 700 tokens par seconde.

Il ne s’agit toutefois pas d’un remplacement de Gemma 4.

Le positionnement de DiffusionGemma par Google est clair : il s’agit d’un modèle expérimental, priorisant les flux de travail locaux sensibles à la vitesse et interactifs, avec une qualité de sortie globale inférieure à celle du Gemma 4 standard. Pour les applications exigeant la meilleure qualité de génération, stabilité et livraison de niveau production, Google recommande toujours d’utiliser le Gemma 4 standard. Les avantages de DiffusionGemma ne s’appliquent pas non plus à tous les environnements de déploiement. Dans les services cloud à forte concurrence, les modèles autorégressifs peuvent exploiter pleinement la puissance de calcul via le traitement par lots, réduisant ainsi les bénéfices du décodage parallèle par diffusion de texte, voire augmentant les coûts de service. En d’autres termes, il est plus adapté aux environnements à faible ou moyenne charge, à un seul utilisateur local ou à des expériences de développement, plutôt que de remplacer directement les architectures de grands modèles cloud dominants.

Cette publication reste néanmoins importante pour l’écosystème des TIC et du développement de l’IA. Par le passé, les modèles de diffusion étaient surtout connus pour la génération d’images et de vidéos, tandis que la génération de texte était dominée par les architectures autorégressives. DiffusionGemma combine la voie de la diffusion de texte avec l’écosystème de modèles ouverts Gemma, offrant aux développeurs une autre plateforme expérimentale priorisant la vitesse. Avec la croissance de la demande pour l’IA locale, les stations de travail personnelles, les PC IA et les appareils de périphérie, les développeurs ont de plus en plus besoin d’effectuer des générations rapides, des modifications instantanées et des traitements de tâches sensibles à la vie privée sans dépendre du cloud distant. La licence open source favorise également la poursuite des expériences par les instituts de recherche, les fournisseurs d’outils et les développeurs sur la structure du modèle, les moteurs d’inférence, les solutions de quantification et les méthodes de réglage fin.

L’impact sur la chaîne industrielle se concentrera sur l’inférence IA locale, les GPU grand public, les outils de développement et les plateformes de services de modèles. DiffusionGemma est déjà disponible via Hugging Face pour obtenir les poids, et peut être utilisé avec des outils tels que MLX, vLLM et Hugging Face Transformers. Google a également optimisé les performances avec NVIDIA autour de la pile matérielle, couvrant les cartes graphiques grand public RTX, RTX PRO, ainsi que les plateformes d’entreprise Hopper et Blackwell. Les prochaines étapes incluent l’efficacité du réglage fin par les développeurs, la progression du support par des écosystèmes comme llama.cpp, l’expérience réelle du modèle dans la complétion de code et l’édition en temps réel, et la capacité de l’architecture de diffusion de texte à réduire l’écart de qualité avec les modèles autorégressifs de haute qualité. Si cette voie continue de mûrir, les applications d’IA locale pourraient bénéficier de réponses de génération plus rapides, et apporter une nouvelle branche technique à l’écosystème des modèles ouverts.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com