NVIDIA accélère DiffusionGemma jusqu'à 4 fois

2026-06-11 10:25

Favoris

fr.wedoany.com Rapport : Google DeepMind a publié un modèle expérimental ouvert nommé DiffusionGemma, conçu pour une génération de texte extrêmement rapide. NVIDIA a optimisé ce modèle pour qu'il fonctionne plus rapidement sur les GPU NVIDIA GeForce RTX, la plateforme NVIDIA RTX PRO et les systèmes NVIDIA DGX Spark, couvrant ainsi divers environnements allant du PC local au cloud.

Contrairement à la méthode traditionnelle de génération de texte mot par mot, DiffusionGemma peut générer plusieurs mots en parallèle pour produire des blocs de texte entiers. Ce modèle est basé sur Gemma 4, un modèle expert mixte de 26 milliards de paramètres, n'activant que 3,8 milliards de paramètres par étape, et combine une tête de diffusion avec l'architecture Gemma 4 de Google. En termes de performances, DiffusionGemma peut atteindre une vitesse de génération de texte jusqu'à 4 fois supérieure à celle des modèles autorégressifs équivalents sur du matériel local. En tant que modèle ouvert, DiffusionGemma est publié sous la licence permissive Apache 2.0, peut être exécuté localement sur RTX et DGX Spark sans dépendance au cloud, et bénéficie d'un support immédiat dans Hugging Face Transformers, vLLM et Unsloth. De plus, les utilisateurs peuvent tester gratuitement DiffusionGemma via l'interface d'application hébergée par NVIDIA sur build.nvidia.com.

La plupart des grands modèles de langage (LLM) largement utilisés actuellement adoptent une méthode de génération autorégressive, produisant un token à la fois, chaque nouveau mot dépendant du précédent. DiffusionGemma, quant à lui, est basé sur l'architecture experte mixte Gemma 4 26B et génère du texte de la même manière que les modèles de diffusion génèrent des images : en partant du bruit et en affinant un bloc de texte entier en une seule fois. À chaque étape, le modèle débruite en parallèle jusqu'à 256 tokens. Pour les tâches utilisateur unique sensibles à la latence, comme les chats interactifs, les boucles d'agents ou les assistants sur appareil, ce parallélisme permet à la vitesse de réponse de suivre le rythme du développement et de l'itération.

Les LLM traditionnels, lorsqu'ils génèrent un token à la fois, sont généralement limités par la bande passante mémoire, une grande partie de la puissance de calcul restant sous-utilisée. DiffusionGemma, en traitant des blocs de tokens complets en parallèle via le Transformer, crée une charge de travail intensive en calcul qui exploite pleinement les avantages des GPU NVIDIA. Les données montrent que DiffusionGemma atteint 1000 tokens/sec sur un seul GPU NVIDIA H100 Tensor Core, 150 tokens/sec sur NVIDIA DGX Spark, et réalise l'inférence locale la plus rapide sur NVIDIA DGX Station, environ 4 fois plus rapide que le modèle autorégressif équivalent fonctionnant dans le même scénario utilisateur unique.

Cet avantage de performance s'étend à toute la gamme de produits NVIDIA, y compris le superordinateur IA personnel de bureau local DGX Spark, alimenté par le NVIDIA GB10 Grace Blackwell Superchip et doté de 128 Go de mémoire unifiée ; la station de travail RTX PRO 6000 offrant un espace d'exécution local suffisant pour les développeurs ; la DGX Station offrant une vitesse d'inférence rapide allant jusqu'à 800 tokens/sec et 748 Go de mémoire cohérente ; ainsi que les GPU GeForce RTX qui prendront bientôt en charge llama.cpp.

L'utilisation de Hugging Face Transformers est le moyen le plus rapide de lancer DiffusionGemma sur un GeForce RTX 5090 ou un DGX Spark. Pour une inférence à plus haut débit, vLLM offre un support de service immédiat. Les utilisateurs peuvent affiner le modèle via les frameworks Unsloth et NVIDIA NeMo pour des tâches ou domaines spécifiques. Pour plus de détails techniques, consultez le blog technique de NVIDIA et l'annonce officielle de Google DeepMind.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Royaume-Uni

États-Unis

Information et communication Ingénierie de l'intelligence artificielle

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com

Préc：Le prix du pétrole bondit au-dessus de 90 dollars, l’or chute sous la barre des 4 100 dollars !

Suiv：Le salon VivaTech 2026 en Europe met l’accent sur le déploiement à grande échelle de l’IA en entreprise