Solution open source de NVIDIA : jusqu'à 3,7 fois plus de débit pour le réglage fin des MoE

2026-06-26 13:54

Favoris

fr.wedoany.com Rapport : NVIDIA a publié la solution open source NeMo AutoModel, qui permet d'augmenter le débit d'entraînement de 3,4 à 3,7 fois lors du réglage fin des modèles à experts mixtes (MoE), tout en réduisant l'occupation mémoire GPU de 29 % à 32 %.

NeMo AutoModel est compatible avec l'interface de programmation d'applications (API) Hugging Face Transformers v5. Les utilisateurs n'ont qu'à ajouter une ligne de code d'importation pour accélérer le réglage fin des modèles MoE. Sur un nœud unique équipé de 8 GPU NVIDIA H100 80 Go, avec le modèle Qwen3-30B-A3B comme exemple, cette solution fait passer le débit par GPU (TPS/GPU) de 3 075 à 11 340, soit une augmentation de 3,69 fois.

L'architecture MoE est devenue le choix dominant pour les modèles de pointe, mais les problèmes d'ingénierie qu'elle entraîne, tels que le parallélisme des experts, la fusion des communications et l'optimisation des noyaux, nécessitent un support infrastructurel adapté. La solution de NVIDIA ajoute trois technologies à Transformers v5 : le parallélisme des experts (Expert Parallelism, EP), DeepEP et TransformerEngine.

La technologie de parallélisme des experts répartit les poids des experts sur plusieurs GPU, réduisant ainsi la pression mémoire sur chaque GPU. Avec 8 GPU et ep_size=8, l'occupation mémoire MoE de chaque GPU est réduite à un huitième de sa valeur d'origine. Pour le modèle Qwen3, cette technologie réduit la mémoire de pointe de 68,2 Gio à 48,1 Gio, soit une baisse de 29 %. Pour le modèle Nemotron Nanomo, l'occupation mémoire passe de 62,1 Gio à 42,5 Gio, soit une baisse de 32 %. La mémoire libérée peut être utilisée pour prendre en charge l'entraînement avec des lots plus grands et des séquences plus longues.

DeepEP réalise la fusion du calcul et de la communication. Dans le mode traditionnel, il existe un coût de communication entre la distribution des tokens et le calcul des experts. DeepEP intègre les opérations de distribution et de combinaison des tokens via des noyaux GPU optimisés, permettant au processus de communication de chevaucher le calcul des experts.

Le noyau TransformerEngine accélère les opérations telles que le mécanisme d'attention fusionné, les couches linéaires et RMSNorm, et agit à la fois sur les couches MoE et les couches Transformer classiques.

Les expériences menées sur les modèles Qwen3-30B-A3B et Nemotron 3 Nano 30B-A3B montrent que, par rapport à Transformers v5, cette solution augmente le débit d'entraînement de 3,4 à 3,7 fois tout en réduisant la consommation mémoire de 29 % à 32 %. NVIDIA a également publié les résultats du réglage fin complet du modèle Nemotron 3 Ultra 550B A55B dans un environnement de 16 nœuds H100, soit 128 GPU au total, avec un TPS/GPU de 815, un TFLOP/s/GPU d'environ 293 et une mémoire de pointe de 58,2 Gio. NVIDIA indique que Transformers v5 ne peut pas fonctionner à cette échelle en raison d'une mémoire insuffisante.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com