Une équipe chinoise achève le post-entraînement complet d’un modèle à mille milliards de paramètres sur une infrastructure de calcul nationale

2026-06-09 13:54

Favoris

fr.wedoany.com Rapport : L’équipe du projet de plateforme d’entraînement IA du Collège Hetao de Shenzhen, en collaboration avec l’Université de technologie de Harbin (Shenzhen), l’Institut de recherche sur les mégadonnées de Shenzhen et Huawei GTS (Global Technical Services), a mené des recherches conjointes sur l’entraînement de grands modèles basés sur des infrastructures de calcul nationales. En s’appuyant sur le cluster de calcul national Ascend 910C, l’équipe a réussi à réaliser, en un mois, l’entraînement continu complet des paramètres et le fonctionnement stable du SFT (Supervised Fine-Tuning) de DeepSeek-V4-Pro. L’entraînement a cumulé plus de 1 500 étapes, avec un MFU (Model Flops Utilization) supérieur à 30 %, et l’efficacité des opérateurs d’entraînement clés a été améliorée d’environ 14 %.

Il s’agit de la première pratique d’ingénierie de post-entraînement complet des paramètres de DeepSeek-V4-Pro réalisée par un tiers sur un cluster de calcul national, marquant le passage de l’infrastructure IA nationale du déploiement d’inférence et du réglage fin léger à la phase de post-entraînement complet des paramètres de modèles de très grande taille.

DeepSeek-V4-Pro est un modèle phare open source de type MoE (Mixture of Experts) doté de 1,6 billion de paramètres. Il intègre des mécanismes innovants tels que l’attention mixte sparse CSA+HCA et les connexions mHC, imposant des exigences élevées aux frameworks d’entraînement nationaux par rapport à la génération précédente DeepSeek-V3/R1.

Les recherches conjointes ont permis un fonctionnement stable du post-entraînement complet des paramètres de DeepSeek-V4-Pro sur un cluster de calcul national Ascend 910C à l’échelle de milliers de cartes. Le modèle a itéré sur plus de 1 500 étapes, sans aucun saut d’itération ni anomalie NaN. L’efficacité des opérateurs d’entraînement clés a été améliorée d’environ 14 % par rapport à la version initiale, le MFU final s’est stabilisé à 34,9 %, et le temps d’entraînement par étape s’est stabilisé à 27 secondes. L’équipe a également achevé la chaîne complète de l’entraînement continu complet des paramètres et du SFT de DeepSeek-V4-Flash.

Les résultats de ce projet démontrent une capacité d’entraînement stable sur infrastructure nationale pour un modèle MoE de niveau mille milliards de paramètres, reproductible et livrable en ingénierie. La validation en boucle fermée dans un scénario industriel de modélisation opérationnelle automatisée a été réalisée, prouvant que l’infrastructure de calcul nationale peut effectuer un entraînement spécialisé renforcé pour les grands modèles sectoriels dans un délai court et à faible coût.

Sur le plan technique, le projet a réalisé trois avancées majeures : premièrement, la construction réussie d’un schéma de distribution couvrant les poids, les gradients, les activations et les états de l’optimiseur, permettant la collaboration entre le parallélisme des données, le parallélisme des tenseurs, le parallélisme des pipelines et le parallélisme des experts ; deuxièmement, l’optimisation du routage MoE et des opérateurs d’attention sparse, avec la mise en place d’un mécanisme d’équilibrage de charge des experts, atténuant efficacement la congestion de communication et le déséquilibre de charge ; troisièmement, la mise en place d’un système de surveillance à long terme avec visualisation complète des indicateurs, sans perte de contrôle ni valeur NaN lors de plusieurs jours d’entraînement continu.

Lors de la phase de validation des capacités, le projet a conçu une expérience visant à renforcer les capacités de modélisation mathématique du grand modèle. L’équipe a mis en place un flux de production de données de modélisation SFT, générant 3 000 échantillons SFT de haute qualité pour des tâches de modélisation mathématique, couvrant 4 types d’objectifs et 3 formes de problèmes. Les résultats d’entraînement montrent que la perte LM du modèle a convergé à 0,2056, la perte MTP 1 à 0,2538, avec une courbe de gradient stable. Les évaluations de référence indiquent une amélioration globale des quatre indicateurs clés du modèle, dont une augmentation de plus de 5 points de pourcentage du score ORGEval WL, et un renforcement significatif des capacités de raisonnement complexe et de modélisation.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Chine

Information et communication Ingénierie de l'intelligence artificielle Ingénierie du traitement intelligent des données

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com

Préc：Essai réussi de la charge flexible sur une cuve d'électrolyse de 400 kA en Chine

Suiv：La construction du nouveau réseau de communication chinois s'accélère : la couverture 5G-A dépasse 330 villes