fr.wedoany.com Rapport : Le 10 juin, l'entreprise chinoise de GPU Moore Threads a annoncé la publication et l'ouverture en open source de MusaCoder. Il s'agit d'un grand modèle de code spécialisé dédié à la génération de noyaux GPU de bas niveau, capable de produire des noyaux GPU natifs CUDA et MUSA à partir d'une implémentation de référence PyTorch, en se concentrant sur le calcul haute performance, l'optimisation de l'entraînement et de l'inférence en IA, ainsi que la construction de l'écosystème logiciel des GPU nationaux.
Les noyaux GPU de bas niveau constituent la couche de liaison essentielle entre les frameworks d'IA et les performances matérielles. L'entraînement et l'inférence de grands modèles, le calcul scientifique et le traitement graphique nécessitent tous un grand nombre d'opérations de calcul matriciel, de transformation de tenseurs, de réduction, d'optimisation de l'accès mémoire et de planification parallèle. Si l'efficacité des noyaux de bas niveau est insuffisante, même avec une augmentation de l'échelle des paramètres des modèles de haut niveau, il est difficile de libérer pleinement la puissance de calcul du GPU. Auparavant, le développement de noyaux dépendait fortement de l'écriture manuelle par les ingénieurs et d'un réglage itératif, exigeant une connaissance approfondie de l'architecture matérielle, de la programmation parallèle, de la hiérarchie mémoire et de la chaîne d'outils de compilation. La publication de MusaCoder cible précisément cette étape à forte barrière d'entrée, dans l'espoir d'améliorer l'efficacité de la génération de noyaux de bas niveau à l'aide d'un grand modèle de code spécialisé.
La particularité de ce résultat open source réside dans le fait que l'ensemble du processus de post-entraînement a été réalisé sur le cluster de calcul intelligent Kuae, construit sur la base du MTT S5000. Moore Threads indique que MusaCoder est le premier grand modèle de code open source au monde à avoir réalisé un entraînement et une validation complets sur une infrastructure de calcul GPU nationale.
MusaCoder adopte un framework d'entraînement orienté vers la génération de noyaux, combinant des méthodes telles que la synthèse de données, le réglage fin par rejet et l'apprentissage par renforcement basé sur le retour d'exécution. Cela permet au modèle, après avoir généré du code, de le valider par compilation, exactitude numérique et gain de performance réel. La génération de noyaux GPU diffère de la simple complétion de code : la capacité à exécuter le code n'est que la première étape ; le plus crucial est qu'il puisse être compilé de manière stable sur le backend matériel spécifié, produire des résultats corrects sans retours illégaux, et obtenir une amélioration des performances lors de l'exécution réelle. En intégrant le backend MUSA dans le processus d'entraînement et de validation, Moore Threads signifie que le modèle ne sert pas seulement l'écosystème CUDA général, mais s'adresse également directement à l'environnement de calcul parallèle des GPU nationaux.
Pour l'industrie chinoise des GPU, l'importance de MusaCoder ne se limite pas à un modèle open source. Pour que la puissance de calcul IA nationale soit adoptée par davantage de développeurs et de projets d'entreprise, il est nécessaire de résoudre les problèmes d'adaptation de l'écosystème logiciel, y compris les frameworks d'apprentissage profond, les bibliothèques de noyaux, les compilateurs, les bibliothèques de communication, les moteurs d'inférence et la migration des modèles d'application. L'amélioration de la capacité de génération de noyaux de bas niveau permettra aux développeurs de transformer plus rapidement les programmes de tenseurs de haut niveau en code GPU exécutable et optimisable, réduisant ainsi les coûts de migration manuelle et de réglage des performances. Pour les fabricants de modèles, les instituts de recherche et les équipes d'applications industrielles qui doivent adapter leurs solutions aux GPU nationaux, ce type d'outil peut raccourcir le cycle allant du portage de code à la validation des performances.
L'impact sur la chaîne industrielle se concentrera sur les outils de développement de GPU nationaux, l'adaptation des frameworks d'IA, l'optimisation de l'entraînement des modèles et les services logiciels des centres de calcul intelligent. Alors que les grands modèles entrent dans une phase d'ingénierie plus avancée, la compétition en matière de puissance de calcul ne se limite plus aux paramètres de pointe d'une seule carte, mais dépend également de la capacité de la pile logicielle à soutenir un entraînement stable, un déploiement d'inférence et un réglage des performances des modèles. Si MusaCoder peut être continuellement amélioré et adopté par les développeurs, il contribuera à l'accumulation de davantage de noyaux, d'exemples et d'expériences d'optimisation pour l'écosystème MUSA de Moore Threads, et renforcera également la valeur de validation du cluster de calcul intelligent Kuae pour les tâches d'entraînement de grands modèles et de génération de code. Les prochaines étapes incluent l'utilisation des poids du modèle téléchargés, les retours des développeurs, l'élargissement de la portée d'adaptation du backend MUSA, et la capacité du modèle à produire des résultats pratiques dans davantage de frameworks d'IA et de scénarios de noyaux industriels.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









