Le 12 mars, Sugon a officiellement lancé son premier réseau haute vitesse 400 G sans perte entièrement autodéveloppé — scaleFabric. Cela marque une percée majeure pour la Chine dans la technologie RDMA native de haute gamme, comblant le vide technologique en matière d'interconnexion à grande vitesse pour le calcul intelligent à très grande échelle.
Dans son discours lors de la conférence de lancement, l'académicien Wu Hequan de l'Académie d'ingénierie de Chine a déclaré que le scaleFabric, lancé cette fois, est le premier système de réseau haute vitesse RDMA native entièrement autodéveloppé en Chine. Ses performances sont comparables à celles des solutions internationales dominantes, et il a été validé par des pratiques à grande échelle, brisant ainsi le monopole technologique étranger et comblant les lacunes des réseaux haute vitesse nationaux.
Pourquoi le réseau haute vitesse est-il si important ? Selon l'académicien Wu Hequan, en tant que technologie clé de l'infrastructure de puissance de calcul, l'autonomie et la maîtrise du réseau haute vitesse sont directement liées à la sécurité et à la qualité du développement des infrastructures de calcul nationales.
« Si l'on compare un centre de calcul intelligent à une usine de calcul géante, les GPU sont les ouvriers sur la chaîne de production, alors le réseau haute vitesse est le tapis roulant qui les relie », explique de manière imagée Li Bin, vice-président senior de Sugon, aux journalistes. « Si le tapis roulant n'est pas assez rapide ou stable, même avec de nombreux ouvriers, ils ne peuvent qu'attendre inactifs. »
Et pendant très longtemps, ce « tapis roulant » a précisément été le maillon faible dans la construction du système de calcul intelligent en Chine.
Le dilemme du calcul intelligent national
Aujourd'hui, l'entraînement des grands modèles d'IA est entré dans l'ère des clusters de dizaines de milliers, voire de centaines de milliers de cartes. Prenons l'exemple des modèles à très grande échelle : leur entraînement nécessite des milliers, voire des dizaines de milliers de GPU travaillant en collaboration pendant des semaines, voire des mois. Dans ce processus, le volume d'échange de données entre les puces augmente de façon exponentielle, et les performances du réseau déterminent directement l'efficacité de la puissance de calcul.
Cependant, pendant longtemps, le marché chinois des réseaux haute vitesse de haute gamme a été dominé par des entreprises étrangères. Globalement, il existe deux modes de réseau principaux : l'un est le réseau IB importé, représenté par des entreprises technologiques étrangères, offrant des performances de pointe mais à un prix élevé et avec des délais d'approvisionnement imprévisibles ; l'autre est la voie RoCE, qui greffe la technologie RDMA sur Ethernet. Cette solution est compatible avec l'écosystème IP et a joué un rôle important dans les premières phases de construction de la puissance de calcul et les scénarios de mise en réseau à moyenne et petite échelle, jetant une bonne base pour le développement de l'industrie des réseaux en Chine. Mais à mesure que le calcul intelligent entre dans l'ère des clusters de dizaines de milliers de cartes, les exigences en termes d'échelle et de performances du réseau augmentent de façon exponentielle, et le RoCE est progressivement confronté à des défis tels que l'utilisation de la bande passante et le contrôle de la latence lors de la mise en réseau à grande échelle. Parallèlement, ses puces de carte réseau principales dépendent encore largement de fabricants étrangers, devenant un maillon à franchir dans le processus d'autonomisation de la chaîne industrielle.
L'académicien Wu Hequan a déclaré : « Pendant longtemps, le marché des réseaux haute vitesse de haute gamme a été monopolisé par des technologies étrangères, devenant l'un des principaux goulets d'étranglement au développement autonome de l'industrie de la puissance de calcul en Chine. »
Le ministère de l'Industrie et des Technologies de l'Information a précédemment publié le « Plan d'action pour l'interconnexion de la puissance de calcul », soulignant clairement la nécessité d'accélérer la construction d'un système d'interconnexion de la puissance de calcul et d'améliorer l'efficacité d'utilisation des ressources de calcul publiques. Parallèlement, le 15e plan quinquennal a également inclus les nouvelles infrastructures parmi les orientations prioritaires nationales, visant à construire un réseau de calcul national intégré, fournissant ainsi un soutien solide pour la mise à niveau industrielle et le développement numérique et intelligent pendant le 15e plan quinquennal et au-delà.
Dans ce contexte, le lancement du scaleFabric de Sugon revêt une importance stratégique particulière.
Développement complet en interne : 100 % d'autonomie, de la puce de base aux logiciels de haut niveau
On apprend que Sugon, après trois ans de recherche intensive, a réalisé un développement 100 % interne complet du scaleFabric, du matériel de base aux logiciels de haut niveau. Le champ de développement interne couvre les maillons clés, notamment les IP clés, les puces de commutation, les cartes réseau, les commutateurs, les pilotes et les logiciels de gestion.
Cela signifie que la Chine possède désormais un système technologique et une propriété intellectuelle entièrement autonomes dans le domaine des réseaux de haute gamme, et n'est plus dépendante de l'étranger.
En termes d'indicateurs de performance, le scaleFabric a atteint un niveau international avancé :
La carte réseau scaleFabric400 est basée sur l'interface PCIe 5.0
— La bande passante par port atteint 400 Gbps, avec une latence de communication de bout en bout aussi faible que 0,9 microseconde.
Le commutateur scaleFabric400
— La bande passante par port unique atteint 800 Gbps, la capacité de commutation totale de l'appareil peut atteindre 64 Tbps bidirectionnels, avec une latence de commutation d'environ 260 nanosecondes, et prend en charge une extension de 40 ports 800 G ou 80 ports 400 G.
— Il peut facilement prendre en charge des déploiements de clusters allant jusqu'à 114 000 cartes, tout en réduisant le coût total du réseau de 30 % ;
« Dans un environnement de test réel, l'efficacité du réseau pour les tâches d'entraînement d'IA typiques sur un cluster de 30 000 cartes s'est considérablement améliorée. Les produits réseau nationaux sont non seulement utilisables, mais ont également atteint un niveau performant et durable », a déclaré Li Liu, vice-président de Sugon Information Industry (Beijing) Co., Ltd.
Choix technologique : pourquoi opter pour l'IB native
Dans le domaine des réseaux haute vitesse, le choix de la voie technologique est crucial. Actuellement, l'industrie suit principalement deux voies : l'une est la voie native InfiniBand, offrant des performances exceptionnelles mais longtemps monopolisée par l'étranger ; l'autre est la voie RoCE, qui greffe la technologie RDMA sur Ethernet. Sur la base d'une analyse approfondie de la nature des technologies, Sugon a directement choisi la première voie.
Selon Wan Wei, ingénieur en chef du département des produits d'interconnexion réseau haute vitesse de Sugon, l'IB est un réseau dédié conçu pour le calcul de haute performance, sa pile de protocoles est spécialement conçue pour la communication à grande vitesse, et les commutateurs utilisent le mode de commutation VCT, avec une latence contrôlée en dessous de 300 nanosecondes.
En fait, d'après les pratiques d'application industrielle, les performances des différentes voies technologiques dans les scénarios de calcul intelligent à grande échelle divergent progressivement. Le RoCE utilise le mécanisme de commutation « stockage-transfert » d'Ethernet, où les paquets de données doivent être entièrement reçus avant d'être retransmis, ce qui entraîne une différence objective dans le contrôle de la latence par rapport à l'architecture IB conçue nativement — les données de tests industriels montrent que la latence de traitement sur les nœuds de commutation du RoCE est généralement plus du double de celle de la solution IB.
Plus encore, les différences de conception fondamentale des mécanismes de contrôle de flux sont notables. L'IB utilise un mécanisme de contrôle de flux basé sur le crédit, confirmant que les ressources du récepteur sont suffisantes avant la transmission des données, évitant ainsi à la racine les problèmes de perte de paquets. Le RoCE, quant à lui, repose sur le mécanisme PFC (Priority Flow Control) pour la gestion de la congestion, une méthode de régulation passive de type « détecter le problème puis le résoudre ». Les professionnels du secteur soulignent qu'avec l'expansion de la taille des clusters, le mécanisme PFC peut facilement déclencher des réactions en chaîne, conduisant à ce qu'on appelle des « tempêtes PFC » ou des états d'interblocage, nécessitant ainsi que les équipes d'exploitation consacrent beaucoup d'efforts à l'optimisation des algorithmes de contrôle de congestion et à la configuration des seuils.
« Pour les clusters à grande échelle de dizaines de milliers de cartes, ces différences déterminent directement si le système peut fonctionner de manière stable », a déclaré Li Bin, vice-président senior de Sugon. « C'est pourquoi, sur le plan technologique, nous avons choisi la voie la plus difficile mais la plus juste. »
Validation sur le terrain : un cluster de 30 000 cartes fonctionne de manière stable sur un nœud central
L'innovation technologique doit finalement résister à l'épreuve de la pratique.
Il est rapporté que le scaleFabric a déjà été déployé simultanément sur trois clusters de dizaines de milliers de cartes au nœud central de l'Internet national des supercalculateurs, avec une échelle de près de dix mille cartes fonctionnant de manière stable et continue depuis plus de six mois. C'est la première fois qu'un réseau haute vitesse national subit une validation sous charge réelle à une telle échelle.
« Dans les applications réelles, le temps de récupération après une panne du réseau est inférieur à 1 milliseconde, et les tâches d'entraînement n'ont absolument pas perçu de fluctuation du réseau », a déclaré Li Liu, vice-président de Sugon Information Industry (Beijing) Co., Ltd. « Cela fournit une garantie fiable pour l'entraînement de modèles d'IA à grande échelle. »
Du point de vue des coûts, le scaleFabric, tout en offrant des performances comparables aux meilleurs produits IB internationaux, réduit les coûts d'environ 30 % par rapport aux solutions IB du marché. Il résout ainsi à la fois le problème des coûts élevés de l'IB importé et évite les lacunes de performance et les coûts d'exploitation du réseau RoCE dans les scénarios de grands clusters.
Construire un écosystème : d'une percée ponctuelle à une synergie industrielle
La naissance d'un produit n'est qu'un point de départ ; construire un écosystème industriel complet est la stratégie à long terme pour le développement.
On apprend qu'au sein du « groupe de projet d'optimisation du réseau des centres de données », établi sous le laboratoire conjoint d'architecture ouverte de calcul IA de l'« organisation de photosynthèse », Sugon collabore avec les acteurs en amont et en aval de la chaîne industrielle pour promouvoir l'élaboration de normes de réseau autonomes et le développement de solutions adaptées aux scénarios.
Cela signifie que la naissance du scaleFabric n'est pas seulement une percée pour un produit unique, mais aussi le point de départ de l'écosystème des réseaux haute performance nationaux. De la conception des puces à la fabrication des équipements, du développement logiciel à l'intégration des systèmes, une chaîne industrielle complète est en train de se former.
« À l'avenir, lorsque de plus en plus d'entreprises utiliseront des réseaux nationaux, toute l'industrie formera un cercle vertueux », a déclaré Li Bin, vice-président senior de Sugon. « Plus il y aura de scénarios d'application, plus l'itération des produits sera rapide ; meilleures seront les performances des produits, plus grande sera l'échelle d'application. »
Combler la dernière pièce du puzzle de l'IA de calcul de haute gamme en Chine
« Le réseau haute vitesse RDMA est « l'artère principale de la puissance de calcul » des clusters de calcul intelligent », a ainsi défini l'académicien Wu Hequan l'importance du réseau haute vitesse. Le lancement du scaleFabric de Sugon fournit également de nouvelles solutions à la construction du système de calcul intelligent national sous plusieurs angles.
Actuellement, le scaleFabric réalise un développement 100 % interne complet, atteignant un niveau international avancé sur des indicateurs clés tels que la latence, la bande passante et l'échelle de mise en réseau. Il offre ainsi un nouveau choix technologique aux utilisateurs nationaux, fournit un support réseau nationalisé pour les scénarios de calcul de haute performance tels que les centres de calcul intelligent et les centres de supercalcul, et contribue à construire une chaîne industrielle de puissance de calcul plus complète et autonome.
Il est à noter que la pratique de déploiement simultané de trois clusters de dizaines de milliers de cartes basés sur le scaleFabric au nœud central de l'Internet national des supercalculateurs montre que les produits de réseau haute vitesse nationaux ont déjà la capacité de supporter des déploiements commerciaux à grande échelle et de répondre aux besoins réels des scénarios tels que l'entraînement de grands modèles d'IA et les tâches de supercalcul. Parallèlement, le scaleFabric adopte la voie technologique native InfiniBand, complétant ainsi la voie RoCE existante, offrant plus de choix aux utilisateurs et contribuant à la formation d'un écosystème industriel plus diversifié et sain.
Surtout, au niveau stratégique national, il répond à l'orientation prioritaire du 15e plan quinquennal concernant les nouvelles infrastructures, met en œuvre les dispositions relatives à « l'intelligence artificielle + », et consolide la base du développement de l'économie numérique.
Des puces au réseau, du matériel au logiciel, le calcul intelligent chinois est en train de construire un système industriel complet, autonome et durable. « Actuellement, l'intelligence artificielle se généralise dans tous les domaines, la puissance de calcul devient la force productive centrale, et la concurrence en matière de puissance de calcul évolue vers un jeu d'écosystème complet intégrant le calcul, le réseau et le stockage », a déclaré l'académicien Wu Hequan. « J'espère que Sugon prendra cela comme un nouveau point de départ, poursuivra l'innovation technologique, approfondira la collaboration industrielle et construira un système de technologies et de produits de réseau haute vitesse autonome, avancé et sécurisé. »









