La première usine de tokens de Pékin mise en service, avec une capacité quotidienne de 1,4 billion de tokens

2026-06-15 17:26

Favoris

fr.wedoany.com Rapport : La première usine de tokens de Pékin — l’usine de tokens Beijing n°1 — a officiellement été implantée dans la zone de confiance du parc industriel de la zone de développement économique et technologique de Pékin. Construite par la société SoftPower Information Technology Co., Ltd., la première phase du projet peut produire jusqu’à 1,4 billion de tokens par jour.

Un token est la plus petite unité de traitement du texte par l’IA. La puissance de calcul détermine le nombre de tokens pouvant être traités par seconde ainsi que le coût d’utilisation. Cette usine est composée d’une série de serveurs et vise à transformer la puissance de calcul en une ressource publique stable et accessible, au service de l’évolution des grands modèles de langage, des simples dialogues aux systèmes fonctionnant en continu.

L’usine de tokens Beijing n°1 se concentre sur les scénarios de services d’agents intelligents. En exploitant au maximum les performances matérielles grâce à des techniques d’ingénierie extrêmes, elle intègre des algorithmes avancés d’ordonnancement de la puissance de calcul et de réutilisation extrême du cache KV. Elle garantit une disponibilité du service supérieure ou égale à 99,9 %, un délai de premier mot P90 inférieur à 10 secondes avec une fluctuation inférieure à 20 %, et un taux de réussite du cache supérieur ou égal à 90 %. L’usine peut fonctionner 24 heures sur 24, 7 jours sur 7. Parmi les indicateurs de réponse clés, la moitié des tâches sont traitées en moins de 6 secondes, 90 % des tâches en moins de 10 secondes, et la fluctuation est maintenue en dessous de 20 %.

SoftPower a également ouvert en open source un benchmark de performance pour les usines de tokens, incluant le cadre d’évaluation LoadGen 2.0. Ce benchmark repose sur une refonte approfondie du LoadGen MLPerf standard de l’industrie, passant d’une injection statique de concurrence à une simulation dynamique de comportements, permettant ainsi de définir et de reproduire des situations chaotiques réelles dans un environnement de test. Ce benchmark évalue et compare la capacité de service réelle des clusters de calcul via un système d’évaluation à trois niveaux (méthode de caractérisation de charge chaotique au niveau inférieur, trois méthodes de test standard au niveau intermédiaire — puissance nominale / métier / exactitude de précision — et ensembles de données standard orientés vers différents domaines au niveau supérieur). LoadGen 2.0 est entièrement open source.

Dans une prochaine étape, l’usine de tokens Beijing n°1 collaborera avec des bases d’énergie verte comme Zhangjiakou et Ulanqab pour construire un cluster de calcul intégré Pékin-Tianjin-Hebei, avec un objectif à long terme de production quotidienne de 10 billions de tokens. Selon les évaluations du secteur, la mise en œuvre de ce projet comble le manque d’offre de puissance de calcul à grande échelle et de haute qualité en Chine, établit une référence industrielle pour les services et l’évaluation de la puissance de calcul, et attirera davantage d’entreprises en amont et en aval de l’IA, renforçant ainsi la chaîne industrielle régionale de l’intelligence artificielle.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com