Le 30 juin, la société chinoise Zhonghao Xinying a lancé sa nouvelle puce de calcul dédiée à l’IA, le TPU entièrement développé en interne « Xuyu », ainsi que la plateforme de calcul intelligent intégrée matériel-logiciel « Taize 2.0 ». La puce « Xuyu » atteint une puissance de calcul en virgule flottante en précision mixte de 896 TFLOPS par puce, et une puissance de calcul d’inférence en 8 bits de 1792 TOPS, pour une consommation électrique nominale de 600 W par carte. 
Le positionnement technique de « Xuyu » se concentre sur l’entraînement des grands modèles, l’accélération de l’inférence et le calcul IA à haut débit. Le TPU est une puce d’accélération spécialisée dans le calcul tensoriel et les opérations matricielles, dont la mission principale est d’améliorer l’efficacité de calcul des modèles d’apprentissage profond lors de l’entraînement, de l’inférence et du traitement par lots. Contrairement aux GPU, qui mettent l’accent sur la couverture du calcul généraliste, le TPU se concentre davantage sur l’efficacité des multiplications matricielles, des opérations tensorielles, de l’ordonnancement des opérateurs et du transfert de données dans les modèles d’IA. Avec « Xuyu », Zhonghao Xinying porte la puissance de calcul en virgule flottante en précision mixte à 896 TFLOPS et la puissance de calcul d’inférence en 8 bits à 1792 TOPS, ce qui indique une mise à niveau des unités de calcul et des voies de données pour les grands modèles de langage, les modèles multimodaux et les scénarios d’inférence à haute concurrence.
Cette puce est le deuxième produit TPU de Zhonghao Xinying. La puissance de calcul de « Xuyu » est trois fois supérieure à celle de la génération précédente « Chana », avec une amélioration significative du débit de calcul lors de l’entraînement et de l’inférence des modèles.
Le fonctionnement des grands modèles ne dépend pas uniquement de la puissance de calcul de pointe, mais aussi de la capacité de mémoire vidéo, du cache sur puce, de l’interconnexion des puces, de la bande passante de communication, de la bibliothèque d’opérateurs et du cadre logiciel. L’inférence à long contexte, les dialogues multi-tours, les tâches d’agents et la génération par lots génèrent une grande quantité de cache KV, d’appels de paramètres et de transferts de données intermédiaires. Si la capacité de stockage et d’interconnexion est insuffisante, les unités de calcul sont ralenties par le transfert de données. En lançant simultanément « Taize 2.0 » autour de « Xuyu », Zhonghao Xinying montre que sa feuille de route technique ne consiste pas à livrer une puce isolée, mais à constituer une plateforme de calcul intelligent complète intégrant la puce, la carte d’accélération, le serveur, le logiciel système, la bibliothèque d’opérateurs, l’ordonnancement des clusters et l’adaptation des modèles. La capacité de cette plateforme influence directement la stabilité d’exécution des modèles d’IA dans les clusters de calcul à grande échelle.
« Taize 2.0 » est conçu pour le déploiement de clusters de calcul IA et assure une synergie matériel-logiciel. La puce est responsable du calcul de base, tandis que la plateforme gère le chargement des modèles, l’ordonnancement des tâches, la gestion des ressources et la maintenance opérationnelle.
L’adaptation à l’écosystème des modèles est un autre point clé de ce lancement. Selon les informations publiques, « Taize 2.0 » est compatible avec des outils tels que PyTorch, vLLM, SGLang, DeepSpeed, Megatron-LM, ainsi qu’avec les cadres d’entraînement distribué et d’inférence, et s’adapte aux grands modèles de langage et multimodaux comme Qwen, DeepSeek, GLM et MiniMAX. Pour les entreprises de puces IA, les paramètres matériels ne constituent que le premier niveau de capacité. La rapidité avec laquelle les développeurs peuvent migrer les modèles, la stabilité d’exécution des opérateurs, l’efficacité d’appel du cadre d’inférence et la capacité d’extension continue du cluster déterminent la vitesse à laquelle la puce entre dans les projets réels. Zhonghao Xinying souligne que le noyau IP de la puce, le jeu d’instructions dédié, la bibliothèque d’accélération des opérateurs de bas niveau et le logiciel système de la machine entière sont tous développés en interne, l’objectif principal étant de réduire les coûts d’adaptation lors de la migration des modèles et du déploiement de la puissance de calcul.
Dans les domaines de l’IA industrielle, du calcul scientifique, des centres de calcul intelligents gouvernementaux et des plateformes de grands modèles sectoriels, les exigences en matière de systèmes de calcul évoluent de « capable d’exécuter des modèles » à « fonctionnement stable à long terme ». Des tâches telles que la reconnaissance de l’état des équipements, l’inspection visuelle industrielle, les questions-réponses basées sur des bases de connaissances, l’optimisation des paramètres de processus, l’assistance à la recherche et la maintenance prédictive nécessitent une inférence à haut débit, mais aussi une réponse stable, un contrôle de la consommation d’énergie et un environnement logiciel maintenable.
Avec le lancement de « Xuyu », la feuille de route TPU de Zhonghao Xinying entre dans une phase de puissance de calcul plus élevée. La valeur technique future dépendra principalement de la capacité de production en série de la puce, de l’efficacité de l’interconnexion des clusters, de la maturité de la pile logicielle, de l’étendue de l’adaptation des modèles et des performances dans les scénarios réels.
