Huawei et China Mobile Hubei finalisent la validation commerciale de la solution d'accélération de l'inférence IA

2026-06-29 10:47

Favoris

fr.wedoany.com Rapport : Huawei, en collaboration avec China Mobile Hubei, a réalisé pour la première fois dans le secteur des télécommunications chinois la validation en réseau commercial de la solution d'accélération de l'inférence IA (AI Inference Acceleration Solution). Ce résultat a été présenté du 24 au 26 juin au salon MWC Shanghai 2026, dans le hall N1 du Shanghai New International Expo Centre (SNIEC).

Vue d'ensemble de l'événement Huawei MWC Shanghai 2026

Avec l'évolution des applications d'IA vers le mode agent, les scénarios nécessitant le traitement de longs contextes, tels que la génération de code et les dialogues multi-tours, se multiplient. Cependant, la capacité limitée de la mémoire sur puce et de la DRAM entraîne une baisse du taux de succès du cache KV (cache clé-valeur), ce qui affecte les performances d'inférence.

Huawei a construit sa solution autour du stockage OceanStor A800, du SuperPOD Ascend A3 (Ascend A3 SuperPoD) et du gestionnaire de cache unifié (UCM, Unified Cache Manager) lancé en 2025. L'UCM utilise un stockage externe haute performance pour réaliser un cache KV à l'échelle du pétaoctet, dépassant ainsi les limites de capacité de la mémoire sur puce et de la DRAM. Ce système assure une gestion et une planification hiérarchisées du cycle de vie complet du cache KV, étend la fenêtre de contexte des dialogues uniques, réutilise le cache KV historique dans les dialogues multi-tours, élimine les calculs redondants et réduit les coûts d'inférence.

La validation a été effectuée dans l'environnement réseau commercial de China Mobile Hubei, en utilisant le framework vLLM-Ascend pour tester des modèles tels que MiniMax M2.5 et GLM-5.1, avec des entrées de séquences longues allant de 8 000 à 190 000 tokens. Pour le modèle GLM-5.1, le temps de génération du premier token (TTFT, Time To First Token) a été amélioré de 51 % à 93 %, et le nombre de tokens par seconde (TPS, Tokens Per Second) par NPU a augmenté de 56 % à 372 %. En fonction de la longueur de séquence, le TPS a augmenté de 313 % à 64 000 tokens et de 372 % à 128 000 tokens. Pour le modèle MiniMax M2.5, après application de l'UCM, le TTFT a été amélioré de 26 % à 62 %, et le TPS a augmenté de 58 % à 64 000 tokens et de 78 % à 128 000 tokens. L'effet d'accélération de cette solution devient plus marqué à mesure que la longueur du contexte augmente.

Un responsable de China Mobile Hubei a indiqué que la province du Hubei, située dans une zone centrale, présente une latence de seulement 10 millisecondes avec les huit principaux hubs de calcul du pays. Dans des scénarios tels que les interactions avec les agents IA et la génération de code, cette solution peut augmenter le débit de plus de 50 %, jetant ainsi les bases d'un déploiement à grande échelle des services d'IA. Michael Qiu, président du département mondial de marketing et de vente de solutions de stockage de données chez Huawei, a souligné qu'avec le lancement par les opérateurs de forfaits de tokens, le déploiement à grande échelle des agents IA entre dans une nouvelle phase, et que la consommation de tokens devrait connaître une croissance exponentielle.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com