WEKA valide le raisonnement à long contexte sur Oracle Cloud, débit multiplié par 10

2026-06-10 11:30

Favoris

fr.wedoany.com Rapport : L'entreprise américaine d'infrastructure de données et de mémoire pour l'IA, WEKA, a annoncé le 9 juin 2026 avoir réalisé des tests de référence à l'échelle de la production sur l'infrastructure cloud Oracle (OCI) avec sa plateforme NeuralMesh combinée à Augmented Memory Grid. Les résultats montrent que, sans ajouter de GPU ni de nœuds de cluster, cette solution permet d'augmenter le nombre d'utilisateurs simultanés dans les scénarios de raisonnement à long contexte d'environ 10 fois, le débit de tokens d'environ 10 fois, et le nombre de tokens générés par GPU d'environ 7 fois. Les tests ont été réalisés sur un cluster de 9 nœuds OCI Bare Metal H100, avec une fenêtre de contexte de 100 000 tokens validée.

Ces tests se sont concentrés sur le raisonnement à long contexte au niveau entreprise. WEKA a révélé qu'avec NeuralMesh combiné à Augmented Memory Grid, le nombre d'utilisateurs simultanés est passé d'environ 600 dans une configuration DRAM-only à plus de 5 000. En termes de débit de tokens, la solution a atteint environ 2 millions de tokens par seconde, contre moins de 200 000 tokens par seconde pour la ligne de base DRAM-only. Lors d'un test d'une heure avec 2 400 utilisateurs, Augmented Memory Grid a servi environ 5 milliards de tokens, contre environ 700 millions pour la ligne de base DRAM-only.

L'environnement de test utilisait 9 nœuds OCI Bare Metal H100, chaque nœud étant équipé de 8 GPU H100, soit un total de 72 GPU. Selon le blog technique d'Oracle, chaque nœud était également équipé de 16 disques NVMe Gen4 et de 2 cartes réseau RDMA 200 Gb. Augmented Memory Grid a étendu le cache NVMe disponible à 287 Tio, tandis que la DRAM disponible dans l'environnement de base était d'environ 8,64 Tio. Chaque utilisateur simulé était configuré avec 100 000 tokens en entrée et 100 tokens en réponse, afin de simuler la pression sur le cache dans des scénarios de longs documents, de sessions multi-tours et de tâches d'agents.

La clé de ce type de test ne réside pas seulement dans le nombre de GPU. Le raisonnement à long contexte génère en continu un cache KV pendant l'exécution. Lorsque la fenêtre de contexte atteint 100 000 tokens, la capacité du cache et le taux de succès du cache affectent le débit, la latence et l'efficacité d'utilisation du GPU. Dans une configuration DRAM-only, une fois le cache saturé, des évictions de cache et des recalculs de préremplissage se produisent facilement. Pour les applications de recherche, de résumé, d'assistance au code et d'agents multi-tours, cela entraîne des coûts de service plus élevés et des temps de réponse moins stables.

L'approche d'Augmented Memory Grid consiste à découpler le cache KV de la mémoire GPU locale et de la DRAM, et à le placer dans un entrepôt de tokens haute performance au niveau du cluster. WEKA explique sur la page produit OCI que cette solution, basée sur NeuralMesh et NeuralMesh Axon, transfère en continu les données du cache key-value entre la mémoire GPU et la mémoire flash via RDMA et GPUDirect Storage, en utilisant l'infrastructure GPU Bare Metal d'OCI pour étendre la couche de cache sans ajouter de DRAM physique.

Selon le blog technique d'Oracle, cette série de tests est passée de la validation précoce du TTFT à la validation de charges de travail proches de la production, couvrant la densité de concurrence, le débit soutenu, la persistance du cache et la stabilité du service sous forte charge. Le blog montre également que les tests ont comparé la ligne de base standard du service vLLM avec HBM+DRAM et la solution d'extension de cache avec Augmented Memory Grid. Les résultats montrent que lorsque le cache DRAM atteint sa limite, le temps de réponse de la ligne de base fluctue, tandis que la solution d'extension de cache maintient un niveau de service plus stable sous une concurrence plus élevée.

WEKA a indiqué que NeuralMesh with Augmented Memory Grid est désormais disponible pour les clients et a été mis en ligne via Oracle Cloud Marketplace, OCI étant son premier partenaire de lancement dans le cloud. Pour les clients déployant des applications d'IA en entreprise, ce résultat souligne un problème concret : face à la demande croissante de raisonnement à long contexte, l'augmentation de la puissance de calcul n'est pas la seule option. L'extension du cache, le chemin de données et l'ordonnancement du cluster affectent également le coût par token et la capacité de service en ligne.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com