Sandisk lance la mémoire flash à large bande passante HBF pour répondre au goulot d'étranglement de la mémoire en IA

2026-06-15 14:48

Favoris

fr.wedoany.com Rapport : Sandisk a dévoilé la technologie de mémoire flash à large bande passante (High Bandwidth Flash, HBF), conçue pour résoudre les goulots d'étranglement de la mémoire dans les charges de travail d'inférence en IA.

Mémoire flash à large bande passante

Le calcul en IA transforme l'architecture mémoire des centres de données. Actuellement, environ un septième des centres de données sont capables de prendre en charge les charges de travail d'IA, et cette proportion devrait atteindre près de 70 % d'ici 2030. L'IA migre des centres de données hyperscale vers les centres de données d'entreprise et les réseaux périphériques, et les applications d'IA en périphérie devraient générer près de 66,5 milliards de dollars de revenus d'ici la fin de la décennie. Ces vastes référentiels de contenu exercent une pression sur les architectures de stockage traditionnelles et révèlent leurs faiblesses structurelles inhérentes.

La DRAM et la mémoire à large bande passante dédiée (HBM), largement utilisées dans les centres de données, peinent de plus en plus à suivre les exigences des grands modèles d'IA en termes de densité, de capacité de stockage et d'évolutivité. Les fabricants de calcul hyperscale sont confrontés à une hausse continue des coûts de production, de la complexité de conception et de la consommation énergétique de la DRAM et de la HBM. Ce défi est encore plus marqué dans les centres de données d'entreprise et les applications d'IA en périphérie, où l'espace physique est limité et où il est difficile de supporter des coûts de mémoire et une consommation électrique plus élevés. L'inférence en IA, en tant que charge de travail dominante actuelle, a des besoins de gestion des données radicalement différents de ceux de l'entraînement en IA, nécessitant le stockage de grands modèles d'IA en constante évolution. Les solutions mémoire basées sur la HBM et la DRAM montrent leurs limites en termes de capacité et d'évolutivité des coûts.

L'extension de la capacité de la DRAM est pratiquement stagnante, tandis que la demande de capacité plus élevée pour l'inférence en IA ne cesse de croître. Les avantages de la DRAM en matière de faible latence et d'accès aléatoire ne correspondent pas à l'inférence en IA, car les schémas d'accès de l'inférence sont déterministes et tolèrent mieux la latence grâce à des techniques telles que la prélecture des données. Ces lacunes existent au sein d'une industrie de la DRAM valorisée à 120 milliards de dollars, qui fait face à des dépenses massives des fournisseurs hyperscale en infrastructures d'IA (pouvant atteindre 6,7 billions de dollars d'ici la fin de la décennie).

La solution HBF proposée par Sandisk est une nouvelle architecture mémoire, spécialement conçue pour piloter la prochaine génération de calcul en IA. La HBF vise à répondre aux exigences de capacité, d'efficacité énergétique, de débit et d'évolutivité pour les applications de calcul avancé et les applications intensives en données. Par rapport à la HBM, la HBF offre une capacité et une densité mémoire plus élevées, une bande passante comparable à celle de la HBM, et est mieux adaptée à la tendance de l'inférence en IA. En tant que support de stockage persistant, la HBF conserve les données même en cas de coupure de courant et possède une stabilité thermique pour supporter des températures de fonctionnement élevées. Cette technologie exploite la conception BiCS et les techniques de fabrication de Sandisk ainsi que l'architecture de puce, redéfinissant la mémoire flash NAND en optimisant les caractéristiques de large bande passante et de mémoire d'inférence. La technologie BiCS CMOS Bonded Array Wafer (CBA) est utilisée pour améliorer l'efficacité énergétique et la bande passante.

Par rapport à la mémoire flash NAND traditionnelle, la HBF permet une latence plus faible et une bande passante de lecture nettement plus élevée grâce à l'exploitation du parallélisme, de l'évolution logique avancée et des techniques d'empilement personnalisées. Cela permet aux grands modèles de langage de transférer des données à une vitesse proche de celle de la DRAM. Parallèlement, la HBF prend en charge de grands caches KV pour traiter efficacement les invites utilisateur longues et complexes ainsi que les données clients et spécifiques à un domaine, améliorant ainsi la précision de l'inférence en IA.

Étant donné que la HBM ne peut généralement pas être utilisée dans les environnements périphériques et mobiles en raison de limitations de densité, de coût et de consommation électrique, la HBF peut offrir une plus grande capacité mémoire aux appareils périphériques (tels que les smartphones) pour traiter des problèmes d'inférence en IA plus complexes. Grâce à sa mémoire persistante, la HBF permet de récupérer de manière transparente des contextes antérieurs issus de requêtes précédentes pour résoudre de nouveaux problèmes. Dans le domaine du calcul d'entreprise, pour les environnements où la taille des utilisateurs est bien inférieure à celle des centres de données hyperscale, les grands clusters GPU basés sur la HBM sont trop coûteux. En adoptant des accélérateurs prenant en charge la HBF, les petites entreprises peuvent affiner de grands modèles pré-entraînés pour des domaines spécifiques.

Par rapport à la HBM, la HBF présente un avantage évident en termes de capacité, tout en offrant le débit élevé nécessaire aux applications d'inférence en IA. En tant que nouvelle technologie mémoire système évolutive, la HBF contribue à réduire les goulots d'étranglement de performance et à accélérer le temps d'obtention d'informations pour les applications d'IA dans les centres de données modernes et les réseaux périphériques.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com