Qualcomm dévoile l’accélérateur AI250 basé sur HBC lors de la Journée des investisseurs 2026
2026-07-01 13:52
Favoris

fr.wedoany.com Rapport : Qualcomm annonce son entrée dans l’infrastructure des centres de données pour l’IA. La semaine dernière (Journée des investisseurs 2026), l’entreprise a dévoilé la série d’accélérateurs AI250 basée sur une architecture de calcul à mémoire proche, empilant de la DRAM pour former un module unifié de calcul et de stockage, visant à offrir une efficacité d’inférence supérieure aux GPU actuels.

Diapositive de présentation de Qualcomm montrant un module technologique HBC et un graphique de puce lumineuse sur scène.

Qualcomm nomme cette technologie « High Bandwidth Computing » (HBC). Tony Pialis, vice-président exécutif des centres de données, a déclaré lors de la présentation aux investisseurs que HBC offre les avantages de performance de la SRAM, tout en combinant la densité et la capacité de stockage des empilements HBM. La série AI250, prévue pour être lancée l’année prochaine dans le cadre du système en rack Dragonfly, marque un changement notable dans la stratégie d’infrastructure IA de Qualcomm. Bien que les processeurs Snapdragon intègrent déjà des NPU, Qualcomm avait jusqu’à présent du mal à obtenir une attention comparable à celle de Nvidia, AMD, ou même de startups comme Cerebras dans le domaine des centres de données.

Comparée aux GPU des deux géants, la série d’accélérateurs IA de Qualcomm n’est actuellement pas avantageuse, mais l’entreprise cherche à marquer son empreinte dans les centres de données. La carte unique AI250 revendique une capacité de stockage de 768 Go et une bande passante mémoire effective allant jusqu’à 133 To/s. À titre de référence, le Groq 3 LPU de Nvidia n’offre que 500 Mo de SRAM et une bande passante de 150 To/s. Qualcomm reconnaît que ces chiffres dépendent du terme « effectif », car son système Dragonfly basé sur AI200 revendique une bande passante mémoire « effective » totale de 414 To/s pour l’ensemble de ses 56 puces, mais atteindre cette valeur avec seulement 8800 MT/s de LPDDR5x nécessiterait un bus de 6720 bits de large, ce que l’entreprise ne possède presque certainement pas. Qualcomm insiste sur le fait que cela représente « la bande passante physique pure de l’interface LPDDR », mais refuse d’expliquer comment atteindre ce que Nvidia réalise avec huit empilements HBM3e.

Les supports marketing de Qualcomm indiquent qu’avec le passage à HBC, l’AI250 offrira une bande passante effective 18 fois supérieure à celle de l’AI200, et que le prochain AI300 offrira une bande passante 54 fois supérieure. Ces multiplicateurs « effectifs » sont en réalité des caractéristiques de l’architecture HBC. En déplaçant une partie des unités de calcul XPU sous la DRAM, la consommation électrique des puces peut être considérablement réduite. Les GPU traditionnels des centres de données dépendent des échanges de données entre HBM et le die de calcul, ce qui entraîne une consommation non négligeable même avec des technologies d’encapsulation avancées comme le CoWoS de TSMC. HBC, en empilant directement la DRAM sur une partie de la logique et en utilisant des connexions par TSV (Through-Silicon Vias), raccourcit considérablement le chemin entre le calcul et le stockage. Pialis compare cela à travailler dans l’immeuble où l’on habite : il suffit de monter et descendre, sans avoir besoin d’autoroutes ni d’interposeurs en silicium coûteux.

L’avantage d’exécuter des opérations limitées par la bande passante sur le die de base est de réduire le volume de données transférées entre HBC et le SoC, amplifiant ainsi la bande passante mémoire. Qualcomm n’exécutera probablement pas l’intégralité de la pile logicielle IA sur HBC, car une bande passante mémoire plus élevée profite principalement à la phase de décodage, où tous les poids actifs du modèle sont extraits de la mémoire de manière autorégressive, token par token. Le décodage n’étant pas intensif en calcul, l’exécuter partiellement ou totalement dans HBC permet d’éviter les contraintes thermiques liées à l’enfouissement des unités de calcul sous plusieurs couches de DRAM. Qualcomm indique que l’AI250 peut être utilisé comme accélérateur IA autonome ou dans une architecture d’inférence découplée, utilisant un GPU ou d’autres composants Qualcomm pour le traitement des prompts, tandis que l’AI250 accélère les opérations de décodage gourmandes en mémoire. Qualcomm n’a pas fourni de données de FLOPS de crête dans la présentation de l’AI250, et l’entreprise a refusé de donner des détails sur demande.

Bien que Qualcomm soit l’une des premières sociétés de conception de puces à avoir fait la promotion de la mémoire proche ou HBC, cette technologie n’est pas inaccessible à Nvidia ou AMD. Selon des rumeurs, Nvidia et AMD travaillent tous deux avec des fournisseurs de HBM et TSMC pour développer des dies de base personnalisés afin d’améliorer les performances de leurs prochaines générations de puces. Qualcomm affirme que son HBC « utilise de la mémoire LPDDR dans une architecture de calcul à mémoire proche spécialement conçue, combinant calcul et bande passante mémoire hautement accélérée dans une conception de silicium empilé en 3D. HBC est une architecture unique conçue pour résoudre le goulot d’étranglement du déplacement des données en IA en rapprochant le calcul de la mémoire, améliorant ainsi l’efficacité de la bande passante mémoire et l’efficacité énergétique des charges de travail d’inférence IA. HBM possède davantage d’empilements DRAM, utilise un interposeur 2.5D pour disposer plus de lignes, et n’effectue pas de calcul dans le die logique de base. » La startup de puces IA d-Matrix développe également un accélérateur utilisant de la DRAM empilée en 3D pour étendre les capacités de calcul en mémoire.

Lors de la Journée des investisseurs, Qualcomm a également annoncé l’acquisition de la startup logicielle IA Modular. Modular a été fondée par Tim Davis et Chris Lattner, ce dernier étant le créateur de LLVM, Clang, du langage de programmation Swift, ainsi que de l’infrastructure de compilateur MLIR (Multi-Level Intermediate Representation). Chez Modular, Lattner et son équipe ont développé Mojo, une interface de programmation de bas niveau orientée GPU, offrant une alternative performante aux piles CUDA de Nvidia ou HIP et ROCm d’AMD. L’idée centrale est que les utilisateurs doivent pouvoir écrire des applications IA performantes sans se soucier du matériel sous-jacent. Pour Qualcomm, Mojo offre l’opportunité de contourner le fossé de CUDA : les clients n’ont pas besoin de choisir une plateforme, ils peuvent développer des applications et les exécuter sur n’importe quelle ressource de calcul disponible à ce moment-là. Modular a également développé une plateforme de services appelée Max, similaire à SGLang ou vLLM, qui peut fonctionner indifféremment sur du matériel AMD ou Nvidia, et qui, étant construite sur Mojo, ne nécessite théoriquement presque aucun réglage manuel.

Si l’acquisition est finalisée cette année sans intervention des autorités de régulation, ce produit devrait aider Qualcomm à concurrencer dans un environnement où le logiciel devient plus important que le matériel. Qualcomm prévoit de lancer la série de racks AI200 plus tard cette année, le premier AI250 basé sur HBC à partir de 2027, et la deuxième plateforme HBC est prévue pour 2028. L’entreprise a également dévoilé précédemment des informations sur son nouveau CPU pour centres de données.

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com