fr.wedoany.com Rapport : Les grands modèles d'IA évoluent à une vitesse vertigineuse. La croissance du stockage et de la bande passante est loin de suivre le rythme de l'expansion des modèles. C'est le problème du « goulot d'étranglement de la mémoire » qui tourmente l'industrie depuis longtemps. Plus problématique encore, la technologie d'encapsulation 2.5D actuellement dominante (comme le CoWoS de TSMC) est une extension sur un seul plan, avec des ressources de routage limitées et une faible densité d'intégration. Dans les scénarios de haute puissance de calcul de l'IA, la surface de la puce ne peut plus être réduite.
Lorsque l'extension horizontale devient intenable, la technologie d'empilement 3D « vers le haut » devient un choix inévitable. Pour les puces d'IA chinoises, dans la réalité industrielle où la capacité de production des procédés avancés est limitée et l'approvisionnement en HBM haut de gamme est entravé, l'empilement 3D offre une voie viable pour « échanger de l'espace contre des performances » et contourner partiellement le blocus des procédés.
01 La technologie d'encapsulation passe de la « pose de briques en plan » à la « construction d'immeubles en volume »
Dans le domaine de l'encapsulation avancée, l'encapsulation 2.5D réalise des interconnexions à haute vitesse et des communications à courte distance entre les puces en intégrant plusieurs dies nus sur un interposeur en silicium. L'interposeur en silicium utilise généralement la technologie des through-silicon vias (TSV) pour les interconnexions verticales, offrant des caractéristiques d'interconnexion à haute densité et haute performance, ce qui peut améliorer considérablement les performances globales du système.
La technologie d'empilement 3D, par l'empilement de puces ou de boîtiers, par exemple en utilisant des TSV ou des technologies de liaison hybride, permet d'augmenter les fonctionnalités, d'améliorer la densité d'intégration, de réduire les coûts d'encapsulation et, en raccourcissant la longueur des interconnexions, d'aider à augmenter la vitesse de fonctionnement. Grâce à l'empilement 3D, les unités fonctionnelles qui étaient auparavant disposées à plat sur différentes puces dans l'encapsulation 2.5D, telles que la logique de calcul, les matrices de mémoire et les interfaces d'E/S, peuvent être empilées physiquement et interconnectées électriquement dans la dimension verticale, repoussant ainsi les limites physiques de l'intégration planaire.
Les encapsulations 3D et 3.5D utilisent la technologie d'empilement 3D. La technologie d'encapsulation 3D empile verticalement plusieurs puces nues (Bare Die) et utilise des technologies d'interconnexion avancées telles que les TSV et les micro-bumps pour la communication inter-couches, repoussant ainsi les limites physiques de l'intégration planaire traditionnelle. Cette architecture réduit considérablement le chemin de transmission électronique, diminuant de manière significative la latence et la consommation d'énergie tout en offrant une bande passante d'interconnexion et une densité d'encapsulation extrêmement élevées. L'encapsulation 3.5D, quant à elle, ajoute une extension horizontale via un interposeur en silicium 2.5D à l'empilement vertical 3D, formant une architecture composite « 3D + planaire ».
Actuellement, les principales puces d'IA chinoises, telles que celles de Cambricon, Kunlunxin, Biren Technology, et Tianshu Zhixin, utilisent principalement la technologie d'encapsulation 2.5D pour interconnecter côte à côte les chiplets de calcul GPU/IA avec la mémoire HBM, en utilisant un interposeur en silicium et des RDL (couches de redistribution) pour construire un réseau d'interconnexion à haute densité. Cependant, la bande passante de cette solution de mémoire externe n'est généralement que de 1 à 4 To/s, et, limitée par la surface planaire, la densité d'intégration et la bande passante d'interconnexion approchent déjà de leurs limites physiques.
02 Géants internationaux : l'empilement 3D et le 3.5D sont entrés en phase de production de masse
Les géants internationaux des semi-conducteurs ont depuis longtemps investi dans le 3D/3.5D, et certains produits sont déjà en phase de production et de livraison.
En 2023, AMD a lancé la série d'accélérateurs AI Instinct MI300, un produit de puce utilisant la technologie d'encapsulation 3.5D et entré en production de masse. AMD décrit sa technologie comme un empilement 3D de GPU et de puces d'E/S fusionnés par liaison hybride, combiné à une encapsulation 2.5D standard. La solution d'encapsulation 3.5D d'AMD intègre les technologies CoWoS (interposeur silicium 2.5D) et SoIC (liaison hybride 3D) de TSMC. Elle empile verticalement les puces GPU/CPU sur les puces d'E/S via une liaison hybride Cu-Cu, puis les interconnecte côte à côte avec la mémoire HBM3 via l'interposeur silicium CoWoS.
En décembre 2024, Broadcom a annoncé publiquement la première plateforme d'encapsulation 3.5D XDSiP (eXtreme Dimension System in Package) de l'industrie. Elle combine la technologie 2.5D et l'intégration 3D-IC utilisant la technologie Face-to-Face (F2F). Le cœur de cette plateforme est la technologie d'empilement Face-to-Face (F2F), qui utilise une liaison cuivre hybride sans bosse (HCB) pour connecter directement les métaux supérieurs des puces supérieure et inférieure, réalisant une connexion directe des couches métalliques supérieures des deux couches de puces. Comparée à la technologie Face-to-Back (F2B) traditionnelle, la F2F ne nécessite pas de TSV, peut multiplier par 7 le nombre de connexions de signaux, réduire de 90 % la consommation d'énergie de l'interface entre les puces et diminuer la latence entre les éléments de calcul, de mémoire et d'E/S au sein de l'empilement 3D. En 2026, le premier SoC de calcul personnalisé 2 nm basé sur XDSiP a été livré à Fujitsu pour une utilisation dans des clusters de supercalculateurs IA.
La technologie d'encapsulation EMIB 3.5D d'Intel combine l'EMIB 2.5D (interconnexion horizontale par pont silicium intégré) avec le Foveros Direct 3D (empilement vertical par liaison hybride), prenant en charge l'intégration hétérogène flexible de plusieurs types de puces et étant compatible avec la norme industrielle UCIe. Le SoC de la série Intel Data Center GPU Max est la puce hétérogène de production de masse la plus complexe jamais créée à l'aide de l'EMIB 3.5D, contenant plus de 100 milliards de transistors, 47 modules actifs et 5 nœuds de procédé.
Plus récemment, la technologie HBC de Qualcomm adopte une architecture de calcul proche mémoire innovante et propriétaire, fusionnant le calcul avec une mémoire à bande passante ultra-élevée via une solution à base de silicium empilé en 3D, afin de résoudre le goulot d'étranglement du transfert de données dans le calcul IA. L'AI250, équipé de la première génération de technologie HBC, atteint un taux de bande passante leader de l'industrie de 133 To/s par carte, soit une multiplication par 18 de la bande passante mémoire effective par rapport à l'AI200 utilisant du LPDDR5X ; l'AI300, équipé de la deuxième génération de technologie HBC, réalise une amélioration progressive des performances, avec une bande passante mémoire effective multipliée par 54 par rapport à l'AI200.
03 Les fabricants chinois de puces IA optent collectivement pour l'empilement 3D
Face à l'avance des géants internationaux dans l'empilement 3D et l'encapsulation 3.5D, ainsi qu'aux limitations de la capacité de production des procédés avancés et de l'approvisionnement en HBM haut de gamme en Chine, les fabricants chinois de puces IA explorent activement l'intégration verticale des unités de mémoire et de calcul via la technologie d'empilement 3D.
L'architecture Zixuan du groupe Unisplendour, centrée sur la DRAM 3D, propose une première solution d'intégration hétérogène 3.5D, avec une bande passante mémoire pouvant atteindre 30 To/s. Dans son mode de calcul proche mémoire PNM, la latence d'accès mémoire est réduite jusqu'à 1/18, et les simulations montrent qu'à puissance de calcul égale, le débit de tokens est 1,5 à 2 fois supérieur à celui de la série B200 de Nvidia, et peut être produit en masse à grande échelle sur la base de la chaîne d'approvisionnement chinoise.
La prochaine génération de puces IA de TsingMicro adopte un empilement hétérogène 3.5D, réalisant un empilement vertical tridimensionnel de chiplets de calcul reconfigurables et de chiplets de mémoire DRAM. Grâce à cette intégration verticale « chiplet de calcul + chiplet de mémoire », elle échange une innovation architecturale contre un saut de performance dans des conditions de procédés avancés limités. Sa deuxième génération de puce reconfigurable 3D adopte de manière révolutionnaire une technologie d'intégration 3D mémoire-calcul intégrée + quatre chiplets, faisant passer le mode de transmission monocouche 2D planaire traditionnel à une architecture tridimensionnelle de « 4 voies de calcul + 4 couches de mémoire en hauteur », améliorant considérablement l'efficacité du débit de données et la densité de calcul, offrant des avantages significatifs en termes de performance, d'efficacité énergétique et de flexibilité.
La puce A4E TokenPU 3D de Suanmiao Technology, destinée à l'inférence de grands modèles, a été mise en flow le 15 juin, réalisant la mise en œuvre d'un processeur dédié aux grands modèles basé sur la chaîne d'approvisionnement chinoise et utilisant une architecture d'empilement hybride 3D. Le produit de première génération, A4E, empile verticalement 8 couches de wafers de mémoire sur un wafer de logique de calcul, réalisant des interconnexions à l'échelle micrométrique via les technologies TSV et bump, réduisant la distance de transmission « millimétrique » traditionnelle entre les puces de deux ordres de grandeur, offrant une bande passante d'accès mémoire ultra-large de 16 To/s, atténuant efficacement le problème de la famine de données.
Intellifusion a annoncé que sa puce d'inférence en cours de développement intègre une architecture de mémoire empilée 3D : elle adopte une architecture de mémoire empilée 3D pour obtenir une bande passante plus élevée et une latence d'accès plus faible, brisant le « goulot d'étranglement de la mémoire » et améliorant l'efficacité de l'inférence.
Lingchuan Technology, anciennement la division de calcul hétérogène et de puces de Kuaishou Group, a mis en flow sa prochaine génération de puce en avril de cette année. Elle utilise la technologie d'empilement 3D chinoise, avec une première architecture de mémoire proche 3D, et a fait l'objet d'optimisations spéciales pour les problèmes clés de l'industrie tels que la dissipation thermique, la cohérence et la fiabilité. Son premier produit, le SL200, s'est vendu à près de 100 000 unités, déployé auprès d'entreprises Internet telles que Kuaishou, Alibaba Cloud, Baidu Cloud et Bilibili, couvrant 99,7 % des tâches de transcodage en direct de Kuaishou, servant de manière stable 700 millions d'utilisateurs.
04 L'empilement 3D doit franchir le fossé entre le laboratoire et la production de masse
Bien que les perspectives de l'empilement 3D soient vastes, sa difficulté d'ingénierie dépasse de loin celle de l'encapsulation traditionnelle.
Premièrement, la gestion thermique et la dissipation de la chaleur. Dans une architecture 2D planaire traditionnelle, la chaleur générée par le die peut être conduite directement vers le dissipateur thermique et le radiateur supérieurs. Cependant, dans une architecture 3D, la chaleur doit surmonter de nombreux obstacles, pénétrant verticalement plusieurs couches de silicium, des réseaux de TSV, des polymères de sous-remplissage et des interfaces de micro-bumps. Pour les structures d'intégration 2.5D, les systèmes de refroidissement par air traditionnels peuvent encore fonctionner à une puissance totale d'environ 300 watts ; mais lorsque le système passe à un véritable empilement vertical 3D, une fois que la puissance totale du boîtier dépasse 350 watts, le refroidissement par air devient totalement inefficace, rendant obligatoire l'introduction de systèmes de refroidissement liquide et de matériaux d'interface thermique haute performance.
Deuxièmement, le procédé de liaison hybride et le rendement. La liaison cuivre hybride sans bosse (HCB) nécessite un pas d'interconnexion inférieur à 10 µm, voire 1 µm, imposant des exigences extrêmement élevées en matière de planéité de surface (CMP), de précision de liaison et d'adaptation de la dilatation thermique. Les différences de matériaux entre le pont de silicium et le substrat peuvent entraîner une inadéquation de la dilatation thermique, générant des contraintes mécaniques et des fissures ; le processus d'empilement 3D est complexe, et l'amélioration du rendement dépend de l'amélioration continue de la précision de la liaison.
Troisièmement, les outils EDA et la conception collaborative. La quantité de données de conception 3D augmente de manière explosive, nécessitant une collaboration approfondie entre les concepteurs de circuits intégrés et les ingénieurs d'encapsulation ; les outils EDA existants ont du mal à traiter simultanément les optimisations multidimensionnelles de l'intégrité thermique, du signal et de l'alimentation, ce qui nécessite de toute urgence le développement de plates-formes de conception collaborative thermo-électro-mécanique. Actuellement, les trois grandes entreprises internationales d'EDA disposent de certains outils prenant en charge la conception de puces à empilement 3D, tandis qu'en Chine, les entreprises locales d'EDA disposent de relativement peu d'outils de conception de bout en bout spécialisés pour les puces à empilement 3D. Certaines entreprises peuvent fournir des outils ponctuels pour la partie simulation des puces à empilement 3D, mais en ce qui concerne les outils de placement et routage, de vérification multi-puces, de test Multi-Die DFT, etc., il existe encore d'importantes lacunes en Chine.
Quatrièmement, les tests et la fiabilité. La complexité et la haute densité de la technologie d'encapsulation par empilement 3D des puces font des tests et de la fiabilité un défi majeur. Il est nécessaire de développer de nouvelles méthodes et de nouveaux équipements de test pour garantir la qualité et la fiabilité du boîtier. En outre, une évaluation de la fiabilité à long terme du boîtier est nécessaire pour garantir son fonctionnement stable dans diverses conditions environnementales.
Enfin, la complexité de l'assemblage et la chaîne d'approvisionnement. L'assemblage physique implique l'alignement précis de dies de différentes épaisseurs et de différents coefficients de dilatation thermique, nécessitant un travail intensif de certification thermomécanique ; le volume de données de conception et d'analyse dépasse de loin celui de l'encapsulation standard. Cela entraîne également un coût de fabrication relativement élevé pour la technologie d'encapsulation par empilement 3D des puces, ce qui nécessite une optimisation continue des processus de fabrication et une réduction des coûts de fabrication afin que cette technologie puisse être plus largement appliquée dans les produits réels.
À l'ère post-Moore, le rendement marginal de la miniaturisation des transistors diminue, et l'encapsulation avancée est devenue la clé pour « dépasser Moore ». Pour les puces d'IA chinoises, dans la réalité industrielle où l'importation de procédés avancés et de HBM haut de gamme est restreinte, la simple poursuite de la route 2.5D+HBM des géants internationaux ne permet plus de créer un avantage concurrentiel différencié. De l'architecture Zixuan d'Unisplendour à l'empilement hétérogène 3.5D de TsingMicro, les fabricants chinois prouvent que lorsque l'extension planaire atteint ses limites physiques, « grandir vers le haut » et redéfinir la méthode d'intégration des puces en trois dimensions pourrait bien être la clé pour briser le « goulot d'étranglement de la mémoire » et le « mur de la surface », et réaliser un dépassement dans la course mondiale à la puissance de calcul IA.









