Les géants technologiques américains accélèrent le développement de leurs propres puces d'IA, AWS améliore les performances par watt de 4 fois
2026-06-30 09:48
Favoris

fr.wedoany.com Rapport : Avec l'avènement de l'ère de « l'IA agentique », capable de jugement et d'action autonomes, le centre de gravité du marché mondial de l'infrastructure d'IA passe rapidement de la « formation » à grande échelle au domaine de l'« inférence » nécessaire aux services réels. Dans ce processus, l'efficacité énergétique des centres de données et le coût total de possession (TCO) deviennent plus importants que la performance absolue d'une seule puce. Pour briser la position dominante de Nvidia sur le marché, les fabricants de matériel mondiaux, les géants technologiques et les entreprises coréennes de semi-conducteurs K-AI accélèrent leurs actions.

La forte augmentation de la demande de calcul et la position monopolistique des GPU de Nvidia exercent une pression sur les coûts des entreprises, incitant les géants technologiques mondiaux à développer leurs propres semi-conducteurs d'IA optimisés pour leurs centres de données et services. Ces entreprises visent à construire une infrastructure complète couvrant les puces, l'architecture des serveurs, les réseaux et les logiciels, afin de maximiser « l'économie de tokens » et « l'efficacité énergétique » dans l'environnement d'exploitation réel. Google Cloud a mis à niveau son semi-conducteur d'IA propriétaire TPU vers la sixième génération « Trillium », avec des performances de calcul et une capacité de mémoire à large bande passante (HBM) considérablement améliorées par rapport à la génération précédente, pour soutenir la formation et l'inférence du grand modèle « Gemini », et le fournit aux clients externes via la plateforme Google Cloud (GCP). Microsoft (MS), pour optimiser le rapport qualité-prix de l'infrastructure cloud Azure, a lancé la série d'accélérateurs d'IA personnalisés « Maia ». Cette puce, basée sur une collaboration de conception avec OpenAI, vise à réduire les coûts d'exploitation des services Azure OpenAI (tels que ChatGPT). Meta introduit son accélérateur de formation et d'inférence propriétaire « MTIA » (Meta Training and Inference Accelerator), optimisé pour les algorithmes de recommandation publicitaire et le moteur de classement de flux, traitant des calculs à grande échelle avec une faible consommation d'énergie, et l'a étendu à l'inférence de service de sa série de grands modèles de langage open source « Llama ».

Parmi les géants technologiques, AWS adopte une stratégie à double voie, en développant d'une part son écosystème de puces propriétaires et en maintenant d'autre part sa collaboration avec Nvidia. L'activité d'accélérateur d'AWS a atteint une échelle de plusieurs milliards de dollars et est devenue un niveau central de l'infrastructure. Plus de 50 % des tokens de son service d'IA générative entièrement géré « Amazon Bedrock » sont exécutés sur l'infrastructure de ses puces accélératrices propriétaires « Trainium » et « Inferentia ». Le « Trainium2 », équipé de 16 puces et capable de traiter des modèles jusqu'à 1 000 milliards de paramètres, offre un rapport qualité-prix 30 à 40 % supérieur à celui des instances GPU génériques similaires. Son chiffre d'affaires lié a augmenté de 150 % en glissement trimestriel et a déjà remporté des partenaires de production, notamment le cluster de formation « Project Rainier » construit en collaboration avec Anthropic, ainsi qu'Apple, Uber et Databricks. La puce d'inférence dédiée « Inferentia » offre jusqu'à 2,3 fois le débit et jusqu'à 70 % de réduction des coûts d'inférence par rapport aux instances existantes. AWS a lancé le « Trainium3 », optimisé pour l'IA agentique et les charges de travail de génération vidéo, avec des performances par watt jusqu'à 4 fois supérieures à celles de la génération précédente. Les premiers tests de référence montrent une économie de coûts allant jusqu'à 50 % par rapport à la formation sur GPU générique. Le « EC2 Trn3 UltraServer », combinant jusqu'à 144 puces Trainium3, offre des performances de calcul de 362 FP8 PFLOPs et 20,7 To de mémoire HBM3e. Associé au réseau non bloquant de niveau Petabit basé sur l'adaptateur de structure élastique (EFA) formant « EC2 UltraCluster 3.0 », des centaines de milliers de puces peuvent fonctionner comme un seul accélérateur. La nouvelle fonctionnalité « Neuron Agentic Development », lancée en 2026, permet aux agents de codage d'IA de porter automatiquement les modèles existants vers Trainium et d'effectuer une validation de cohérence numérique, éliminant ainsi les obstacles à la migration matérielle.

De plus, le camp des géants technologiques réduit sa dépendance au « CUDA » de Nvidia grâce à des alliances de logiciels open source. AWS promeut le SDK open source « Neuron », conçu sur la base de la norme ouverte XLA et intégré aux frameworks standard de l'industrie tels que PyTorch, JAX, vLLM et Hugging Face, permettant aux développeurs d'utiliser ces bibliothèques avec un minimum de modifications de code. Le marché mondial des accélérateurs passe d'un monopole unique de matériel générique à une ère de diversité architecturale. La concurrence entre les géants technologiques en matière de puces de silicium propriétaires et d'efficacité de l'infrastructure complète s'intensifiera avec la multiplication des charges de travail d'IA agentique et de génération de médias à haute capacité.

(Source : Pixabay)

Lee Soo-ji, architecte de solutions chez AWS, a déclaré à propos de la stratégie d'infrastructure d'IA qu'investir dans les puces de silicium d'IA propriétaires ne vise pas seulement à remplacer un matériel spécifique, mais à offrir aux clients un meilleur rapport qualité-prix et un plus large choix, créant ainsi un cercle vertueux de calcul accéléré. Ce n'est qu'en ayant plusieurs architectures coexistant sur le marché que la concurrence peut entraîner une baisse des prix et une amélioration des performances. Lors de l'évaluation de l'infrastructure d'IA, il est essentiel de considérer le système complet intégrant de manière organique la puce accélératrice, l'architecture du serveur qui la soutient, le réseau connectant les clusters à grande échelle, ainsi que les logiciels et services gérés qui exploitent pleinement le potentiel matériel, afin de réduire le TCO. Dans l'environnement d'IA de nouvelle génération, la gestion de « l'économie de tokens » et de « l'efficacité énergétique » déterminera la survie des entreprises. L'IA agentique, en fonction des besoins de planification, d'orchestration et de réponse en temps réel des tâches, voit ses caractéristiques de calcul changer constamment. L'énergie des centres de données étant une ressource limitée, les performances par watt, c'est-à-dire l'efficacité énergétique, deviendront un avantage concurrentiel clé pour les entreprises.

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com
Produits Associés