OpenAI et Broadcom dévoilent la puce d'inférence LLM Jalapeño

2026-06-25 08:55

Favoris

fr.wedoany.com Rapport : Le 24 juin, OpenAI et Broadcom ont conjointement dévoilé leur premier processeur intelligent, le Jalapeño. Cette puce est spécialement conçue pour l'inférence des grands modèles de langage (LLM). Elle constitue le premier accélérateur IA d'une plateforme de calcul multi-génération développée conjointement par les deux entreprises. L'objectif est d'améliorer la vitesse, la fiabilité et l'accessibilité des services d'IA, tout en déployant des capacités d'IA avancées à plus grande échelle avec une efficacité accrue. OpenAI a déclaré que le Jalapeño est son premier processeur intelligent, dont l'architecture est conçue pour répondre aux futurs besoins d'inférence des LLM.

Le Jalapeño n'est pas une simple adaptation d'un accélérateur IA générique en puce d'inférence ; il a été entièrement repensé autour des modèles, des noyaux, des systèmes de service et des besoins produits qu'OpenAI utilise quotidiennement. Dans son communiqué, OpenAI a mentionné que cette puce est optimisée pour les caractéristiques de fonctionnement de ChatGPT, Codex, de l'API et des futurs produits agents. Elle se concentre sur l'optimisation de l'efficacité des calculs, de l'accès mémoire, de la connectivité réseau et de l'ordonnancement lors de l'inférence des grands modèles. Pour les services LLM, l'inférence impacte directement le temps d'attente des utilisateurs, la stabilité de la réponse du système et le coût unitaire de calcul. Si l'architecture de la puce peut réduire le transfert de données et améliorer l'utilisation du matériel, elle pourra débloquer une efficacité accrue dans les déploiements à grande échelle.

OpenAI a indiqué que les échantillons techniques du Jalapeño exécutent déjà en laboratoire des charges de travail d'apprentissage automatique, y compris GPT-5.3-Codex-Spark, à la fréquence et à la consommation électrique cibles. L'entreprise n'a pas encore publié les résultats finaux des tests de performance, mais les premiers tests montrent que les performances par watt du Jalapeño surpasseront significativement les niveaux avancés actuels. OpenAI a également annoncé qu'un rapport technique plus détaillé sera publié ultérieurement, détaillant les performances de la puce en matière d'inférence, d'efficacité énergétique et de déploiement système.

Le cycle de développement de cette puce a été réduit à 9 mois. OpenAI a déclaré que la conception initiale jusqu'à la fabrication et le « tape-out » du Jalapeño ont été réalisés conjointement par les deux parties, en utilisant les modèles d'OpenAI pour accélérer une partie de la conception et de l'optimisation. La conception de puces implique généralement plusieurs étapes – définition de l'architecture, validation, implémentation physique, adaptation logicielle et préparation à la fabrication – avec des cycles longs et des risques élevés. Ce projet a introduit les capacités des modèles dans le processus de conception de puces, reflétant la manière dont les outils d'IA pénètrent la R&D des semi-conducteurs elle-même. Broadcom est responsable de l'implémentation silicium et du support des technologies réseau ; ses technologies, comme la puce réseau Tomahawk, participeront à la production à grande échelle de la plateforme.

OpenAI intègre également le Jalapeño dans sa stratégie d'infrastructure full-stack à plus long terme. Historiquement perçue principalement comme un développeur de modèles et de produits d'IA, l'entreprise, avec le lancement de son propre processeur intelligent, étend désormais ses compétences à l'architecture des puces, aux systèmes mémoire, aux réseaux, à l'ordonnancement et aux systèmes de déploiement. Greg Brockman, président et co-fondateur d'OpenAI, a déclaré que le Jalapeño fait partie de la stratégie d'infrastructure full-stack à long terme de l'entreprise, visant à rendre les ressources de calcul plus abondantes et l'IA plus rapide, plus fiable et plus abordable.

Selon les plans des deux parties, le Jalapeño constituera la première étape d'une plateforme de calcul multi-génération. Son déploiement initial est prévu avant fin 2026, avec une expansion continue dans les années suivantes. Cette plateforme combinera l'accélérateur conçu par OpenAI, l'implémentation silicium, les technologies réseau et de connectivité de Broadcom, ainsi que les capacités de Celestica (Canada) en matière de cartes, de baies et d'intégration système. Hock Tan, président et PDG de Broadcom, a déclaré que cette collaboration soutiendra le déploiement de centres de données de l'ordre du gigawatt avec Microsoft et d'autres partenaires.

Pour OpenAI, l'importance d'une puce d'inférence réside dans la capacité à mieux maîtriser les coûts des services de grands modèles et la vitesse de réponse. L'entraînement détermine la limite supérieure des capacités du modèle, tandis que l'inférence détermine si le modèle peut atteindre les utilisateurs de manière stable et à faible coût. Avec l'augmentation des appels vers ChatGPT, Codex, l'API et les produits agents, l'infrastructure d'inférence doit gérer simultanément le débit, la latence, la consommation d'énergie et la fiabilité. Si le Jalapeño atteint ses objectifs lors des déploiements ultérieurs, il fournira une nouvelle base matérielle à OpenAI pour réduire les coûts des services d'IA et améliorer la stabilité d'accès aux modèles.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com