fr.wedoany.com Rapport : L'entreprise américaine de semi-conducteurs Marvell a récemment lancé la puce de commutation Teralynx T100, offrant une capacité de commutation de 102,4 Tbps pour les infrastructures des centres de données IA et cloud.
Le principal scénario d'application de cette puce est le réseau interne des clusters IA à grande échelle. Avec l'augmentation rapide du nombre d'accélérateurs GPU et XPU, le goulot d'étranglement des centres de données passe des performances individuelles des puces de calcul à l'efficacité des échanges de données au sein du cluster, à la latence du réseau, au contrôle de la consommation d'énergie et à la complexité architecturale. Marvell indique que le Teralynx T100, fabriqué avec un processus avancé de 3 nm, est repensé pour les charges de travail d'entraînement et d'inférence IA, avec une consommation typique inférieure à 1 000 W, soit une réduction allant jusqu'à environ 25 % par rapport aux solutions concurrentes similaires, et prend en charge une capacité d'extension horizontale de 512 ports. Pour les fournisseurs de services cloud à très grande échelle et les opérateurs d'infrastructures IA, la puce de commutation n'est pas le composant le plus visible de l'extérieur, mais elle détermine directement si des dizaines de milliers d'accélérateurs peuvent former un cluster de calcul stable, efficace et à faible latence. Les plates-formes de commutation traditionnelles des centres de données sont davantage conçues autour des réseaux d'entreprise, du cloud computing général et des architectures hiérarchisées. Lorsque les tâches d'entraînement IA atteignent le niveau de dizaines ou de centaines de milliers de cartes, les niveaux de réseau, le nombre d'interconnexions optiques, le contrôle de congestion, la latence de queue et la consommation d'énergie deviennent des coûts systémiques. Le Teralynx T100 tente de réduire les niveaux de commutation et le nombre de liaisons optiques au sein du cluster IA grâce à une bande passante plus élevée, une densité de ports accrue et une structure réseau plus plate, permettant ainsi aux centres de données de déployer davantage d'accélérateurs sous les contraintes d'alimentation existantes et de réduire la pression des équipements réseau sur la puissance des baies, le refroidissement et le coût total de possession.
Marvell a déclaré que le Teralynx T100 commencera à être échantillonné auprès des clients ce trimestre, et sera proposé en plusieurs formats de boîtier, notamment BGA, connexion cuivre co-packagée et optique co-packagée.
Les centres de données IA entrent dans une nouvelle phase où « calcul, réseau, électricité et refroidissement » imposent des contraintes communes. Ces dernières années, le marché s'est davantage concentré sur l'offre de GPU, l'encapsulation avancée et la mémoire HBM, mais le rôle de l'infrastructure réseau dans les clusters d'entraînement à grande échelle augmente rapidement. Si l'efficacité réseau d'un cluster IA est insuffisante, les accélérateurs coûteux subiront des temps d'attente pour les communications, un ralentissement de la synchronisation des tâches et un allongement du temps de convergence de l'entraînement, transformant finalement les coûts d'achat matériel en pertes d'utilisation. La puce de commutation passe ainsi d'un composant réseau traditionnel des centres de données à un semi-conducteur clé pour déterminer si l'infrastructure IA peut être étendue à grande échelle. Le Teralynx T100 prend en charge les déploiements en extension horizontale et verticale, est compatible avec les architectures réseau Ethernet IA émergentes et les exigences de l'Ultra Ethernet Consortium, et intègre des capacités de télémétrie, de contrôle de congestion natif IA et de gestion du trafic à faible latence. Cela signifie que les opérateurs de centres de données, lors de la planification future de clusters IA, pourront concevoir des architectures autour d'une densité de ports plus élevée, de moins de niveaux réseau, d'une consommation d'énergie réduite et de formes d'interconnexion plus flexibles. Alors que la puissance des baies GPU approche ou dépasse progressivement les limites de conception des salles informatiques traditionnelles, la réduction de la consommation d'énergie des puces réseau n'est plus seulement une optimisation des paramètres des équipements, mais affecte la redondance d'alimentation, le ratio de refroidissement liquide, la densité des baies et le rythme d'expansion de l'ensemble du centre de données. Pour les fournisseurs de services cloud, les entreprises Internet et les opérateurs de puissance de calcul IA, l'amélioration de l'efficacité de l'infrastructure réseau aura un impact direct sur les coûts d'entraînement, la latence d'inférence et la capacité de livraison de puissance de calcul.
Cette annonce montre également que la concurrence dans l'infrastructure IA s'étend des puces de calcul uniques aux puces de commutation, aux interconnexions optiques, aux SerDes, aux systèmes d'exploitation réseau et à l'ordonnancement des clusters. Les variables à venir se concentrent sur la validation des échantillons clients, le rythme de production en série, la compatibilité avec différents écosystèmes Ethernet IA, ainsi que le coût réel de déploiement des solutions optiques co-packagées dans les grands centres de données. Si ces technologies sont adoptées par les clusters des principaux fournisseurs de cloud, le réseau des centres de données IA deviendra un nouveau point focal pour les investissements dans les semi-conducteurs avancés et les infrastructures cloud.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









