La startup allemande de puces IA Tensordyne dévoile le système Napier

2026-06-21 17:04

Favoris

fr.wedoany.com Rapport : La startup allemande de puces intelligentes artificielles Tensordyne a dévoilé un nouveau système baptisé « Tensordyne Napier », qui utilise des mathématiques logarithmiques pour remplacer les multiplicateurs traditionnels. Lors de l’exécution de tâches d’inférence IA, sa consommation électrique est d’environ 300 watts, soit une réduction significative par rapport aux 1 000 watts des puces similaires de Nvidia.

Tensordyne, dont le siège social est situé à Munich et à Sunnyvale, a été fondée en 2017 et compte environ 115 employés. L’entreprise a déjà effectué le tape-out de ses puces, fabriquées par TSMC selon un procédé en 3 nanomètres, et collabore avec HPE Juniper Networks, Broadcom et TSMC. Les premiers lots comprennent environ 1 000 puces, les circuits imprimés étant produits à Taïwan et l’assemblage final des systèmes étant réalisé chez Flex en Malaisie.

L’innovation centrale, « TDN Math », repose sur les règles de calcul logarithmique : le logarithme de A multiplié par B est égal au logarithme de A plus le logarithme de B, remplaçant ainsi la multiplication par une addition, sans nécessiter de multiplicateur traditionnel. Cela réduit la surface et la consommation électrique dédiées au calcul pur, libérant davantage d’espace pour des composants tels que la mémoire et les connexions de données. Actuellement, la taille maximale des puces est d’environ 800 mm². Outre la technologie mathématique, le système intègre également un processeur IA développé en interne, le « TDN AIP » (avec SRAM et mémoire à large bande passante intégrées sur la puce), ainsi qu’une technologie d’interconnexion entre puces, le « TDN Link » (avec une latence inférieure à 1 microseconde).

Côté logiciel, Tensordyne prend en charge les frameworks PyTorch et Triton, et construit un hub de modèles sur Hugging Face. Les grands modèles experts mixtes tels que DeepSeek, Qwen ou Kimi, qui fonctionnaient auparavant sur 64 puces Nvidia, peuvent être directement utilisés avec la même configuration. La différence réside dans la connexion physique : les grands systèmes Nvidia utilisent de nombreux câbles, tandis que Tensordyne assure la communication entre les puces via la technologie de châssis de HPE Juniper, entièrement sans câble, avec des signaux électriques pour la transmission de données.

Aperçu technique. (Source de l’image : Tensordyne)

L’entreprise a actuellement levé plus de 200 millions de dollars américains, avec des investisseurs incluant Celesta Capital et le fonds de Chen Liwu, PDG d’Intel. Elle prévoit un tour de financement de série D au quatrième trimestre 2026. Tensordyne affirme avoir reçu des précommandes de plusieurs fournisseurs « Neo Cloud » et avoir signé un accord de développement conjoint avec une entreprise hyperscaler (dont le nom n’a pas été divulgué). La taille d’un contrat individuel est d’environ 10 à 20 millions de dollars américains, et le montant total des précommandes devrait atteindre 100 millions de dollars américains d’ici la fin de l’année.

Le cofondateur Gilles Backhus a déclaré que la consommation énergétique de l’inférence IA augmentera considérablement en raison de facteurs tels que la génération vidéo, un flux vidéo 4K en temps réel pouvant consommer environ 100 kilowatts. Avec le matériel actuel de Nvidia, le coût de génération d’une heure de contenu vidéo IA dépasse 1 000 dollars américains, tandis que le système de Tensordyne pourrait réduire ce coût à environ 60 à 100 dollars américains par heure, avec une livraison en temps réel et sans perte de résolution. De plus, le temps de réponse pour des requêtes complexes peut être réduit à 30 secondes grâce au traitement parallèle de 72 puces, et les grands modèles experts mixtes peuvent produire jusqu’à 1 000 tokens par seconde par utilisateur. Le coût par million de tokens peut être consulté sur le site officiel via le « Tokenomics Calculator ». Backhus a souligné que la qualité du compilateur est également cruciale, la différence entre un bon compilateur et un excellent compilateur pouvant faire passer l’utilisation de la puce de 30 % à 90 %.

Backhus a insisté sur le fait que la véritable innovation réside dans l’architecture et les mathématiques, et non dans le choix des matériaux. La première génération de puces en procédé 7 nanomètres était déjà équipée de mathématiques logarithmiques et a fonctionné sans panne pendant environ deux ans et demi lors de tests de longue durée. Le principal goulot d’étranglement actuel est la mémoire à large bande passante (HBM), principalement produite par Samsung, Micron et SK Hynix.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com