Lenovo, entreprise chinoise, lance le projet AION pour réduire les coûts et la dépendance aux GPU grâce à l’inférence sur CPU

2026-07-02 08:46

Favoris

fr.wedoany.com Rapport : Lenovo annonce le lancement du projet AION, qui vise à améliorer l’efficacité opérationnelle, réduire les coûts d’exploitation et diminuer la dépendance aux GPU en effectuant l’inférence directement sur les CPU.

Ricardo Bloj, président de Lenovo Brésil, indique que dans un contexte de demande croissante en puissance de calcul, de pénurie de GPU et de coûts élevés, le projet AION clarifie le positionnement de l’entreprise pour son développement futur. L’idée centrale de ce projet est d’optimiser les charges de travail d’IA en fonction des besoins de chaque application, afin d’améliorer l’efficacité opérationnelle et de tirer pleinement parti des infrastructures existantes. Bloj explique qu’AION renforce la vision de l’entreprise en faveur d’une architecture hybride flexible, dont l’objectif n’est pas seulement de fournir des infrastructures, mais aussi d’aider les clients à construire des environnements d’IA efficaces et évolutifs. Il ajoute que les entreprises peuvent accélérer leurs projets d’IA en utilisant les ressources existantes, réduisant ainsi le délai de mise en production, améliorant l’efficacité opérationnelle et augmentant le retour sur investissement des infrastructures.

Cette solution permet d’exécuter des charges de travail d’inférence légères ou distribuées directement sur les CPU, concentrant ainsi les ressources GPU sur les applications critiques à forte densité de calcul. Outre l’atténuation des problèmes de coût et d’approvisionnement en GPU, AION répond également au défi courant de la sous-utilisation des CPU dans les centres de données, permettant aux entreprises de lancer des projets d’IA avec leurs ressources CPU existantes, sans dépendre entièrement de l’achat de matériel spécialisé.

Sur le plan technique, le projet exploite les capacités multicœurs de l’Intel Xeon 6 pour une exécution parallèle à grande échelle, capable de traiter simultanément plusieurs requêtes d’inférence, augmentant ainsi considérablement la capacité de service de chaque serveur dans les applications d’entreprise, les API d’IA, les systèmes transactionnels et les chatbots. Selon Lenovo, les premiers tests d’AION montrent un temps de premier mot (FTTT) de 0,3 milliseconde pour l’inférence sur CPU, avec une vitesse de génération de réponse de 11 tokens par seconde, sans utiliser de GPU. Bloj déclare que ce projet démontre comment une combinaison intelligente de différentes technologies peut élargir l’accès à l’intelligence artificielle de manière durable et efficace.

Chine

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com