Intel et AMD publient la spécification complète de l’extension ACE CPU pour améliorer l’efficacité énergétique du x86

2026-06-21 09:51

Favoris

fr.wedoany.com Rapport : Intel et AMD ont récemment publié la spécification complète de l’extension ACE CPU, visant à améliorer l’efficacité et l’efficience énergétique des processeurs x86 pour l’exécution de certaines tâches d’IA. Cette extension offre une meilleure solution technique pour l’exécution de ces tâches sur le CPU.

Puce CPU

Actuellement, la plupart des modèles d’IA reposent sur des GPU, mais toutes les tâches d’IA ne sont pas adaptées à ce matériel. Pour les modèles plus petits ou les opérations mono-utilisateur sensibles à la latence, l’exécution sur le CPU évite les frais généraux de transfert de données entre le CPU et le GPU. Par ailleurs, dans de nombreux cas, il n’y a pas de GPU disponible ou seulement un GPU intégré aux performances limitées. La norme ACE atteint cet objectif en fournissant un standard technique qui utilise les registres AVX10 existants et ajoute des circuits dédiés à la multiplication matricielle. Ses avantages clés résident dans une meilleure efficacité énergétique, des processus de développement et d’optimisation simplifiés, ainsi qu’un support des entrées 512 bits, ce qui facilite l’intégration de l’ACE avec les conceptions existantes.

La multiplication matricielle est une opération fondamentale des charges de travail d’IA, impliquant des cycles de multiplication-addition sur des tableaux de données. Bien qu’elle puisse être exécutée sur la plupart des CPU, elle est limitée en vitesse et consomme beaucoup d’énergie. Par rapport à AVX10, l’ACE peut effectuer 16 fois plus d’opérations pour un même nombre de vecteurs d’entrée. Cela ne correspond pas à un gain de vitesse de 16 fois, selon l’implémentation, mais Intel et AMD devraient consacrer davantage de circuits à cette tâche dans leurs futures conceptions pour améliorer les performances. Comme chaque instruction ACE effectue plus de travail qu’une boucle AVX10 équivalente, les frais généraux d’instructions sont réduits, ce qui peut immédiatement améliorer l’utilisation de la bande passante mémoire.

Les avantages de l’ACE ne se limitent pas à effectuer le même travail avec moins d’instructions. Cette norme est indépendante de l’implémentation, ce qui signifie que les frameworks d’apprentissage automatique et leurs bibliothèques sous-jacentes (comme PyTorch, TensorFlow) n’ont besoin d’écrire qu’un seul chemin de code, sans avoir à développer plusieurs variantes en fonction du niveau de support AVX du matériel sous-jacent. L’ACE prend en charge nativement la plupart des types de données utilisés dans les opérations d’apprentissage automatique, notamment INT8, INT32, FP8, FP16, FP32 et BF16, et peut utiliser nativement le format de bloc MX de l’Open Compute Project, une capacité absente d’AVX10. Les développeurs peuvent également déplacer certaines charges de travail spécifiques aux NPU vers le CPU, et dans ce processus, la cible unifiée offerte par l’ACE sur le matériel x86 évite la complexité liée aux différences matérielles.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com