HPE lance une usine d’IA clé en main avec 256 GPU

2026-06-24 11:17

Favoris

fr.wedoany.com Rapport : Lors du HPE Discover à Las Vegas, HPE a considérablement élargi sa plateforme d’IA. Celle-ci, qui prenait auparavant en charge jusqu’à 64 GPU, peut désormais en accueillir jusqu’à 256. Les clients peuvent démarrer avec une configuration plus modeste et étendre les performances en ajoutant des baies ultérieurement. Outre les serveurs ProLiant équipés d’accélérateurs Nvidia, le système intègre le stockage, le Data Fabric, ainsi que des logiciels pour les modèles, les applications d’IA et les agents, avec Morpheus pour le contrôle et OpsRamp pour la supervision.

Les services d’installation et d’intégration sont inclus dans l’offre. HPE propose un environnement complet à prix fixe, visant à éviter aux entreprises d’avoir à assembler elles-mêmes une usine d’IA à partir de composants matériels, logiciels et autres éléments disparates. Le Private Cloud AI de HPE intègre Nvidia AI Enterprise, des modèles sélectionnés et des outils de développement, ainsi que Nvidia Agent Toolkit, les modèles Nemotron, NemoClaw et OpenShell. Les agents peuvent s’enregistrer, être déployés et se voir attribuer des règles d’accès via ces outils. Côté calcul, ce produit est complété par des systèmes équipés du Nvidia RTX Pro 6000 Blackwell Server Edition.

De plus, HPE a dévoilé le ProLiant DL394 Gen12, doté du CPU Nvidia Vera basé sur l’architecture Arm. Ce CPU gère les parties gourmandes en mémoire et en contrôleur des applications d’agents, en étroite collaboration avec les GPU Nvidia. Ainsi, le Private Cloud AI de HPE est principalement construit autour de la pile matérielle et logicielle de Nvidia, ce qui réduit le travail d’intégration mais limite également la flexibilité dans le choix des accélérateurs et des environnements d’exécution.

L’Alletra Storage MP X10000 joue un rôle central dans la nouvelle plateforme d’IA. Celle-ci offre un stockage fichier et objet sur une architecture unifiée, directement intégré au Private Cloud AI. HPE l’utilise également comme stockage étendu pour le cache KV lié aux performances. Les modèles de langage stockent dans le cache KV des informations sur le texte traité, le contexte et les résultats intermédiaires. Lorsqu’une nouvelle requête est reçue, le modèle revient à ces contextes plutôt que de tout recalculer à chaque fois.

Cela est particulièrement important pour les invites longues, les grands volumes de documents et les agents parallèles multiples. Plus le contexte est long et plus les requêtes simultanées sont nombreuses, plus les besoins en stockage augmentent rapidement. Si les informations contextuelles anciennes sont effacées, le modèle doit les recalculer lors des requêtes suivantes, ce qui accroît la latence, la consommation d’énergie et les coûts. Dans un environnement d’agents, le problème est encore plus marqué, car les agents ne répondent pas une seule fois, mais vérifient, planifient, récupèrent des données et préparent des actions de manière répétée.

Pour y remédier, HPE décharge une partie du cache KV sur le X10000 via l’accès direct à la mémoire à distance (Remote Direct Memory Access). Dans ce processus, les données sont transférées directement entre le stockage et la mémoire, sans passer par les multiples couches de traitement du système d’exploitation. Ainsi, l’unité de stockage prend en charge une partie de la mémoire GPU et devient un élément du processus d’inférence. Selon HPE, dans sa configuration de test avec un GPU Nvidia H200 et le modèle Nemotron 70B, le temps jusqu’au premier token de sortie a été réduit à un vingtième, tandis que le débit a été multiplié par 17.

Le nouveau Data Fabric 8.2 peut capturer et cataloguer les ressources de données distribuées. Un catalogue global indique quelles informations existent et où elles se trouvent. Les métadonnées, l’identité et les politiques d’accès déterminent quelles applications ou agents peuvent accéder à des ressources spécifiques. Le Data Fabric est également disponible en tant qu’appliance préconfigurée sur les serveurs ProLiant. Dans l’ensemble de la pile technologique, le X10000 assure un accès rapide aux données, tandis que le Data Fabric rend les ressources de données découvrables et contrôlables.

Cependant, l’organisation technique des données ne suffit pas à les rendre adaptées à l’IA. Pour l’entraînement et les agents, les données doivent d’abord être classifiées, nettoyées, décrites et dotées de permissions. Malgré les outils automatisés, ce processus reste en partie manuel. Par exemple, les services métier doivent expliquer la signification, l’actualité et l’utilité de certaines données.

Pour exploiter l’environnement d’IA intégré, HPE s’appuie sur Morpheus, OpsRamp et GreenLake Intelligence. Morpheus fournit les ressources de calcul, de stockage et d’exécution, et orchestre l’infrastructure de cloud privé infrastructure. OpsRamp collecte les données de télémétrie et supervise les dépendances entre les applications, les modèles et l’infrastructure sous-jacente. Désormais, ces fonctions opérationnelles sont plus étroitement liées à l’automatisation pilotée par l’IA. Morpheus Central vise à afficher plusieurs instances d’installation à travers les centres de données, les régions et les sites périphériques.

C’est important pour les environnements d’IA, car les modèles, les données et les services d’inférence ne s’exécutent généralement pas en un seul endroit. OpsRamp ne se contente pas de collecter les pannes, mais les corrèle et identifie les causes racines dans l’infrastructure. HPE a étendu cette couche avec les fonctions Copilot et l’interface MCP. Morpheus Copilot peut créer des plans et des automatisations à partir d’instructions en langage naturel. OpsRamp Copilot doit analyser les incidents et soutenir les mesures correctives. Les serveurs MCP fournissent des interfaces standardisées par lesquelles les agents peuvent accéder aux fonctions de gestion et d’automatisation. GreenLake Intelligence intègre ces fonctions dans un plan de contrôle unifié.

HPE complète la pile technologique avec des fonctions de contrôle des agents d’IA. Ces agents possèdent leur propre identité et fonctionnent dans des environnements isolés. Les politiques définissent les données, interfaces et outils qu’ils peuvent utiliser. Pour les opérations critiques, une approbation humaine peut être requise. Zerto offre une couche de repli supplémentaire : le logiciel enregistre les modifications et, si nécessaire, restaure les systèmes concernés à un état antérieur. Cependant, il ne peut pas déterminer si une décision est techniquement erronée ou réglementairement interdite.

Pour HPE, la gouvernance se limite principalement au contrôle d’accès technique et à l’application des politiques. La validation des modèles métier, la détection des dérives, la classification réglementaire et l’attribution des responsabilités restent en dehors de la plateforme. C’est là le point faible de nombreuses stratégies d’IA privées. Si l’infrastructure propre augmente le contrôle sur les données et les opérations, elle ne remplace pas la gouvernance. IBM et Red Hat ont récemment souligné que de nombreuses entreprises ne connaissent pas complètement leurs dépendances vis-à-vis des fournisseurs d’IA, des modèles et de l’infrastructure. Un cloud privé peut rendre ces dépendances plus transparentes, mais ne peut pas les éliminer.

Les offres d’usines d’IA sur le marché diffèrent sensiblement. Par exemple, Dell adopte une infrastructure décomposée, où le calcul et le stockage peuvent être étendus indépendamment. En revanche, HPE regroupe plus étroitement le matériel, la plateforme de données et les logiciels d’exploitation en un système global déterminé. Cela transfère le travail d’intégration du client au fabricant, mais réduit les degrés de liberté, notamment en augmentant la dépendance à Nvidia, car HPE intègre non seulement les GPU mais aussi le CPU, les modèles, les environnements d’exécution et les outils d’agents du partenaire. L’avantage réside dans la bonne coordination des composants ; l’inconvénient est que le remplacement d’un seul composant atteint plus rapidement les limites de l’architecture.

Le positionnement des produits d’IA de HPE en tant que cloud privé s’inscrit dans la tendance actuelle. Alors que l’IA passe des projets pilotes à l’exploitation en production, le mode de calcul de l’infrastructure évolue : les services de cloud public restent attractifs pour les tests, les charges flexibles et l’accès rapide aux nouveaux modèles ; pour l’inférence persistante, les flux de travail d’agents et les données sensibles, le contrôle des coûts et l’accès aux données deviennent prioritaires. Deloitte estime qu’il existe un point de bascule économique pour les charges d’IA élevées et continues : lorsque les coûts du cloud atteignent une part importante des coûts d’un système propriétaire comparable, une solution de cloud privé peut être moins chère. Forrester prévoit également que, en raison de la hausse des coûts de l’IA, du verrouillage des données et des risques opérationnels, les entreprises adopteront davantage de clouds d’IA privés. Le Private Cloud AI de HPE n’est pas présenté comme une opposition au cloud public, mais comme une plateforme d’exploitation pour les charges de travail d’IA qui doivent être plus proches des données et des processus. Il est à noter que la pile technologique complète n’est pas encore entièrement prête ; certaines fonctionnalités et intégrations annoncées ne seront disponibles que dans les prochains trimestres.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

États-Unis