Xiaomi lance HarnessX, les performances des agents IA s’améliorent en moyenne de 14,5 %

2026-06-25 10:15

Favoris

fr.wedoany.com Rapport : Les chercheurs de Xiaomi ont dévoilé le framework HarnessX, conçu pour résoudre le goulot d’étranglement technique que constitue le « harnais » (harness) dans les performances des agents IA en entreprise. Ce framework traite le harnais IA comme un objet composable et améliore de manière autonome son code, optimisant ainsi les performances des systèmes IA dans des domaines tels que le génie logiciel et les interactions web.

Actuellement, les harnais des applications IA sont pour la plupart statiques et fabriqués manuellement, sans capacité d’amélioration automatique basée sur les données d’exécution, ce qui constitue un frein majeur à l’accomplissement de tâches complexes et à long terme par les agents IA. Le développement traditionnel des harnais se heurte à trois défis : premièrement, ils sont statiques et nécessitent une réécriture manuelle ; deuxièmement, l’enchevêtrement architectural fait que la modification d’un composant peut en perturber d’autres ; troisièmement, le harnais et le modèle de base sont optimisés de manière isolée, et les traces d’exécution sont souvent abandonnées.

HarnessX résout ces goulots d’étranglement grâce à une « fonderie unifiée de harnais ». Son innovation clé consiste à traiter le harnais comme un « objet de première classe », c’est-à-dire une entité indépendante, sérialisable, modulaire et remplaçable, séparant ainsi la configuration du modèle de celle du harnais. Cette approche décompose le comportement de l’agent en composants tels que l’assemblage du contexte, la gestion de la mémoire, l’écosystème d’outils, le flux de contrôle et l’observabilité, chaque comportement étant inséré comme un « processeur » dans les hooks du cycle de vie du harnais.

Structure de HarnessX

Pour automatiser l’optimisation de la structure modulaire, HarnessX introduit AEGIS, un moteur d’évolution piloté par les traces. Ce moteur considère l’adaptation du harnais comme un problème d’apprentissage par renforcement et, pour faire face à des pathologies telles que le piratage de récompense, l’oubli catastrophique et l’exploration insuffisante, il conçoit un pipeline en quatre étapes comprenant un digesteur, un planificateur, un évolutionnaire et un critique-avec-porte. Le digesteur compresse les traces d’exécution en résumés structurés, le planificateur analyse ces résumés pour explorer des changements structurels, l’évolutionnaire génère des modifications et des tests au niveau du code, tandis que le critique-avec-porte empêche le piratage de récompense et l’oubli catastrophique.

AEGIS

HarnessX permet également la co-évolution du harnais et du modèle. Grâce à l’algorithme GRPO (Group Relative Policy Optimization) inter-harnais, il agrège les traces d’exécution générées sur différentes versions du harnais en signaux d’apprentissage par renforcement pour le modèle, permettant à ce dernier d’internaliser des stratégies avancées telles que l’utilisation de nouveaux outils.

Co-évolution harnais-modèle

Les tests pratiques ont été menés sur cinq références, couvrant le génie logiciel, les dialogues multi-tours du service client, la navigation web, le raisonnement multi-étapes ouvert et la planification incarnée. Lors des tests, un méta-agent piloté par Claude Opus 4.6 était chargé d’analyser les journaux et d’écrire le code, tandis que les agents de tâche étaient respectivement assurés par Claude Sonnet 4.6, GPT-5.4 et le modèle à poids ouverts Qwen3.5-9B. Les résultats montrent que le harnais dynamique évolutif a amélioré les performances dans 14 des 15 combinaisons modèle-référence, avec une amélioration absolue moyenne de +14,5 %. Le modèle open source le plus faible, Qwen3.5-9B, a bénéficié des gains les plus importants, avec une augmentation de +44,0 % sur la référence de planification incarnée ALFWorld et de +18,2 % sur la référence de génie logiciel SWE-bench Verified. L’utilisation des données générées par le harnais évolutif pour entraîner le modèle de base a apporté une amélioration supplémentaire moyenne de +4,7 %.

Performances de HarnessX

HarnessX dépend actuellement de modèles frontaliers fermés puissants (comme Claude Opus) en tant que méta-agent pour réécrire le code du harnais ; la capacité des méta-agents à poids ouverts reste à tester. De plus, si le modèle sous-jacent lui-même ne peut pas exécuter des flux de travail complexes, le framework ne pourra pas améliorer les capacités globales. Néanmoins, les chercheurs prévoient de publier le code dans une future mise à jour, et HarnessX offre aux praticiens une nouvelle approche axée sur l’optimisation de l’ingénierie des harnais plutôt que sur la simple extension des modèles.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Chine