fr.wedoany.com Rapport : Microsoft a récemment publié en open source un framework d'évaluation d'IA visant à transformer les exigences en langage naturel en tests exécutables, afin de renforcer les capacités des entreprises en matière de gouvernance de l'intelligence artificielle. Ce framework, nommé ASSERT (Scoring Adaptatif Spécifié par Exigences pour l'Évaluation et les Tests de Régression), génère automatiquement des scénarios d'évaluation, des ensembles de données, des métriques et des tableaux de bord à partir de spécifications écrites, d'exigences produits et de documents de gouvernance. Dans un article de blog annonçant ce framework, Microsoft indique que de nombreuses organisations peinent à valider systématiquement le comportement de leurs agents avant leur mise en production.

Les agents peuvent échouer de manière difficile à détecter, par exemple en s'écartant des politiques établies, en produisant des résultats dangereux dans des cas limites, ou en présentant des performances différentes en production par rapport aux tests. Les benchmarks génériques ne permettent pas de capturer ces échecs, car ils ne sont pas construits autour de politiques, d'agents ou de cas d'utilisation spécifiques. ASSERT élimine la nécessité pour les développeurs de créer manuellement des suites d'évaluation, en transformant les intentions écrites en tests réutilisables pouvant être intégrés dans le pipeline de développement IA.
Avec ASSERT, Microsoft entre sur un marché de l'évaluation IA de plus en plus concurrentiel. Ce marché compte déjà des plateformes telles que LangSmith de LangChain, Braintrust, Patronus AI, Galileo, Phoenix d'Arize AI et Promptfoo, qui aident les entreprises à benchmarker, surveiller et valider les applications basées sur de grands modèles de langage. Cette annonce intervient alors que les entreprises accélèrent le déploiement d'agents IA, mais que les pratiques d'évaluation formelles restent l'exception plutôt que la règle. Anushree Verma, directrice analyste senior chez Gartner, souligne qu'actuellement, 99 % des organisations n'évaluent aucun agent IA avant la production. Le prochain avantage concurrentiel du secteur dépendra davantage de l'efficacité avec laquelle les organisations simulent et testent sous contrainte leurs agents IA avant déploiement, plutôt que des progrès des modèles de raisonnement. Gartner estime que d'ici 2029, dans les secteurs réglementés, plus de 75 % des agents spécialisés non conçus via une simulation d'agents ne parviendront pas à apporter de la valeur.
Forrester estime que les entreprises se tournent vers l'évaluation comportementale, mais que la plupart des organisations ne l'ont pas encore formalisée comme exigence de production. Biswajeet Mahapatra, analyste principal chez Forrester, indique que l'évaluation comportementale est appliquée de manière incohérente, plutôt que d'être considérée comme un véritable passage obligé en production. Selon les données de Forrester, plus de 45 % des organisations utilisent déjà des agents IA, et 25 % supplémentaires sont en phase pilote, mais beaucoup rencontrent des difficultés de passage à l'échelle en raison d'une gouvernance immature et d'une rigueur opérationnelle limitée.
Microsoft affirme qu'ASSERT utilise un grand modèle de langage comme juge, et que lors des validations internes, les évaluations générées par le modèle présentent un taux de concordance de 80 % à 90 % avec les évaluateurs humains. Biswajeet Mahapatra, analyste principal chez Forrester, note que ce taux de concordance permet d'automatiser une grande partie des tests IA, mais qu'il reste insuffisant en tant que mesure de contrôle indépendante pour la gouvernance ou la conformité. Les entreprises devraient adopter une supervision à plusieurs niveaux, où l'IA évalue l'IA à grande échelle, tandis que les humains conservent la responsabilité de supervision pour les scénarios à haut risque, réglementés ou ambigus. Les acheteurs doivent également être attentifs aux biais, aux problèmes de cohérence et à la dépendance excessive à un seul modèle agissant à la fois comme générateur et évaluateur.
Microsoft a publié ASSERT sous licence open source MIT, permettant aux organisations d'inspecter, de modifier et d'intégrer ce framework dans leurs pipelines de développement IA existants. Biswajeet Mahapatra, analyste principal chez Forrester, indique que l'open source réduit le risque de dépendance vis-à-vis d'un fournisseur et permet une large interopérabilité entre les écosystèmes de modèles, mais ne peut pas éliminer complètement les problèmes de confiance ou de conflits d'intérêts, car le fournisseur d'origine influence toujours la manière dont les critères d'évaluation, la logique de notation et la définition des comportements acceptables sont codés. Les entreprises ne devraient pas se fier à un seul framework d'évaluation, mais plutôt valider leurs systèmes d'IA selon plusieurs méthodes d'évaluation et conserver la propriété de leurs stratégies d'évaluation internes.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









