fr.wedoany.com Rapport : Microsoft a publié mardi le framework open source ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, notation adaptative pilotée par spécifications pour l'évaluation et les tests de régression), visant à simplifier le processus de test et d'évaluation des comportements des applications IA.
Ce framework utilise la technologie d'intelligence artificielle pour transformer des descriptions en langage naturel de haut niveau concernant des objectifs, des stratégies ou des comportements attendus en cas de test exécutables et notables. ASSERT reçoit des descriptions en langage courant du comportement attendu et des stratégies d'un modèle IA, les convertit en un ensemble structuré de comportements acceptables et inacceptables, génère des scénarios problématiques et des cas de test, exécute ces cas sur le système cible et note les résultats. Le framework peut également enregistrer le chemin emprunté par le système IA, y compris les actions intermédiaires et les appels d'outils, permettant aux développeurs d'inspecter l'emplacement des défaillances.
Les développeurs peuvent fournir un contexte système supplémentaire, des outils et des contraintes pour personnaliser la couverture de l'évaluation. Par exemple, un développeur peut spécifier qu'un agent IA de recherche documentaire ne doit pas envoyer d'e-mails à des personnes extérieures à l'entreprise, doit limiter les informations confidentielles aux cadres de niveau C, et doit fournir des résumés concis en tenant compte du contexte antérieur. ASSERT utilisera ces règles pour générer des cas de test et vérifier en continu si le système respecte ces règles.

Microsoft indique qu'ASSERT comble les lacunes que les évaluations plus larges et générales ne peuvent pas couvrir, lorsque le comportement d'un modèle IA doit être façonné en fonction du contexte, des politiques et des outils de l'application ou du produit. « Une chose que nous avons apprise, c'est que l'évaluation est absolument cruciale pour prendre les bonnes décisions », a déclaré Sarah Bird, directrice produit principale de l'IA responsable chez Microsoft. « Car sans connaître le comportement du système IA, il est difficile de savoir s'il répond aux normes de l'organisation... Nous avons constaté que si l'on veut vraiment avoir un système digne de confiance, il faut évaluer davantage de dimensions spécifiques à l'application. » Bird a indiqué qu'ASSERT peut être utilisé lors de la construction du système, après le déploiement, et même pour une évaluation en continu.
Cette publication intervient alors que les capacités d'évaluation de l'industrie IA s'améliorent progressivement. Avec l'augmentation des capacités des modèles, les chercheurs commencent à se concentrer sur les tests reproductibles et les vérifications de régression. HELM de Stanford, AILuminate de MLCommons et l'équipe d'évaluation METR ont tous lancé des benchmarks pour mesurer le comportement des modèles dans différentes conditions.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









