Microsoft publie le framework open source ASSERT pour simplifier les tests et l'évaluation des comportements IA
2026-06-03 09:48
Favoris

fr.wedoany.com Rapport : Microsoft a publié mardi le framework open source ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, notation adaptative pilotée par spécifications pour l'évaluation et les tests de régression), visant à simplifier le processus de test et d'évaluation des comportements des applications IA.

Ce framework utilise la technologie d'intelligence artificielle pour transformer des descriptions en langage naturel de haut niveau concernant des objectifs, des stratégies ou des comportements attendus en cas de test exécutables et notables. ASSERT reçoit des descriptions en langage courant du comportement attendu et des stratégies d'un modèle IA, les convertit en un ensemble structuré de comportements acceptables et inacceptables, génère des scénarios problématiques et des cas de test, exécute ces cas sur le système cible et note les résultats. Le framework peut également enregistrer le chemin emprunté par le système IA, y compris les actions intermédiaires et les appels d'outils, permettant aux développeurs d'inspecter l'emplacement des défaillances.

Les développeurs peuvent fournir un contexte système supplémentaire, des outils et des contraintes pour personnaliser la couverture de l'évaluation. Par exemple, un développeur peut spécifier qu'un agent IA de recherche documentaire ne doit pas envoyer d'e-mails à des personnes extérieures à l'entreprise, doit limiter les informations confidentielles aux cadres de niveau C, et doit fournir des résumés concis en tenant compte du contexte antérieur. ASSERT utilisera ces règles pour générer des cas de test et vérifier en continu si le système respecte ces règles.

Microsoft indique qu'ASSERT comble les lacunes que les évaluations plus larges et générales ne peuvent pas couvrir, lorsque le comportement d'un modèle IA doit être façonné en fonction du contexte, des politiques et des outils de l'application ou du produit. « Une chose que nous avons apprise, c'est que l'évaluation est absolument cruciale pour prendre les bonnes décisions », a déclaré Sarah Bird, directrice produit principale de l'IA responsable chez Microsoft. « Car sans connaître le comportement du système IA, il est difficile de savoir s'il répond aux normes de l'organisation... Nous avons constaté que si l'on veut vraiment avoir un système digne de confiance, il faut évaluer davantage de dimensions spécifiques à l'application. » Bird a indiqué qu'ASSERT peut être utilisé lors de la construction du système, après le déploiement, et même pour une évaluation en continu.

Cette publication intervient alors que les capacités d'évaluation de l'industrie IA s'améliorent progressivement. Avec l'augmentation des capacités des modèles, les chercheurs commencent à se concentrer sur les tests reproductibles et les vérifications de régression. HELM de Stanford, AILuminate de MLCommons et l'équipe d'évaluation METR ont tous lancé des benchmarks pour mesurer le comportement des modèles dans différentes conditions.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Produits Associés
Recommandés
Schneider Electric livre à TeraWulf plus de 290 millions de dollars d’infrastructures IA aux États-Unis
2026-06-03
Anant Raj investit 200 milliards de roupies pour étendre son centre de données en Haryana, accélérant le cluster de services cloud dans le nord de l’Inde
2026-06-03
Eli Lilly met en service le supercalculateur LillyPod, l’IA pour la découverte de médicaments entre dans l’ère de la puissance de calcul interne des entreprises pharmaceutiques
2026-06-03
SVA Allemagne s’associe à Horizon3.ai États-Unis, le test de pénétration natif IA intégré à la validation continue de la sécurité
2026-06-03
Formation pratique en gestion de produits IA proposée par l’atelier iX en Allemagne
2026-06-03
Le comté de Murang'a au Kenya connecte 170 établissements de santé via Starlink pour améliorer l'accès aux soins
2026-06-03
Optimizely (États-Unis) s’associe à Deloitte Digital : l’ère de la restructuration des workflows marketing avec des contenus personnalisés par l’IA
2026-06-03
Excitel en Inde réalise un bénéfice de 400 millions de roupies pour l’exercice 2026 et vise une augmentation de 20 % de sa base d’abonnés d’ici l’exercice 2028
2026-06-03
Telikom de Papouasie-Nouvelle-Guinée devient le deuxième revendeur de Starlink, le haut débit LEO comble les lacunes de connectivité dans les zones reculées
2026-06-03
STMicroelectronics relève son objectif 2026 pour les centres de données, l’interconnexion optique IA vise 1 milliard de dollars
2026-06-03