L’Institut coréen de sécurité de l’IA publie pour la première fois les détails de l’évaluation de sécurité des modèles d’IA

2026-06-21 10:21

Favoris

fr.wedoany.com Rapport : Depuis sa création en novembre 2024, l’Institut coréen de sécurité de l’intelligence artificielle (AISI, AI Safety Institute) n’avait pas divulgué publiquement les résultats de ses évaluations de sécurité des modèles d’intelligence artificielle (IA). Ces résultats seront désormais progressivement dévoilés. L’institut vise à publier de manière plus détaillée les conclusions des évaluations de sécurité des principaux modèles d’IA nationaux et internationaux, y compris les modèles open source, afin de renforcer un système d’évaluation transparent.

Selon des informations du secteur en date du 19, l’AISI a publié le 15 sur son site officiel le « Rapport détaillé des résultats des tests conjoints sur les risques de fuite de données des agents d’IA », réalisé au premier semestre de cette année avec l’AISI de Singapour. Ce rapport révèle spécifiquement les situations où, lors de l’exécution d’instructions courantes, les agents d’IA peuvent, en raison d’erreurs de jugement, interroger, transmettre et divulguer par erreur des informations sensibles, entraînant ainsi des erreurs fatales.

Ce rapport conjoint coréo-singapourien est une première publication. Il contient non seulement une liste d’évaluation, mais aussi des valeurs numériques détaillées et des résultats. Les noms des modèles mondiaux concernés dans le rapport sont anonymisés sous forme de lettres telles que A, B, C, etc. Cependant, l’évaluation quantitative a confirmé plusieurs cas d’« incohérence cognition-comportement », montrant que même si la capacité d’exécution des tâches d’un agent est excellente, sa capacité à traiter les données en toute sécurité n’est pas garantie. En outre, le rapport a également mis en évidence des facteurs de risque propres aux agents d’IA, comme le fait de prétendre avoir terminé une tâche sans avoir utilisé d’outil réel (phénomène de « faux rapport » par hallucination).

Principaux résultats expérimentaux dans l’environnement de test de l’AISI coréen (photo = capture d’écran du rapport conjoint AISI Corée-Singapour)

En réalité, il s’agit de la première fois que l’AISI publie un rapport contenant des valeurs numériques détaillées et des recommandations. Auparavant, la portée limitée de la publication des résultats d’évaluation de sécurité des modèles d’IA par l’AISI rendait difficile non seulement la vérification des résultats d’évaluation nominatifs des modèles individuels, mais aussi la consultation du contenu lui-même. Le « Rapport de performance d’évaluation de sécurité de 42 modèles d’IA » publié par l’AISI le mois dernier portait sur 42 modèles nationaux et internationaux majeurs testés sur une période d’environ 16 mois, de janvier 2025 à avril 2026, mais ne fournissait qu’une liste principalement composée des noms de modèles et des éléments d’évaluation, sans données spécifiques.

À l’exception du premier cas d’évaluation de sécurité de l’IA en Corée, publié conjointement par l’AISI et l’Association coréenne des technologies de l’information et de la communication (TTA) — le modèle « Kanana » de Kakao —, les niveaux de sécurité ou les indicateurs détaillés de la plupart des modèles n’ont pas été divulgués. Les doutes externes sur les performances et le rôle de l’AISI proviennent en grande partie de la prudence excessive de l’institut à publier les résultats d’évaluation de sécurité, qui constituent pourtant l’essence même de son activité. Les analystes du secteur estiment que cela est principalement dû à la crainte que l’écart de niveau entre les modèles des géants technologiques mondiaux et les modèles nationaux, comme le projet de développement de « modèles de base d’IA indépendants » dirigé par le ministère coréen des Sciences et des TIC, ne soit exposé, créant ainsi une pression.

Kim Myung-joo, directeur de l’AISI, a déclaré : « Pour les évaluations de sécurité à venir, nous prévoyons de publier autant que possible tous les contenus, à moins que l’entreprise cible ne s’y oppose. » Il a toutefois ajouté : « En fonction des demandes des entreprises, certains noms de modèles pourront être anonymisés. »

L’AISI, en tant qu’organisation affiliée à l’Institut de recherche en électronique et en télécommunications de Corée (ETRI) sous l’égide du ministère des Sciences et des TIC, représente la Corée et est spécialisée dans la coopération avec les instituts de sécurité de l’IA ou les organisations apparentées d’autres pays. Les récents partenariats établis par l’AISI avec les trois principaux développeurs mondiaux d’IA — Google DeepMind, OpenAI et Anthropic — devraient constituer un moteur essentiel pour la construction d’un réseau mondial de sécurité de l’IA.

Avec Google DeepMind, sur la base du protocole d’accord (MOU) signé en avril par le ministère des Sciences et des TIC, les discussions se poursuivront sur la construction d’un cadre de sécurité et les méthodologies de test. Avec OpenAI, l’AISI a signé directement un MOU le 17, décidant de partager les méthodologies d’évaluation de sécurité et les connaissances de référence dans les domaines à haut risque. En particulier, l’AISI appliquera ses propres données de référence en coréen pour mener conjointement des évaluations de sécurité et des tests d’hallucination dans une perspective coréenne, et collaborera à l’élaboration de normes internationales.

Avec Anthropic, en lien avec le MOU signé le 18 par le ministère des Sciences et des TIC, des évaluations de type « red team » sur les agents d’IA autonomes ainsi que des évaluations des risques de sécurité et d’utilisation abusive des modèles dans un contexte coréen seront menées. En outre, les informations sur les vulnérabilités de l’IA et les menaces cybernétiques dans des secteurs clés tels que la finance seront rapidement partagées, permettant une coopération substantielle dans le domaine de la cybersécurité.

Le directeur Kim Myung-joo a souligné : « Nous continuerons à élargir la base de coopération avec les géants technologiques mondiaux comme Google DeepMind, OpenAI et Anthropic, à valider scientifiquement les risques des modèles les plus avancés, et à promouvoir un système d’évaluation de type coréen reconnu internationalement. »

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com