fr.wedoany.com Rapport : KT a annoncé le 16 avoir développé conjointement avec l'Université de Corée le référentiel de sécurité « KSAFE-MM » pour les modèles de langage multimodaux de grande taille, afin d'évaluer la sécurité des modèles d'intelligence artificielle dans le contexte socioculturel coréen.
Ce référentiel, qui intègre les problématiques sociales et le contexte culturel de la Corée, se compose de deux sous-ensembles : « KSAFE-MM-G » adapte les risques mondiaux communs au contexte culturel coréen pour les évaluer ; « KSAFE-MM-C » est spécifiquement dédié aux enjeux propres à la société coréenne, tels que les escroqueries au loyer global (jeonse) et le conflit des rochers Dokdo. L'ensemble des données comprend un total de 14 135 échantillons d'évaluation, ce qui en fait le plus grand ensemble de données d'évaluation de sécurité multimodale en coréen jamais réalisé en Corée. À ce jour, ce référentiel a été validé sur 12 modèles de langage multimodaux mondiaux, dont Gemma et HyperCLOVA X.

Ce référentiel est mis en œuvre via un processus automatisé universel. « KSAFE-MM » réalise un processus automatisé en quatre étapes couvrant l'ensemble du cycle, incluant la collecte de sujets sensibles basée sur les communautés locales, la génération de requêtes basées sur des modèles, la génération d'images synthétiques, et la génération de requêtes de contournement (jailbreak) visant à outrepasser les dispositifs de sécurité ou les limites éthiques de l'IA. KT indique que ce processus permet de construire rapidement un référentiel de sécurité reflétant les spécificités locales, sans nécessiter d'experts dans un domaine culturel particulier, réduisant ainsi les coûts et améliorant l'efficacité.
L'équipe de recherche conjointe de KT et de l'Université de Corée a démontré, via une expérience pilote appliquant le même processus au japonais, que ce référentiel peut être immédiatement déployé dans n'importe quelle sphère culturelle mondiale. Les résultats de la recherche peuvent être utilisés à des fins de validation de sécurité, de tests d'intrusion (red teaming) et d'évaluation des modèles de barrière dans des environnements réels de services d'IA. Les résultats de la recherche et le référentiel seront publiés sur les plateformes arXiv et Hugging Face.
Park Jae-hyung, responsable du Frontier AI Lab au sein de l'AX Future Technology Institute de KT, a déclaré que la publication du référentiel ne vise pas seulement à distribuer des données, mais surtout à jeter les bases d'un développement commun de l'ensemble de l'écosystème de recherche en sécurité de l'IA. Il espère que KSAFE-MM deviendra une norme universelle pour la validation de la sécurité de l'IA dans le contexte de la langue et de la culture coréennes, tant dans le monde académique qu'industriel.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









