L’entreprise américaine Anthropic ajuste les mesures de sécurité de Fable 5 pour rendre le processus de déclassement visible

2026-06-15 15:46

Favoris

fr.wedoany.com Rapport : Anthropic a lancé en avril le modèle Mythos (dans le cadre du projet Glasswing, destiné à découvrir et corriger les vulnérabilités de l’infrastructure Internet), puis a publié sa version restreinte, Fable 5. Anthropic a clairement indiqué que Fable ne prendra pas en charge certaines orientations de recherche à haut risque dans les domaines de la cybersécurité, de la biologie et de la chimie. Lorsque des requêtes liées à ces domaines apparaissent, le modèle passe automatiquement de Fable à un niveau d’intelligence Opus, et informe l’utilisateur que le déclassement est en cours.

Le cœur de la controverse réside dans le fait que, pour les chercheurs travaillant sur la conception de puces ultra-puissantes ou sur des modèles de langage de pointe à grande échelle, le processus de déclassement n’est pas visible pour l’utilisateur. Anthropic décrit ce comportement dans une fiche système de 319 pages, mais aucune indication n’apparaît dans l’interface utilisateur, qui reçoit en réalité une sortie de niveau Opus. Le magazine Fortune qualifie ce comportement de « sabotage secret », tandis que Wired rapporte que cette pratique pourrait nuire à la recherche en IA. Mythos et Glasswing sont bien plus puissants que l’outil Claude Security d’Anthropic, conçu pour fonctionner sur Opus, qui peut encore analyser des bases de code et aider à détecter certains problèmes.

Sally Vincent, ingénieure principale en recherche sur les menaces chez Exabeam, une société d’analyse de sécurité, a déclaré par courriel qu’il faut être prudent quant aux affirmations sur la résistance au jailbreak, ces résultats « représentant une évaluation à un moment donné », et a ajouté que « les attaquants s’adaptent constamment ». Rob T. Lee, directeur de la recherche et responsable principal de l’IA au SANS Institute, a indiqué dans un courriel à ZDNET que Fable 5 est « une solution nouvelle et intelligente, mais Fable 5 sera attaqué. La même couche qui empêche les utilisations malveillantes entrave également la recherche défensive légitime. » En tentant de développer des compétences en criminalistique numérique, il a été rétrogradé à Opus 4.8, estimant que « que ce soit une manière astucieuse d’empêcher les acteurs malveillants ou non, cela empêche ceux qui construiront les outils de nouvelle génération d’acquérir de nouvelles capacités défensives. » Il a également noté que, même sous Glasswing, l’accès est limité et surveillé, mais que dans les organisations comptant des milliers d’employés, n’importe qui pourrait être incité à remettre l’accès à des groupes criminels.

Face à la controverse, Anthropic a répondu qu’elle modifierait les mesures de sécurité de Fable 5 pour les rendre visibles. À partir de cette semaine, les requêtes signalées seront clairement rétrogradées à Opus 4.8, et les requêtes signalées sur l’API renverront une raison de refus. L’entreprise a déclaré que les mesures de sécurité actuelles « couvrent un petit nombre de tâches étroites, comme les pipelines de données LLM à grande échelle et le développement de noyaux pour certaines puces non standard », et que ces mesures « empêchent les adversaires étrangers d’utiliser nos modèles les plus puissants d’une manière qui présente un risque sérieux pour la sécurité ». Anthropic a également ajouté : « Nous avons fait un mauvais compromis, et nous nous excusons de ne pas avoir trouvé le bon équilibre. Construire ces mesures de sécurité est un défi technique complexe : à mesure que nous améliorons ces classifieurs pour faire face aux nouvelles menaces, les utilisateurs pourraient rencontrer davantage de faux positifs. Nous travaillons à les réduire le plus rapidement possible. » En décidant si le déclassement devait être visible ou non, l’entreprise a été confrontée à un choix : « Les mesures de sécurité cachées sont plus difficiles à détecter et à contourner. Cela signifie qu’elles peuvent être plus ciblées », mais ces mesures cachées ont été découvertes en quelques heures.

Les données d’utilisation actuelles montrent que le classifieur se déclenche sur environ 0,05 % des tâches, affectant moins de 0,05 % des organisations. Anthropic indique que les mesures de sécurité visibles nécessitent un filet plus large pour renforcer la robustesse, entraînant davantage de requêtes mal étiquetées, mais « elles n’affectent pas la grande majorité des travaux de codage et d’apprentissage automatique ». Ashley Casovan, directrice générale du centre de gouvernance de l’IA à l’IAPP, a salué le fait qu’Anthropic ait conservé Mythos suffisamment longtemps pour « mettre en place les garde-fous nécessaires dans son logiciel », tout en notant que « nous n’avons pas encore vu l’impact que ces modèles pourraient avoir lorsqu’ils sont publiés à une telle échelle ». Chris Boehm, CTO terrain de Zero Networks, un fournisseur de segmentation réseau, a décrit cette réalisation comme une retenue plutôt qu’une capacité brute, Anthropic « l’ayant apprivoisé au point de le rendre suffisamment sûr pour une large diffusion », avec pour récompense l’échelle : les défenseurs ordinaires peuvent enfin opérer à la vitesse des attaquants, « à condition que les mesures de sécurité tiennent ».

En ce qui concerne la politique de conservation des données, Anthropic conserve les invites et les réponses des modèles de niveau Mythos pendant 30 jours, et plus longtemps pour les invites violant la politique. Cette politique a déjà attiré l’attention d’entreprises comme Microsoft, qui limite l’utilisation par ses employés et a constitué une équipe juridique pour l’évaluer. Etay Maor, vice-président du renseignement sur les menaces chez Cato Networks, un fournisseur de sécurité, estime que la protection de Fable 5 est suffisamment solide contre les pirates opportunistes, mais que « les attaquants bien financés et motivés » se tourneront vers d’autres méthodes. Il a également noté que « lorsque le classifieur devient trop strict, des faux positifs commencent à apparaître. Les mêmes contrôles destinés à bloquer les activités malveillantes peuvent également empêcher les utilisateurs légitimes d’utiliser le modèle à des fins valables. » Il a ajouté : « D’un point de vue commercial, l’exigence de conservation de 30 jours mérite attention. Les organisations dans les secteurs réglementés doivent savoir exactement quelles données sont conservées avant d’utiliser ces modèles dans des environnements sensibles, et si cela est conforme à leurs exigences de conformité et juridiques. »

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com