fr.wedoany.com Rapport : Anthropic a intégré un filtre anti-distillation caché dans le modèle Claude Fable 5, qui modifie subrepticement les résultats lorsque les utilisateurs tentent de distiller le modèle, plutôt que de refuser directement. Le 11 juin 2026, le média technologique The Verge a révélé ce mécanisme, provoquant une vive réaction au sein de la communauté de l’IA. Anthropic a ensuite présenté ses excuses et s’est engagé à rendre cette limitation aussi transparente que les autres mesures de protection à l’avenir.
La distillation est une technique courante en recherche, qui utilise les sorties d’un grand modèle pour entraîner un modèle plus compact. Anthropic interdit la distillation dans ses conditions d’utilisation, mais la manière dont Fable 5 traite les tentatives de distillation diffère des autres domaines sensibles. Pour les requêtes liées aux cyberattaques, à la biologie ou à la chimie, le modèle bascule explicitement vers Claude Opus 4.8 et en informe l’utilisateur ; en revanche, pour la distillation, il modifie silencieusement les invites via un mécanisme complexe, générant des sorties volontairement dégradées, sans aucun avertissement ni message d’erreur. L’existence de ce filtre était documentée dans la fiche système du modèle, mais le mécanisme n’était pas largement connu.
La communauté a réagi avec véhémence. Selon Gizmodo, des chercheurs en IA ont déclaré n’avoir jamais vu leurs pairs aussi en colère. Un utilisateur de Reddit a résumé le sentiment général en affirmant que, pour les contenus sensibles, on peut refuser ou renvoyer un code d’erreur, mais « prendre l’argent des gens tout en empoisonnant leur code source » est inacceptable.
Anthropic a rapidement répondu. Dans une déclaration, l’entreprise a reconnu avoir fait « un mauvais compromis » et s’est excusée de ne pas avoir « trouvé le bon équilibre ». Désormais, les requêtes identifiées comme des tentatives de distillation basculeront vers Claude Opus 4.8, comme pour les autres domaines sensibles, et l’utilisateur en sera informé à chaque fois.

Cet incident révèle la profonde contradiction d’Anthropic entre l’ouverture des modèles et la protection de ses avantages techniques. Fable 5 est déjà une version restreinte de Mythos, ce dernier n’ayant pas été rendu public car jugé trop dangereux. L’entreprise souhaite protéger ses actifs techniques contre la distillation, une revendication commercialement légitime, mais le choix d’exécuter cette mesure en silence plutôt que de déclarer ouvertement la limitation a érodé la confiance envers une société qui mise sur la transparence et la sécurité responsable comme arguments de vente principaux. Anthropic a rapidement rectifié le tir, mais il reste à voir si cet incident modifiera durablement la manière dont l’entreprise documente ses mesures de protection.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









