fr.wedoany.com Rapport : Récemment, NTT Japon a annoncé le développement d’une nouvelle technique d’IA explicative pour les modèles de fondation multimodaux, appelée « Rationale-Enhanced Decoding ». Cette technique vise à améliorer la fiabilité des sorties des grands modèles de langage visuel lors du traitement d’images et de textes. La recherche associée sera présentée à la CVPR 2026, qui se tiendra du 3 au 7 juin à Denver, aux États-Unis.
Cette technique répond à un problème clé dans les applications actuelles de l’IA multimodale : la réponse finale générée par le modèle n’utilise pas nécessairement le raisonnement qu’il a lui-même produit à l’étape précédente. NTT a découvert lors d’expériences que, bien que les grands modèles de langage visuel existants puissent d’abord générer un processus de raisonnement intermédiaire, puis fournir une réponse finale basée sur l’image, le texte et le contenu du raisonnement, le modèle ignore parfois ce raisonnement et s’appuie directement sur les informations visuelles pour produire le résultat. Même si les chercheurs remplacent le raisonnement par un contenu sans rapport avec la question, le modèle peut encore donner la même réponse qu’auparavant. Cela signifie que la « chaîne de pensée » ne peut pas être naturellement assimilée à une véritable explication dans certains scénarios, et qu’elle a du mal à soutenir des applications hautement fiables telles que l’imagerie médicale, la prise de décision en entreprise ou l’audit de processus critiques.
Le Rationale-Enhanced Decoding proposé par NTT ne nécessite pas de réentraînement du modèle ni de jeux de données supplémentaires. Son approche consiste, lors de la phase d’inférence, à séparer la distribution de probabilité conditionnée par l’entrée visuelle de celle conditionnée par le raisonnement, puis à générer la réponse finale par un décodage combiné, de sorte que la sortie soit contrainte à la fois par les informations visuelles et par le raisonnement.
Cette caractéristique de « sans réentraînement » le rend particulièrement adapté à l’intégration dans les grands modèles de langage visuel existants et les systèmes d’IA d’entreprise. Alors que les agents IA commencent à assumer des tâches telles que la compréhension de documents, l’analyse vidéo, l’inspection industrielle, la collaboration avec le service client, l’audit des risques et le soutien à la prise de décision métier, les entreprises ont besoin non seulement que le modèle fournisse une réponse, mais aussi de pouvoir juger si cette réponse repose sur une chaîne de preuves traçable et vérifiable. Si les modèles multimodaux traditionnels ne peuvent offrir qu’un processus de raisonnement superficiel, sans contrainte de cohérence entre la réponse finale et le raisonnement, cela affecte la répartition des responsabilités et le contrôle des risques de l’IA dans des scénarios critiques. Cette recherche de NTT fait passer la capacité d’explication de « montrer les raisons a posteriori » à « imposer l’utilisation des raisons pendant le processus de raisonnement », ce qui est tout aussi important pour la collaboration entre agents IA : lorsque plusieurs systèmes IA travaillent ensemble, l’agent suivant doit comprendre pourquoi l’agent précédent a pris une décision et continuer la tâche sur la même base.
Les prochaines étapes de cette recherche se concentrent sur l’intégration technique et la validation applicative. Si le Rationale-Enhanced Decoding parvient à maintenir des performances stables sur davantage de modèles multimodaux, de tâches de compréhension d’images et de systèmes d’agents d’entreprise, l’IA explicable ne sera plus seulement une capacité accessoire liée à la conformité ou à l’audit, mais deviendra l’une des capacités fondamentales de l’IA multimodale entrant dans les processus de production. Pour le secteur des technologies de l’information et de la communication, ce type de technologie montre également que la compétition en matière d’IA d’entreprise s’étend de la taille des modèles et de la capacité de réponse à la cohérence du raisonnement, à la crédibilité des explications et à la fiabilité de la collaboration intersystèmes.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









