Microsoft Research publie Memora, réduisant la consommation de tokens de 98 %

2026-07-01 15:01

Favoris

fr.wedoany.com Rapport : Microsoft Research a développé un système de mémoire à long terme nommé Memora, visant à offrir aux agents d’IA des capacités de mémoire plus évolutives et fiables en découplant le contenu mémorisé de la méthode de récupération.

Cerveau d’IA sur un écran d’ordinateur

Alors que les agents d’IA doivent maintenir un contexte mémoriel sur des semaines ou des mois, et non plus seulement gérer une session unique, les méthodes de mémoire traditionnelles entraînent une fragmentation des informations et un ralentissement de la récupération. Microsoft Research indique que Memora, en découplant le contenu mémorisé de la méthode de récupération, peut réduire la consommation de tokens contextuels jusqu’à 98 %, tout en maintenant ou en dépassant la précision du contexte complet.

Le déploiement à long terme de l’IA est actuellement confronté à des goulots d’étranglement des systèmes de mémoire. Les grands modèles de langage modernes recommencent chaque session à zéro, les longues conversations nécessitant la relecture de tout l’historique, et les nouvelles informations étant stockées sous forme de texte brut ou de résumés, ce qui peut entraîner la perte de détails clés.

Les solutions existantes présentent chacune des limites. Le système Mem0 extrait des faits atomiques des conversations, la méthode de génération augmentée par récupération (RAG) indexe des fragments de texte, et les systèmes de mémoire basés sur des graphes (comme Zep, GraphRAG) construisent des structures via des relations entre entités. Cependant, ces méthodes tombent dans deux extrêmes : les systèmes de fragmentation de contenu (comme RAG, Mem0) conservent les détails mais perdent la cohérence narrative ; les systèmes d’abstraction grossière compressent l’expérience mais perdent les contraintes et les détails numériques ; les systèmes basés sur des graphes nécessitent une ontologie stricte et la récupération dépend du contenu lui-même.

L’architecture de Memora résout ces problèmes en découplant le contenu stocké de la méthode de récupération. Chaque entrée de mémoire comprend deux parties : l’abstraction principale, une phrase de 6 à 8 mots, capture le contenu essentiel de la mémoire ; la valeur mémoire contient le contenu riche lui-même. Les nouvelles informations sur un même sujet sont fusionnées dans les entrées de mémoire existantes, évitant ainsi la fragmentation. De plus, le système introduit des points d’ancrage contextuels, des étiquettes courtes et contextuelles extraites de chaque valeur mémoire, offrant des chemins d’accès alternatifs à la même mémoire.

Memora inclut également un récupérateur guidé par une stratégie, qui ne renvoie pas simplement les k éléments les plus similaires en une seule fois, mais optimise itérativement la requête via les points d’ancrage contextuels, présente des mémoires pertinentes mais non similaires, et décide quand s’arrêter. Sanchit Vir Gogia, analyste principal chez Greyhound Research, déclare que Memora rejette le raccourci consistant à assimiler la récupération à la mémoire, sépare les détails riches de la mémoire des poignées de recherche, et fait de la récupération un acte de navigation.

Microsoft a évalué Memora sur deux benchmarks : LoCoMo (moyenne de 600 tours de dialogue) et LongMemEval (utilisation d’un contexte de 115 000 tokens). Les résultats montrent que Memora atteint une précision de jugement LLM de 86,3 % sur LoCoMo et de 87,4 % sur LongMemEval, surpassant RAG, Mem0, Nemori, Zep, LangMem et le raisonnement en contexte complet. Memora stocke environ la moitié des entrées de mémoire par dialogue (344) par rapport à Mem0 (651), tout en réduisant la consommation de tokens jusqu’à 98 % par rapport au raisonnement en contexte complet.

Gogia souligne qu’une consommation de tokens plus faible n’équivaut pas directement à des coûts d’infrastructure réduits. La réduction du contexte dans les benchmarks ne signifie pas que les factures des entreprises baisseront de 98 %, car les coûts réels incluent également la construction de la mémoire, l’indexation, le stockage et les journaux d’audit. Le mode de récupération par stratégie le plus performant de Memora prend environ cinq à six secondes par requête, tandis que le mode sémantique plus simple prend moins d’une seconde, les économies de tokens étant en partie compensées par la latence de récupération et le raisonnement supplémentaire.

Memora est actuellement un projet actif de Microsoft Research, et le code de recherche associé a été rendu public sur GitHub. Gogia conseille aux responsables informatiques de considérer Memora comme une recherche architecturale, et non comme un logiciel prêt pour la production, et de faire preuve de prudence tant que son code n’est pas entièrement vérifiable, maintenable et supportable. De plus, les entreprises doivent élaborer des politiques de gouvernance et de conformité pour garantir une gestion sécurisée et une auditabilité de la mémoire IA, notamment en définissant qui peut écrire ou lire la mémoire, la durée de conservation de la mémoire, et comment les auditeurs peuvent reconstruire la mémoire, afin de répondre aux exigences du règlement de l’UE sur l’intelligence artificielle et de la loi indienne sur la protection des données personnelles numériques.

États-Unis

Information et communication Ingénierie de l'intelligence artificielle

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com

Préc：La NASA et AWS réalisent une diffusion en direct en 4K du survol lunaire d'Artemis 2

Suiv：Vodafone España teste la communication prioritaire 5G SA pour la police lors du Tour de France