L’équipe du professeur Song Hyun-oh (département d’informatique et d’ingénierie, Université nationale de Séoul) a mis au point KVzip, une technologie de compression intelligente de la mémoire conversationnelle des grands modèles de langage (LLM) utilisés dans les tâches à contexte long (conversations étendues, résumés de documents). Les résultats sont disponibles sur le serveur de prépublication arXiv.

La mémoire conversationnelle stocke temporairement phrases, questions et réponses pour générer des réponses cohérentes. KVzip élimine les informations redondantes ou inutiles, réduisant fortement l’empreinte mémoire tout en accélérant les réponses sans perte de précision. Contrairement aux méthodes classiques qui se dégradent avec de nouvelles requêtes, KVzip conserve les données nécessaires à la reconstruction du contexte. Sur diverses tâches, il divise par 3 à 4 l’occupation mémoire, double la vitesse de réponse et maintient la précision. Testé avec succès sur Llama 3.1, Qwen 2.5 et Gemma 3.
Intégré à la bibliothèque open-source KVPress de NVIDIA, KVzip est prêt pour le déploiement réel. À l’avenir, il pourrait réduire drastiquement la consommation mémoire et la latence dans les systèmes d’entreprise, permettant à un serveur de gérer plus d’utilisateurs simultanés et des dialogues plus longs, donc diminuer les coûts d’exploitation. Le professeur Song Hyun-oh : « KVzip crée une mémoire réutilisable en ne gardant que l’essentiel. » Le doctorant Kim Jang-hyun, principal contributeur, ajoute : « KVzip s’intègre sans couture aux LLM du monde réel et garantit qualité et vitesse sur de longues interactions. »













京公网安备 11010802043282号