Les entreprises de logiciels sud-coréennes combinent plusieurs technologies pour faire face à la flambée des coûts des tokens des agents IA
2026-07-02 08:57
Favoris

fr.wedoany.com Rapport : Les entreprises de logiciels sud-coréennes réduisent la forte augmentation des coûts des tokens liée à la généralisation des agents IA en combinant plusieurs technologies telles que l'optimisation des invites, les passerelles LLM, le déploiement local et les stratégies multi-modèles.

[Source de l'image : généré par nanobanana2]

Pour accomplir des tâches, les agents IA appellent eux-mêmes les modèles de langage à plusieurs reprises et exécutent divers outils, ce qui entraîne une consommation de tokens multipliée par plusieurs, voire par des dizaines, par rapport à une utilisation humaine. Depuis le début de l'année, une entreprise sud-coréenne a déployé des agents IA dans toute l'entreprise, consommant environ 250 milliards de tokens par mois, ce qui génère des coûts d'infrastructure mensuels de 200 à 300 millions de wons.

Certaines entreprises commencent par alléger les invites et mettre en cache. WISEITECH réduit les longues entrées inutiles et les appels répétés, tandis que Naver Cloud optimise les modèles en fonction des tâches. Les entreprises considèrent les passerelles LLM comme des nœuds de contrôle centraux, surveillant en temps réel l'utilisation des modèles par chaque département. Hancom intègre des systèmes de routage et de repli, et NDS construit une passerelle basée sur LiteLLM.

Plusieurs entreprises adoptent également des solutions de déploiement local. MakinaRocks connecte des modèles open source à sa propre infrastructure vLLM, et S2W utilise ses propres serveurs GPU pour traiter les tâches de grande envergure. La stratégie multi-modèles confie les tâches répétitives standardisées à des modèles légers ou open source. Crowdworks utilise des modèles commerciaux comme Amazon Bedrock en combinaison avec des mini-modèles. CyNapse Soft introduit les technologies Serena MCP et LSP, segmentant le code source en unités sémantiques, réalisant ainsi une économie de tokens d'environ 20 % par rapport aux frameworks open source.

L'optimisation des coûts à l'ère de l'IA générative met à l'épreuve la capacité d'architecture des entreprises. La mise en place d'un système de contrôle complet, via la mise en cache pour éliminer les requêtes redondantes, le déploiement local pour isoler les données sensibles et le routage pour remplacer les modèles coûteux, deviendra un critère pour distinguer la pérennité des entreprises de logiciels.

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com