JD.com et des instituts de recherche lancent la technologie RLSD pour réduire les coûts de formation des modèles de raisonnement IA
2026-04-29 15:14
Favoris

fr.wedoany.com Rapport : Le coût élevé de la formation des modèles de raisonnement IA préoccupe depuis longtemps les équipes en entreprise. Des chercheurs de JD.com, en collaboration avec plusieurs institutions académiques, ont proposé un nouveau paradigme de formation appelé RLSD, visant à construire des agents de raisonnement personnalisés avec moins de ressources de calcul. Cette technologie combine l'apprentissage par renforcement et l'auto-distillation, résolvant les problèmes de signaux clairsemés ou de surcoût de calcul rencontrés dans les méthodes traditionnelles.

rlvr

Lors des expériences, les modèles formés avec RLSD ont atteint une précision moyenne de 56,18 % sur plusieurs référentiels de raisonnement visuel, surpassant le modèle de base et la méthode standard RLVR. Le co-auteur de l'article, Yang Chenxu, indique que le RLSD découple la direction et l'amplitude de la mise à jour, utilise un signal de récompense vérifiable pour déterminer la direction, et réalise un retour d'information fin au niveau de chaque token via l'auto-distillation. Cela évite les problèmes de fuite d'information et maintient la stabilité de la formation.

Le RLSD ne nécessite qu'une seule propagation avant supplémentaire, et sa vitesse de convergence est environ deux fois plus rapide que celle des méthodes traditionnelles. Il est adapté aux tâches offrant une récompense vérifiable, telles que la compilation de code ou la vérification mathématique, et peut exploiter de manière flexible des informations privilégiées. Cette technologie peut s'intégrer facilement dans les frameworks open source existants, ouvrant ainsi une nouvelle voie pour les entreprises souhaitant optimiser leurs modèles avec leurs données internes.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com