fr.wedoany.com Rapport : L'équipe Qwen Pilot du laboratoire Tongyi d'Alibaba a lancé le 7 avril 2026 un nouvel algorithme FIPO (Future-KL Influenced Policy Optimization). Dans un cadre d'apprentissage par renforcement pur (Pure RL) à l'échelle 32B, ses performances dépassent celles de l'o1-mini d'OpenAI et du DeepSeek-Zero-MATH de taille similaire. Selon un article soumis par l'équipe à arXiv le 20 mars 2026, lors de l'évaluation sur Qwen2.5-32B, le FIPO a étendu la longueur moyenne de la chaîne de raisonnement d'environ 4000 tokens à plus de 10000 tokens. Le taux de précision Pass@1 sur AIME 2024 est passé de 50,0 % à un pic de 58,0 %, pour se stabiliser autour de 56,0 %, surpassant également le DeepSeek-R1-Zero-Math-32B (environ 47,0 %) et l'o1-mini (environ 56,0 %).
L'apprentissage par renforcement de style GRPO traditionnel repose sur une récompense basée sur les résultats (ORM), qui attribue uniformément l'avantage global à chaque token de la trajectoire. Cette attribution de crédit à granularité grossière ne peut pas distinguer les pivots logiques critiques des tokens banals, ce qui conduit à une stagnation de la trajectoire de raisonnement à des longueurs intermédiaires. Le FIPO introduit la divergence KL future actualisée dans la mise à jour de la politique, recalcule les poids en fonction de l'influence des tokens sur le comportement de la trajectoire ultérieure, et construit une représentation dense de l'avantage au niveau du token, réalisant ainsi une nouvelle pondération des récompenses précise jusqu'au token. L'équipe a également introduit la différence de probabilité logarithmique signée (Δlog p) comme nouvelle dimension d'observation pour capturer la directionnalité de l'optimisation, remplaçant ainsi l'entropie et la divergence KL, couramment utilisées dans l'industrie mais difficiles à identifier avec précision pour les tokens critiques.
Le FIPO a été testé sur le modèle de base Qwen2.5-32B-Base, qui n'avait auparavant été exposé à aucune donnée synthétique de chaîne de raisonnement longue. Les statistiques de l'étude montrent que la probabilité que le modèle s'égare dans une longue chaîne de raisonnement (près de 3 %) est trois fois plus élevée que la probabilité d'avoir un déclic (environ 1 %). La cause fondamentale réside dans le mécanisme de récompense global uniforme, incapable de distinguer les nœuds logiques clés des réflexions redondantes. Le FIPO est accompagné de trois mécanismes de robustesse pour assurer la stabilité de l'entraînement : filtrage des valeurs extrêmes, fenêtre d'atténuation douce et écrêtage des poids d'influence. L'article associé, le code et le modèle ont tous été rendus open source. Le système d'entraînement est construit sur le framework verl.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









