Le laboratoire Tongyi d'Alibaba lance l'algorithme FIPO, surpassant les performances d'inférence du modèle o1-mini avec un modèle de 32B
2026-04-08 15:03
Favoris

fr.wedoany.com Rapport : L'équipe Qwen Pilot du laboratoire Tongyi d'Alibaba a lancé le 7 avril 2026 un nouvel algorithme FIPO (Future-KL Influenced Policy Optimization). Dans un cadre d'apprentissage par renforcement pur (Pure RL) à l'échelle 32B, ses performances dépassent celles de l'o1-mini d'OpenAI et du DeepSeek-Zero-MATH de taille similaire. Selon un article soumis par l'équipe à arXiv le 20 mars 2026, lors de l'évaluation sur Qwen2.5-32B, le FIPO a étendu la longueur moyenne de la chaîne de raisonnement d'environ 4000 tokens à plus de 10000 tokens. Le taux de précision Pass@1 sur AIME 2024 est passé de 50,0 % à un pic de 58,0 %, pour se stabiliser autour de 56,0 %, surpassant également le DeepSeek-R1-Zero-Math-32B (environ 47,0 %) et l'o1-mini (environ 56,0 %).

L'apprentissage par renforcement de style GRPO traditionnel repose sur une récompense basée sur les résultats (ORM), qui attribue uniformément l'avantage global à chaque token de la trajectoire. Cette attribution de crédit à granularité grossière ne peut pas distinguer les pivots logiques critiques des tokens banals, ce qui conduit à une stagnation de la trajectoire de raisonnement à des longueurs intermédiaires. Le FIPO introduit la divergence KL future actualisée dans la mise à jour de la politique, recalcule les poids en fonction de l'influence des tokens sur le comportement de la trajectoire ultérieure, et construit une représentation dense de l'avantage au niveau du token, réalisant ainsi une nouvelle pondération des récompenses précise jusqu'au token. L'équipe a également introduit la différence de probabilité logarithmique signée (Δlog p) comme nouvelle dimension d'observation pour capturer la directionnalité de l'optimisation, remplaçant ainsi l'entropie et la divergence KL, couramment utilisées dans l'industrie mais difficiles à identifier avec précision pour les tokens critiques.

Le FIPO a été testé sur le modèle de base Qwen2.5-32B-Base, qui n'avait auparavant été exposé à aucune donnée synthétique de chaîne de raisonnement longue. Les statistiques de l'étude montrent que la probabilité que le modèle s'égare dans une longue chaîne de raisonnement (près de 3 %) est trois fois plus élevée que la probabilité d'avoir un déclic (environ 1 %). La cause fondamentale réside dans le mécanisme de récompense global uniforme, incapable de distinguer les nœuds logiques clés des réflexions redondantes. Le FIPO est accompagné de trois mécanismes de robustesse pour assurer la stabilité de l'entraînement : filtrage des valeurs extrêmes, fenêtre d'atténuation douce et écrêtage des poids d'influence. L'article associé, le code et le modèle ont tous été rendus open source. Le système d'entraînement est construit sur le framework verl.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Derniers Bulletins
1
23 mai - Expansion internationale des projets énergétiques : L'intégration du solaire et du stockage, les réseaux de canalisations d'hydrogène, l'interconnexion GNL et la restructuration des actifs d'ingénierie pétrolière et gazière accélèrent la libération d'opportunités de projets à l'échelle mondiale
2
Investissement de 10 millions d'euros pour la rénovation de la résidence Signac à Saint-Étienne, en France
3
TotalEnergies envisage de céder 50 % de ses actifs photovoltaïques et éoliens de 1,2 GW en Europe
4
L'INPEX japonais signe des contrats commerciaux de gaz naturel pour le projet Abadi LNG avec plusieurs entreprises publiques indonésiennes
5
EVNGENCO1 prévoit d'investir environ 4 400 milliards de dongs dans un projet photovoltaïque flottant de près de 270 MW
6
Envision Energy, une entreprise chinoise, lance le plus grand système intégré éolien-ammoniac hors réseau au monde
7
SpaceX prévoit de construire une usine de cellules solaires de 10 GW près d'Austin, créant une synergie entre la fabrication d'énergie et les centres de données spatiaux d'IA
8
Le groupe suédois Sandvik s'associe à l'américain Alpha Metallurgical Resources pour investir 25 millions de dollars dans une usine en Virginie-Occidentale
9
L'American Iron and Steel Institute souligne le rôle crucial du charbon métallurgique, la production américaine d'acier brut se hisse au troisième rang mondial
10
Le développeur danois d'éolien en mer annonce que les 583 MW du projet Greater Changhua 4 à Taïwan sont entièrement raccordés au réseau et produisent de l'électricité