Test réel des modèles multimodaux nationaux : Step 3.7 Flash domine en vitesse et en coût

2026-07-02 14:26

Favoris

fr.wedoany.com Rapport : Dans un contexte où les modèles multimodaux passent de la démonstration au déploiement en production, les trois modèles Step 3.7 Flash, Qwen3.6-flash et MiniMax M3 ont été soumis à des tests réels dans des scénarios de développement et d’exploitation. Une évaluation comparative portant sur deux tâches — la reconnaissance de diagrammes de flux et l’extraction de données de factures — montre que la qualité de la compréhension visuelle et de la sortie structurée est relativement stable pour les trois modèles, mais qu’il existe des différences en termes de temps de réponse et de consommation de tokens.

L’évaluation, menée selon trois dimensions — qualité, vitesse et coût —, a sélectionné deux types de scénarios industriels : d’une part, la restitution de la logique métier à partir d’un diagramme de flux système lors du développement d’un agent, et d’autre part, l’extraction structurée des informations d’une facture via un appel API dans un système métier. Les tests montrent qu’aucun des trois modèles n’a commis d’erreur grave de reconnaissance dans les deux tâches, et que la qualité des sorties est satisfaisante.

Dans le scénario de compréhension de diagramme de flux, le modèle devait extraire avec précision la logique métier en 10 étapes à partir d’un diagramme de flux d’authentification par connexion WeChat Mini Program. Step 3.7 Flash a correctement identifié les 10 étapes, chacune correspondant parfaitement au diagramme original. MiniMax M3 a également produit 10 étapes, avec une logique correcte. Qwen3.6-flash a fusionné les étapes 3 et 4, produisant 9 étapes, mais la logique globale était correcte. À qualité de sortie équivalente, Step 3.7 Flash a affiché le temps de réponse le plus rapide et la consommation de tokens la plus faible.

Dans un autre test orienté système métier, le modèle devait extraire les champs clés d’une facture électronique selon une structure JSON prédéfinie. Les trois modèles ont correctement identifié et structuré les informations requises. Step 3.7 Flash a accompli cette tâche en 5,6 secondes, consommant 1 409 tokens ; MiniMax M3 a pris 6,1 secondes, consommant 2 216 tokens ; Qwen3.6-flash a pris 7,38 secondes, consommant 2 008 tokens. Le coût d’extraction structurée par facture était inférieur à 0,01 yuan.

En combinant les deux tests, la stabilité de la qualité de la compréhension visuelle et de la sortie structurée des trois modèles répond aux exigences initiales de production, sans erreur d’extraction. Pour les scénarios d’agent ou d’API métier à appels fréquents, la latence de réponse et la consommation de tokens deviennent des indicateurs clés de différenciation. Dans cette comparaison, Step 3.7 Flash, tout en maintenant une qualité de sortie équivalente, offre une réponse plus rapide et un coût inférieur, ce qui en fait le modèle le plus adapté pour un déploiement prioritaire en environnement de production.

Chine

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com

Préc：L'accélérateur Rubin Ultra de Nvidia abandonne la configuration à 4 dies pour 2027

Suiv：Les détaillants américains anticipent leurs importations, faisant grimper les coûts de fret, Maersk relève son EBITDA à 80-100 milliards de dollars