fr.wedoany.com Rapport : Nvidia continue d'étoffer son portefeuille en ajoutant plusieurs modèles, dont le plus grand n'est qu'annoncé. Parallèlement, Microsoft a dévoilé une série de modèles lors de la conférence Build début juin, mais malheureusement tous en source fermée, une décision qui l'éloigne davantage d'OpenAI.
StepFun, entreprise d'IA basée à Shanghai, a lancé son nouveau modèle de raisonnement Step 3.7 Flash après le succès de son modèle 3.5 au printemps. L'architecture de ce modèle est similaire à celle de son prédécesseur, mais il intègre un encodeur visuel (Vision Encoder) lui permettant de comprendre les images. La fonction de raisonnement est désormais configurable, évitant d'accumuler immédiatement un grand nombre de tokens pour des questions simples, ce qui est particulièrement utile pour les usages agentiques. Comme de nombreux modèles chinois, son prédécesseur avait été soumis à une censure stricte ; la version 3.7 change peu, mais le modèle donne des faits dans la zone de raisonnement, qui sont ensuite supprimés dans la réponse finale, ce qui semble dû à des garde-fous (guardrails) imposés lors de la dernière phase d'entraînement. Hormis cela, les réponses sont pour la plupart correctes. Fait intéressant, pour les questions en allemand, le raisonnement se déroule en grande partie en allemand, tandis que des mots d'interruption comme « wait » restent en anglais, ce qui diffère de presque tous les autres modèles qui raisonnent uniquement en anglais. La communauté a une opinion très favorable de ce modèle, particulièrement adapté pour une utilisation avec des agents de codage (Coding Agents). Sur le site de StepFun, ses données sont bien supérieures à celles de l'ancien modèle, dépassant même DeepSeek V4 Flash. Les résultats de Step 3.7 Flash sont disponibles dans le dépôt GitHub de cet article.
Le modèle M3 de MiniMax, bien qu'étiqueté « poids ouverts » (Open Weight), n'est actuellement pas téléchargeable en poids sur Hugging Face, mais uniquement accessible directement via MiniMax.ai ou OpenRouter. MiniMax a optimisé l'architecture d'attention : la première phase détermine quels tokens sont importants, la seconde phase transmet ces tokens au calcul d'attention complet. MiniMax affirme que M3 traite les prompts presque dix fois plus vite que M2, et génère même quinze fois plus rapidement. Aucun benchmark public n'est encore disponible, mais les données de MiniMax montrent que, dans le domaine du codage, si les données sont exactes, il pourrait rivaliser avec les meilleurs modèles d'Anthropic. Les résultats de MiniMax M3 sont disponibles dans le dépôt GitHub de cet article.
Liquid AI a adopté une architecture unique pour ses Liquid Foundation Models, rendant la génération de tokens extrêmement efficace et fonctionnant bien sur CPU. Le nouveau LFM2.5-8B-A1B, avec seulement un milliard de paramètres actifs, vise à concurrencer des modèles plus grands comme gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 et Gemma-4-26B-A4B-IT. Sur un Mac Studio M2 Ultra, ce modèle atteint près de 200 tokens par seconde, bien qu'il ne puisse pas égaler complètement les grands modèles, il convient aux applications spécialisées ou aux scénarios agentiques. Les résultats de LFM2.5-8B-A1B sont disponibles dans le dépôt GitHub de cet article.
Nvidia a publié plusieurs mises à jour de modèles. Le modèle LocateAnything peut être utilisé pour analyser des images et produire des boîtes englobantes contenant des objets spécifiques ; son traitement est hautement parallélisé, capable même d'analyser des documents scannés, adapté à l'identification d'éléments GUI et à l'opération de navigateurs via des agents. Ce modèle pèse environ 8 Go et peut fonctionner sur des GPU grand public. Le Pixel Diffusion Decoder introduit un nouveau modèle de diffusion dans l'espace pixel, mais son utilisation reste fastidieuse, nécessitant le téléchargement de points de contrôle depuis la page Hugging Face et un traitement avec un programme spécialisé. Le modèle Nemotron 3 Ultra possède 550 milliards de paramètres, dont 55 milliards actifs, utilisant le type de données NVFP4 et une mécanique d'attention optimisée (incluant de nombreuses couches Mamba), avec une longueur de contexte pouvant atteindre 1 million de tokens. Cependant, Nemotron 3 Ultra n'a pas encore complètement rattrapé les modèles open source chinois. Comme tous les modèles Nemotron, Nvidia fournit la plupart des données d'entraînement et du code, atteignant un haut niveau de transparence, comparable seulement à des modèles d'IA bien plus petits comme Olmo ou Apertus. L'origine occidentale du modèle se ressent dans les réponses : alors que les modèles chinois sont prudents, celui-ci donne souvent des réponses plus claires, politiquement plus neutres ou avec des points de vue différents. Les résultats de Nemotron 3 Ultra sont disponibles dans le dépôt GitHub de cet article.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









