Le modèle médical M4 de Baichuan Intelligence publié en Chine, score global de 68,6

2026-06-19 11:53

Favoris

fr.wedoany.com Rapport : Un médecin d’un hôpital de premier rang interrogé par Interface News a indiqué qu’un nombre croissant de patients se présentent avec des résultats générés par l’IA, ce qui augmente les coûts de communication entre médecins et patients. Un médecin a rapporté que, sur 30 consultations en une matinée, 25 patients apportaient des conclusions de l’IA. Dans ce contexte, Baichuan Intelligence a publié le modèle Baichuan-M4, un grand modèle renforcé pour le domaine médical, basé sur une restructuration structurelle d’un grand modèle général et une amélioration spécialisée en médecine, visant à accroître la fiabilité de l’IA dans les décisions médicales.

Dans la dernière évaluation HealthBench, le M4 a obtenu un score global de 68,6, un score de 49,7 pour les tâches difficiles, et un taux d’hallucination réduit à 3,3 %. Dans l’évaluation HealthBench Professional, plus proche des environnements cliniques réels, le score de raisonnement de base du M4 est de 55,1, supérieur aux 51,8 points de GPT-5.5.

Les améliorations des capacités du M4 se manifestent à quatre niveaux. Premièrement, la capacité de consultation dynamique : basée sur le système SCAN-bench 2.0, les scénarios d’entraînement du modèle passent d’une consultation standardisée unique à des visites multiples et à des profils de patients complexes. Dans l’évaluation SCAN-bench, le M4 obtient un score de 79,0 pour le premier diagnostic et de 74,7 pour le suivi ; le score de mémoire clinique à long contexte est de 86,9, soit une amélioration de 21,1 points par rapport à la génération précédente M3. Deuxièmement, la capacité fondée sur les preuves : le M4 construit un système de parcours clinique atomisé, décomposant les directives médicales en plus de 1 000 unités de décision clinique réutilisables, couvrant les processus complets de diagnostic et de traitement de plus de 200 maladies courantes. Dans l’évaluation Baichuan-EBM, la précision des citations fondées sur les preuves atteint 90,0, nettement supérieure aux 54,7 de GPT-5.5.

Troisièmement, la capacité d’orchestration : le M4 introduit l’architecture Harness, permettant au modèle de décider de manière autonome quand poser des questions supplémentaires, rechercher des preuves ou consulter les antécédents médicaux, tout en effectuant des opérations sous contraintes de sécurité en temps réel. Quatrièmement, la mémoire sur l’ensemble du parcours : le modèle peut intégrer les dossiers médicaux historiques, les consultations multiples, les tendances des analyses et les retours sur les médicaments, en maîtrisant les antécédents médicaux et les variations des indicateurs des patients au fil des dialogues.

Le produit destiné aux consommateurs, Baixiaoyi, basé sur le modèle M4, est actuellement en test interne auprès de certains utilisateurs. Ce produit peut progressivement compléter les informations sur les antécédents médicaux au cours de dialogues multiples, réduire la portée des évaluations de risque et, si nécessaire, orienter les utilisateurs vers des consultations médicales. Selon les données publiées par Baichuan Intelligence, lors de tests menés à l’Hôpital de cancérologie de l’Académie chinoise des sciences médicales (département d’oncologie), à l’Hôpital pour enfants de Pékin affilié à l’Université médicale de la capitale (pédiatrie) et à l’Hôpital Ruijin de l’Université Jiao Tong de Shanghai (département de pneumologie et de soins intensifs), 6 944 dialogues ont été générés en 27 jours au sein de 75 groupes de patients, avec un taux de sécurité de 99,6 % pour Baixiaoyi et un taux d’interaction approfondie compris entre 60 % et 73 %.

Baichuan Intelligence positionne le M4 comme le « cerveau » des scénarios médicaux, tandis que Baixiaoyi en est le « corps » connectant les utilisateurs. Le premier est responsable du raisonnement professionnel, des preuves et de la mémoire à long terme, tandis que le second apporte cette capacité dans les environnements domestiques. L’entreprise prévoit d’adopter un « modèle à deux médecins », où l’IA assure l’accompagnement à long terme en dehors du cabinet, l’organisation des informations et les rappels de risques, tandis que les médecins humains se chargent du diagnostic et des décisions thérapeutiques.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Chine