Baidu open-source son modèle Unlimited OCR à 3 milliards de paramètres - Bulletin - Wedoany.com

Accueil Actualités Détails

Baidu open-source son modèle Unlimited OCR à 3 milliards de paramètres

2026-06-26 14:59

Favoris

fr.wedoany.com Rapport : Baidu a publié en open source le 22 juin son modèle Unlimited OCR, visant à résoudre le problème de ralentissement progressif des modèles OCR de bout en bout lors de l'analyse de longs documents. Ce modèle compte un total de 3 milliards de paramètres, mais n'en active que 500 millions lors de l'inférence.

$Baidu open source le modèle Unlimited OCR : basé sur DeepSeek OCR, l\$

Les modèles OCR de bout en bout utilisent une architecture de réseau neuronal unifiée, fusionnant la détection de texte et la reconnaissance de caractères en un seul système, qui mappe directement l'image d'entrée à une séquence de texte de sortie, abandonnant ainsi le processus traditionnel de détection préalable des zones de texte suivi d'une reconnaissance séparée. Chaque token généré par un modèle OCR de bout en bout dominant augmente le cache de clés-valeurs (KV cache), ce qui entraîne une hausse continue de l'utilisation de la mémoire et de la latence, donnant à l'utilisateur l'impression que l'analyse de documents multipages ralentit au fur et à mesure.

$Baidu open source le modèle Unlimited OCR : basé sur DeepSeek OCR, l\$

Unlimited OCR reprend l'architecture de DeepSeek OCR, en conservant le DeepEncoder et le décodeur à experts mixtes (MoE). Le côté encodeur utilise un codage visuel à deux niveaux, avec une compression de tokens par un facteur 16 lors de la phase de connexion, compressant une image PDF de 1024×1024 en 256 tokens visuels, réduisant ainsi la charge de préremplissage dès la source.

En termes d'entraînement, Unlimited OCR a poursuivi l'apprentissage à partir du point de contrôle de DeepSeek OCR pendant 4000 étapes, en gelant le DeepEncoder et en n'entraînant que le décodeur. Les données d'entraînement comprennent environ 2 millions d'échantillons de documents, exécutés sur 8×16 GPU A800. Le ratio de données est d'environ 9:1 entre pages uniques et pages multiples, ces dernières étant obtenues par concaténation.

$Baidu open source le modèle Unlimited OCR : basé sur DeepSeek OCR, l\$

Les tests de référence montrent qu'Unlimited OCR obtient un score global de 93,23 sur OmniDocBench v1.5, supérieur aux 87,01 de DeepSeek OCR et aux 89,17 de DeepSeek OCR 2. Sa distance d'édition de texte est de 0,038, son CDM de formules de 92,61, son TEDS de tableaux de 90,93, et sa distance d'édition d'ordre de lecture de 0,045. Sur OmniDocBench v1.6, le score global du modèle atteint 93,92.

$Baidu open source le modèle Unlimited OCR : basé sur DeepSeek OCR, l\$

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Information et communication Ingénierie de l'intelligence artificielle

Préc：La société immobilière finlandaise Toivo Group et le fonds Premico développent un immeuble résidentiel d’environ 15 millions d’euros à Helsinki

Demander un devis

Stockage intelligent

Jiangsu Zhongtian Technology Co., Ltd.

Demander un devis

Lidar à aérosols portable LGJ-01

Anhui Landun Photoelectron Co., Ltd.

Demander un devis /unit

Tablette PC industrielle robuste 10 pouces Win10 Win11 Pro Intel N100 16+512 Go IP67 4G avec code-barres NFC RJ45 et station d'accueil

Highton Electronics Co., Ltd.

Demander un devis

Codeur magnétique à anneau incrémental de type 202

Shanghai Complee Instrument Co., Ltd.

Demander un devis

Projet d’installation mécanique et électrique pour l’industrialisation de matériaux semiconducteurs composés haut de gamme et de puces

Wuhan Huakang Century Clean Technology Co., Ltd.

Demander un devis

Conduite automatique totale (FAO)

UniTTEC Co., Ltd.

Demander un devis

QPS-20A Commutateur rapide de l'alimentation redondante

CHN ENERGY ZHISHEN CONTROL TECHNOLOGY CO., LTD.

Demander un devis

Surveillance intelligente

Shenzhen Invt Electric Co., Ltd.

Demander un devis /licence

Logiciel de serveur d'applications Baolande V9.5

Beijing Baolande Software Corporation

Demander un devis

Véhicule sans conducteur à caisse X3 Xinshiqi

Neolix Beijing Technology Co., Ltd.

Demander un devis

Solution de Prévention des Fuites de Données pour Bureaux

Sangfor Technologies Inc.

Demander un devis

Solution SIS pour l’instrumentation de sécurité

Beijing Consen Automation Technology Co., Ltd.

Recommandés

ZTE dévoile le cœur de réseau AIR Core

ZTE propose une architecture clé « 2+4 » pour la 6G lors du congrès GTI

ZTE dévoile trois innovations pour soutenir l’exploitation des tokens par les opérateurs

China Mobile Guangdong et Huawei réalisent la première validation de tranche dynamique au niveau utilisateur en Chine

L'entreprise chinoise Anshi Pacific lance le modèle d'intelligence fine iGPT et le système Whale

Zhongneng Shibei dévoile des employés numériques IA industriels globaux lors de la Conférence sur la numérisation intelligente de l'énergie électrique en Chine

Unilever ajoutera plus de 40 jumeaux numériques au cours des 18 prochains mois

China Unicom propose une transition de valeur de la large bande pilotée par l'IA à la conférence WBBA de Shanghai

La Chine lance le système d’agents openKylin et un groupe de travail sur l’IA

Rambus lance le module de sécurité matérielle RT-648 pour l’automobile, basé sur Arm

Derniers Bulletins

Yash Highvoltage (Inde) prévoit de lever 1,51 milliard de roupies pour étendre sa production de traversées haute tension

GATES décroche un contrat MRO pour les moteurs de Jeju Air après avoir obtenu la certification sud-coréenne

L’Australie et le Canada signent un accord radar à longue portée de 1,75 milliard de dollars

L'entreprise néerlandaise ExRobotics obtient la première certification UL 6260 pour robots en environnements dangereux

La compagnie aérienne espagnole Iberia effectue son premier vol commercial avec le Wi-Fi Starlink

Sophia Space, une entreprise américaine, prévoit de tester en orbite sa technologie de centre de données en 2027

Tektronix lance un shunt large bande et la sonde haute tension THDP0400

L’Arizona approuve un plan de transport de 11,3 milliards de dollars

L'outil de démantèlement de câbles sous-marins Frequensea des Pays-Bas termine l'assemblage de ses composants principaux

Le Kenya lance le centre numérique Pasenga dans le comté de Nyandarua