fr.wedoany.com Rapport : Le gouvernement sud-coréen a récemment annoncé la construction d'une base de données nationale de fabrication (National Manufacturing Data Library) et la numérisation des connaissances tacites des travailleurs qualifiés. Cependant, les entreprises d'IA physique (Physical AI) soulignent qu'il est nécessaire de prendre en compte simultanément les méthodes de collecte des données brutes sur les sites industriels, les normes de classement et les droits d'utilisation, entre autres questions clés.

Le succès ou l'échec de la politique d'IA dans le secteur manufacturier dépend en fin de compte de la capacité à établir une « structure de cycle des données ». Si les données de l'IA physique sont simplement stockées dans un entrepôt, il sera difficile de les appliquer sur les sites industriels. Il est nécessaire de construire un système : collecter les données sur les mouvements des travailleurs et les processus, les nettoyer et les valider pour les utiliser dans les simulations et l'entraînement des modèles, puis renvoyer les résultats des tests des robots sous forme de données. Par conséquent, la clé à l'avenir est de savoir comment connecter la base de données de fabrication AX (Manufacturing AX) dirigée par le gouvernement au système d'utilisation des données requis par l'industrie de l'IA physique. Seule la création d'un écosystème allant de la collecte de données au développement de modèles, à l'application des robots sur le terrain et au retour d'expérience des tests permettra à la base de données de fabrication de devenir une infrastructure publique pour l'industrie de l'IA physique, et non un simple entrepôt.
Lors du « Rapport national sur les trois grands super-projets pour le grand essor de la Corée » tenu le 29 juin à la Maison Bleue, le gouvernement a annoncé qu'il ferait de l'IA manufacturière et de l'IA physique des industries stratégiques nationales. Les mesures clés comprennent la construction d'une base de données nationale de fabrication, la numérisation des connaissances tacites des travailleurs qualifiés et le développement d'un modèle de base d'IA physique (Physical AI Foundation Model). Parmi celles-ci, le projet de conversion des connaissances tacites des travailleurs qualifiés en données a déjà prévu 48 milliards de wons dans le budget supplémentaire de 2026.
Les entreprises d'IA physique estiment généralement que les données constituent actuellement le principal goulot d'étranglement. Bien que les unités de traitement graphique (GPU) et les infrastructures de calcul soient importantes, pour que les robots fonctionnent réellement sur les sites industriels, il est nécessaire d'obtenir d'abord des données brutes de haute qualité incluant les mouvements des travailleurs et les conditions des processus. Contrairement aux grands modèles de langage (LLM), l'IA physique doit traiter des problèmes réels tels que la force, le frottement, le contact, l'échec et la sécurité. Pour que les robots saisissent des pièces, vissent des vis et transportent des objets dans les usines, ils ont besoin de données de mouvement spécifiques à chaque site et secteur.
Yeom Woon-seol, représentant d'AIRobot, a déclaré : « Pour les start-ups, les GPU sont certes importants, mais le plus grand goulot d'étranglement, ce sont les données. Sans données, il est impossible de créer des modèles de mouvement pour les robots, et sans modèles de mouvement, les robots ne peuvent pas agir selon les demandes des clients. » Il a ajouté que cela finit par rendre les robots difficiles à vendre.
Le problème réside dans le fait que le travail sur les sites de fabrication varie selon les secteurs. Les mouvements requis dans des secteurs tels que l'acier, les pièces automobiles, l'alimentation, la logistique et l'assemblage peuvent sembler similaires, mais sont en réalité différents. Par exemple, le seul processus de fabrication du pain comprend des mouvements distincts comme diviser la pâte, la presser sur du papier de cuisson et faire fonctionner des machines. Il est difficile pour une seule entreprise de robotique ou d'IA de données d'obtenir directement les données de mouvement de tous les secteurs. Les méthodes de collecte de données varient également : certaines sont basées sur la vision, d'autres adoptent une structure maître-esclave ou une méthode de téléopération, ce qui peut facilement produire des données optimisées pour une main de robot spécifique ou une plateforme particulière.
Yeom Woon-seol a expliqué : « Les données obtenues avec une main de robot spécifique sont optimisées pour ce robot. D'autres entreprises doivent les réétiqueter et les retraiter pour les utiliser, ce qui équivaut à faire le travail deux fois. » Il estime que la méthode égocentrique (Egocentric), qui consiste à installer une caméra sur le travailleur pour filmer les mouvements de la main humaine en vue à la première personne, pourrait être une alternative. Si l'on obtient des vidéos des mouvements des mains d'un cordonnier, d'un chef cuisinier ou d'un ouvrier qualifié, plusieurs entreprises de robotique peuvent les retraiter et les utiliser en fonction de leurs propres robots.
Jang Jun-hyun, vice-représentant de Tomorrow Robotics, a souligné l'importance des normes de données. « Il existe déjà plusieurs normes de données, mais elles ne sont pas encore unifiées. Si les entreprises et les institutions créent des données dans des formats différents, leur interopérabilité sera difficile. Il est donc nécessaire de disposer de normes de données pouvant être utilisées en commun. » Il a expliqué que les données en vue à la première personne sont parfois efficaces mais peuvent être coûteuses, tandis que pour certaines tâches, les données en vue à la troisième personne sont suffisantes. La clé réside dans l'unité et le format nécessaires pour combiner l'angle, la longueur, les informations articulaires, les informations de force, les informations vidéo et le contexte de travail.
Wirobotics estime que le cœur du problème réside dans la qualité et la conception des données, plutôt que dans la quantité. Un responsable a déclaré : « Les données des sites de fabrication sont très utiles et indispensables pour le développement de l'IA physique. Mais l'important n'est pas de collecter simplement une grande quantité de données, mais de concevoir soigneusement, dès le départ, le type de données à collecter, les normes de collecte et le format des données en fonction du contenu du travail, et de les standardiser en données de haute qualité significatives. »
L'accessibilité est également un problème. Si les données sont concentrées sur les sites de fabrication des grandes entreprises ou dans les usines de données, les start-ups et les entreprises spécialisées en robotique pourraient avoir du mal à les utiliser en raison de problèmes de sécurité et de propriété intellectuelle. Un responsable de Wirobotics a souligné : « Les données des grandes entreprises disposant d'installations de fabrication ou des usines de données qu'elles construisent peuvent être difficiles d'accès pour les start-ups ou les entreprises spécialisées en robotique en raison de problèmes de sécurité et de PI. La base de données nationale de fabrication devrait être substantiellement ouverte aux entreprises spécialisées en robotique. » Tomorrow Robotics a également souligné l'importance d'une structure de partage des données. Jang Jun-hyun a déclaré : « Bien qu'il soit important de créer des espaces ou des institutions capables de produire de grandes quantités de données pour générer des données de haute qualité, il est encore plus important que ces données puissent être utilisées en commun. »
Les leçons tirées des projets passés de construction de données d'apprentissage pour l'IA sont également instructives. Le gouvernement a construit des données d'apprentissage à grande échelle via AI Hub, etc., mais l'industrie a toujours souligné que « même s'il y a des données, il est difficile pour les entreprises réelles de les utiliser directement ». Les données de l'IA physique sont plus complexes que les simples images ou textes, car elles doivent inclure simultanément les mouvements des travailleurs, les valeurs articulaires des robots, les informations de force/contact, l'environnement de travail et les cas d'échec.
L'industrie est généralement positive quant à l'objectif du gouvernement de « développer un modèle de base d'IA physique autonome en 3 ans ». Un responsable de Wirobotics a déclaré : « Je pense qu'il est possible de développer en 3 ans un modèle d'IA physique de première génération avec des performances significatives dans un domaine spécifique. » Un responsable de MindAI a également déclaré : « Développer un modèle de base d'IA physique autonome en 3 ans est tout à fait possible, et les résultats seront visibles dès cette année. » Jang Jun-hyun, du point de vue de l'IA souveraine (Sovereign AI), a souligné : « Le modèle de base des robots équivaut au cerveau des robots humanoïdes. Le cerveau des robots humanoïdes travaillant dans les usines coréennes ne peut pas utiliser uniquement des modèles chinois ou américains. Si l'on utilise un « cerveau » étranger, les données actuelles sur les processus pourraient fuiter. »
La récente controverse sur les restrictions d'accès à Mythos5 et Fable5 d'Anthropic a renforcé cette prise de conscience. Le gouvernement américain a restreint l'accès aux modèles d'IA avancés pour des raisons de sécurité nationale et de contrôle des exportations, et bien que ces restrictions aient été assouplies par la suite, cela montre toujours le risque de dépendre des modèles de pointe étrangers. Dans les domaines où circulent des données essentielles, comme la fabrication, la défense, la sécurité et les services publics, la souveraineté des modèles d'IA n'est plus seulement un slogan d'autonomie technologique. Yeom Woon-seol, représentant d'AIRobot, a également reconnu la nécessité d'un modèle de base autonome, déclarant : « Même pour briser la position d'un écosystème monopolistique, un modèle de base autonome est absolument nécessaire. »









