Nvidia dévoile des plans d’agents IA de vision industrielle

2026-07-02 10:03

Favoris

fr.wedoany.com Rapport : Nvidia a publié un ensemble de nouveaux composants logiciels et de flux de travail réutilisables pour les agents IA de vision, visant à soutenir le développement, la simulation et le déploiement de modèles en environnement périphérique et cloud.

Cet ensemble d’outils, nommé compétences et plans Metropolis pour agents, comprend des flux de travail pour la génération de données synthétiques, l’augmentation de données vidéo, le réglage fin de modèles, ainsi que la recherche et le résumé vidéo. Les développeurs peuvent combiner ces flux de travail avec la plateforme Omniverse, basée sur OpenUSD pour la simulation et les jumeaux numériques, et la plateforme Metropolis pour la création et l’exécution d’applications vidéo IA.

Les agents IA de vision sont déployés dans les usines, les entrepôts, les réseaux de transport et les infrastructures urbaines, où les opérateurs souhaitent transformer les flux vidéo en alertes automatiques, rapports et surveillance des processus. Nvidia positionne ce nouveau logiciel comme une réponse à un problème courant de l’informatique périphérique : une grande quantité de données est générée à proximité des caméras et des capteurs, mais la majeure partie n’est jamais convertie en actions concrètes.

Nvidia identifie trois obstacles majeurs à la construction de tels systèmes : le manque de données d’entraînement représentatives, en particulier pour les défauts rares ou les événements anormaux ; le travail spécialisé nécessaire pour affiner les modèles après des écarts de performance ; et l’effort d’ingénierie requis pour intégrer les pipelines vidéo, les modèles, les métadonnées, la recherche, les alertes et l’intégration système dans des applications fonctionnelles.

Dans le secteur manufacturier, les données synthétiques aident à pallier le manque d’images de défauts réels. Nvidia mentionne le travail de Roboflow, qui intègre les compétences de génération d’images de défauts de Nvidia et le modèle de base Cosmos dans sa plateforme pour servir des clients, dont Corning. Selon Nvidia, un test de référence avec l’équipe d’ingénierie de fabrication de fibres optiques de Corning a montré qu’un modèle entraîné avec huit images de défauts réels combinées à des données synthétiques générées par la compétence de génération d’images de défauts atteignait une précision moyenne de 95 % et un rappel parfait pour la catégorie de défauts la plus difficile. Ce modèle a surpassé le modèle de base entraîné uniquement avec des données réelles et a réduit un projet initialement estimé à plusieurs trimestres à quelques jours. Cet exemple illustre la principale valeur commerciale des données synthétiques dans l’inspection industrielle. Les lignes de production capables de prévenir la plupart des défauts peuvent avoir du mal à collecter suffisamment d’exemples de défaillances pour former les systèmes d’inspection de nouvelle génération, ce qui rend les modèles faibles pour détecter des anomalies rares mais importantes.

Dans le domaine des opérations urbaines, Nvidia identifie un espace de marché pour les flux de travail vidéo interconnectés. Linker Vision utilise le plan de recherche et de résumé vidéo Metropolis de Nvidia pour déployer des agents d’inférence vidéo dans les infrastructures urbaines, tout en utilisant le jumeau numérique Omniverse basé sur OpenUSD pour simuler le trafic, la météo, les situations d’urgence et les changements d’infrastructure. Le système regroupe des tâches telles que la recherche, le résumé, les alertes, les rapports et la gestion des flux en flux de travail exécutables par les agents. Linker Vision utilise également Nvidia Cosmos pour l’augmentation des données vidéo et Nvidia TAO pour le réglage fin des modèles. À Kaohsiung, Nvidia indique que Linker Vision a réduit l’effort de développement de 85 % et diminué le temps de réponse aux incidents jusqu’à 80 % grâce au plan de recherche et de résumé vidéo. La société ajoute que la nouvelle extension AI-GRID du groupe inclut le plan NemoClaw pour l’IA agent de sécurité dans les environnements urbains et de transport.

Dans le domaine des opérations d’usine, un autre exemple provient de la surveillance des flux de travail industriels. Selon Nvidia, l’agent de vérification en temps réel des procédures opérationnelles standard de DeepHow, déployé chez Foxconn, utilise le plan de recherche et de résumé vidéo Metropolis pour rechercher, résumer et analyser des vidéos dans l’environnement opérationnel. L’objectif est d’évaluer si le travail est correctement exécuté, de comparer les actions aux procédures standard et d’identifier les problèmes avant qu’ils ne se propagent en aval. Nvidia affirme que Cosmos aide le système à interpréter les séquences d’actions humaines dans leur contexte, y compris à déterminer si les étapes d’assemblage sont effectuées dans le bon ordre. Selon Nvidia, sur la ligne de production du serveur Nvidia GB300, le système DeepHow a amélioré le taux de premier passage de 3 %, atteint une précision au niveau des tâches de 99 % dans la compréhension des étapes critiques des procédures, et réduit le travail redondant en identifiant les problèmes plus tôt dans le processus.

Le contexte de marché plus large de cette publication est le déplacement du traitement IA vers la périphérie, où les données sont générées plutôt que renvoyées vers une infrastructure centralisée. Nvidia cite les prévisions de Gartner selon lesquelles, d’ici 2028, plus des deux tiers des données gérées par les entreprises seront créées et traitées en dehors des centres de données ou du cloud, et d’ici 2029, plus des deux tiers des entreprises mondiales déploieront l’IA en périphérie, contre seulement 10 % en 2025. Cependant, davantage de données en périphérie ne génèrent pas automatiquement des informations plus utiles. Les modèles exécutés à proximité des caméras et des machines doivent fonctionner sous les contraintes de latence, de consommation d’énergie, de coût et de connectivité, tout en s’adaptant aux conditions de chaque site. OpenUSD est au cœur de la réponse de Nvidia, car il offre un moyen universel de décrire et de réutiliser des scènes 3D. La bibliothèque Omniverse aide les équipes à construire des flux de travail de simulation, de données synthétiques et de jumeaux numériques, permettant ainsi de tester dans une variété de conditions, notamment l’éclairage, la météo, les schémas de trafic, les angles de caméra, les obstructions et les événements rares.

Le nouvel ensemble comprend des compétences de génération d’images de défauts, des compétences d’augmentation de données vidéo, des compétences TAO pour le réglage fin des modèles, et des compétences de recherche et de résumé vidéo pour les alertes, les rapports et la gestion des flux. L’objectif est d’éviter aux développeurs de devoir reconstruire chaque partie des flux de travail à partir de zéro à chaque déploiement. Ces flux de travail réutilisables visent à aider les développeurs à générer des données, à améliorer les modèles et à déployer des agents IA de vision dans les secteurs industriel, des transports et des opérations urbaines.

Chine

États-Unis

Information et communication Ingénierie de l'intelligence artificielle

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com

Préc：Le premier Airbus A350 « Kunpeng » de Shenzhen Airlines officiellement mis en service

Suiv：La startup américaine de cybersécurité Dawnguard lève 3,3 millions de dollars et lance une plateforme d’architecture de sécurité cloud