Des boîtes englobantes trapézoïdales d’une équipe indienne portent la précision de détection des casques à 97 % et celle des surcharges à 78 %
2026-06-15 14:50
Favoris

fr.wedoany.com Rapport : L’équipe de recherche de l’Institut international de technologie de l’information d’Hyderabad (IIIT-H) a découvert que les caméras de surveillance du trafic routier basées sur l’IA présentent des défauts systématiques dans la détection des motocyclistes, dont la cause réside dans la forme des boîtes englobantes utilisées pour identifier les cibles. Pour résoudre ce problème, l’équipe a proposé une boîte englobante trapézoïdale, augmentant la précision de détection des casques de 66,25 % à 97,08 % et celle des surcharges de 36,70 % à 78,34 %.

Les systèmes traditionnels de détection d’objets en vision par ordinateur reposent sur des boîtes englobantes rectangulaires, efficaces pour les véhicules classiques comme les voitures et les camions. Cependant, pour les motos, en particulier sous l’angle de vue plongeant courant des caméras de circulation, le contour combiné du motocycliste et de la moto présente une forme trapézoïdale, large en bas et étroite en haut. Avec une boîte rectangulaire, si elle est trop serrée, elle coupe le guidon ou la tête du motocycliste — zone clé pour juger du port du casque ; si elle est trop lâche, elle intègre facilement l’arrière-plan, ce qui amène le modèle à confondre les véhicules adjacents. Ce mode d’échec, appelé « fausse suppression non maximale », est particulièrement prononcé dans les scènes à forte densité de motos et à circulation chaotique.

Image de caméra de rue montrant des motocyclistes sur une route urbaine en Inde, avec des cadres de détection par vision par ordinateur surlignant en orange les zones des motocyclistes et des casques.

Dirigée par Aman Goyal, l’équipe de recherche comprend Dev Agarwal, Anbumani Subramanian, C.V. Jawahar, Ravi Kiran Sarvadevabhatla de l’IIIT-H, ainsi que Rohit Saluja de l’IIT Kharagpur et de l’IIT Mandi. L’étude, publiée lors de l’atelier CVPR 2022 sur la perception en environnements non contrôlés, introduit une nouvelle primitive géométrique appelée « boîte englobante d’instance de conduite trapézoïdale » pour remplacer la boîte rectangulaire. Ce trapèze, défini par quatre paramètres de décalage, permet à ses bords d’épouser le contour physique réel de la moto tel qu’observé sous l’angle de prise de vue. Cette innovation a obtenu un brevet américain (USPTO US 12,315,264, accordé en mai 2025), attribué au centre de recherche iHub-Data de l’IIIT Hyderabad.

Le système est entraîné à partir d’une version étendue de l’ensemble de données de conduite indien (IDD), annoté avec trois catégories : casque porté, casque non porté et boîte englobante d’instance de conduite trapézoïdale. Pour traiter le problème de l’occultation des passagers arrière, l’équipe a emprunté la technique du « régresseur amodal » issue de la recherche en détection de piétons, appliquée pour la première fois à une chaîne de traitement des motos. Ce régresseur génère des boîtes englobantes prédites complètes pour l’unité motocycliste-moto, permettant d’inférer de manière fiable le nombre de passagers même en cas d’occultation partielle. L’entraînement a également utilisé une méthode d’« apprentissage curriculaire », traitant d’abord les cas faciles puis les plus difficiles pour gérer le chevauchement des catégories.

Image de caméra arrière de rue montrant un motocycliste, avec des cadres de détection violets, jaunes, bleus et rouges superposés sur le motocycliste et la tête nue détectée par le système de vision par ordinateur.

La chaîne de traitement de l’équipe a été couverte par les médias de l’industrie et est actuellement développée dans le cadre du processus automatisé d’émission de contraventions pour la police urbaine indienne. Le programme indien des villes intelligentes comprend déjà plus de 100 villes dotées de centres intégrés de commandement et de contrôle (ICCC), sites candidats au déploiement de systèmes automatisés d’application des règles de circulation. Selon une analyse de la Banque mondiale, les accidents de la route coûtent chaque année entre 3 % et 7 % du PIB de l’Inde. En 2022, la Banque mondiale a spécifiquement engagé 250 millions de dollars pour les infrastructures de sécurité routière en Inde.

Schéma : un motocycliste superposé à un cadre de détection géométrique, avec les coins de la boîte englobante étiquetés O1, O2, O3, O4, les coordonnées centrales marquées (X,Y) et la mesure de largeur W, avec des lignes de bordure jaunes et violettes.

L’importance de cette recherche ne se limite pas à l’Inde. L’étude souligne que les systèmes de vision par ordinateur pour la gestion du trafic mondial sont principalement construits sur la base des routes et des schémas de circulation occidentaux, tandis que les modes de circulation à haute densité et mixtes sont plus courants dans les pays en développement du monde entier. Les travaux ultérieurs de l’équipe étendent le système des caméras fixes surélevées aux dashcams. Leur article de 2025 intitulé « DashCop » démontre la génération automatique de contraventions électroniques à partir de vidéos de dashcams, permettant une application des règles couvrant l’ensemble du réseau routier.

Image de caméra de rue : trois personnes partagent une moto, avec un cadre de détection cyan surlignant le trio, tous sans casque.

L’équipe de recherche estime que le goulot d’étranglement technique — rendre la détection suffisamment précise pour être digne de confiance — a été résolu pour la détection des infractions motocyclistes et les scènes à haute densité similaires. Ce qui reste à explorer est l’évolution des cadres juridiques et réglementaires entourant les preuves générées par l’IA.

Image de caméra arrière de rue : deux motocyclistes, avec un cadre orange entourant les deux, et un cadre rouge surlignant la tête nue du passager arrière, tandis que le conducteur porte un casque. Image de caméra de rue en faible luminosité montrant un trafic mixte lourd sur une route indienne au crépuscule, avec des cadres de détection rouges superposés sur les motocyclistes et leurs têtes. Image de caméra de rue : deux motocyclistes partagent une moto passant sous une passerelle piétonne, avec des cadres de détection orange et rouges surlignant les motocyclistes et leurs têtes non protégées.Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

Produits Associés