GitHub publie un ensemble de données multilingues de dépôts, couvrant plus de 40 millions de dépôts

2026-06-16 09:37

Favoris

fr.wedoany.com Rapport : GitHub a publié le jeu de données multilingues de dépôts GitHub (GitHub Multilingual Repositories Dataset). Cet ensemble de métadonnées au niveau des dépôts vise à aider les chercheurs et les développeurs à découvrir les dépôts publics GitHub contenant du contenu en langues naturelles non anglaises. Lors de la construction de ce jeu de données, la répartition des différentes langues dans les fichiers README, les issues et les pull requests varie : le coréen est la langue non anglaise la plus fréquente dans les textes des issues, mais se classe seulement cinquième dans les README ; le portugais arrive en tête des README non anglais, concernant plus de trois millions de dépôts. Alors que l’IA joue un rôle de plus en plus important dans la création de logiciels par les développeurs, le contenu multilingue des développeurs est plus crucial que jamais. Ce jeu de données est désormais publié sur GitHub sous licence CC0-1.0, concrétisant l’engagement pris par GitHub en 2025 dans le cadre des engagements numériques européens de Microsoft (Microsoft's European Digital Commitments), à savoir rendre les données multilingues plus accessibles, y compris pour les développeurs d’IA open source.

Ce jeu de données n’est pas un dump du contenu des dépôts, mais un ensemble de métadonnées comprenant plus de 80 millions d’enregistrements classifiés, couvrant plus de 40 millions de dépôts. Pour chaque dépôt public, les éléments suivants sont fournis : la classification linguistique du README, de l’issue la plus commentée et de la pull request la plus commentée, en prenant les 150 premiers caractères comme échantillon d’entrée, avec exclusion des textes de moins de 20 caractères ; les résultats de classification pour chaque source textuelle proviennent de fastText, gcld3 et lingua-py, chaque résultat étant accompagné d’un score de confiance, et le jeu de données ne contient que les classifications avec une confiance supérieure à 0,5 ; les métadonnées du dépôt incluent l’horodatage de création, l’utilisation du disque, le nombre d’étoiles, le nombre de forks, le langage de programmation principal, la licence SPDX, le nombre d’issues et de pull requests, ainsi que la date de l’instantané. GitHub a délibérément choisi de ne pas fusionner les trois classifieurs en une seule étiquette, car ils diffèrent en termes de couverture et de calibration de la confiance, en particulier pour les langues peu dotées en ressources. En publiant les trois résultats de classification, les utilisateurs peuvent décider eux-mêmes du niveau de rigueur.

Ce jeu de données peut être utilisé pour découvrir des dépôts susceptibles de contenir de la documentation ou des collaborations de développeurs dans une langue spécifique, étudier comment les communautés de développeurs non anglophones utilisent les issues, les pull requests et les README, construire des ensembles d’évaluation pour les outils d’IA de codage, les générateurs de documentation ou les assistants de révision (ces outils devant bien fonctionner dans plusieurs langues), encourager les décideurs à utiliser des arguments basés sur des données sur la diversité multilingue des développeurs pour élargir la couverture linguistique, et mesurer la représentation des langues européennes et d’autres langues sous-représentées dans l’open source. La reconnaissance linguistique est difficile dans les dépôts de logiciels, car les textes y sont souvent très courts, pouvant contenir des badges, des modèles, des commandes d’installation, des extraits de code, des noms d’utilisateur ou du contenu multilingue, et un échantillon de 150 caractères peut ne pas représenter l’ensemble du dépôt. Par conséquent, ce jeu de données ne doit pas être considéré comme une référence de vérité terrain pour la reconnaissance linguistique, mais comme un outil de découverte transparent. Il ne doit pas non plus être utilisé pour déduire des attributs sensibles des propriétaires, contributeurs ou communautés de dépôts ; ces signaux sont des métadonnées au niveau du dépôt, et non des attributs au niveau individuel.

De nombreuses langues européennes restent sous-représentées dans les textes en ligne utilisés pour construire et évaluer les systèmes d’IA, ce qui peut faire que les outils d’IA fonctionnent bien pour certains développeurs, langues et communautés, tout en laissant d’autres groupes de côté. Les données ouvertes aident à réduire cet écart. Ce jeu de données a été construit parce que le contenu des développeurs diffère des textes web généraux : les README, les issues et les pull requests contiennent le langage de la collaboration logicielle, comme les instructions d’installation, les rapports de bugs, les demandes de fonctionnalités, les commentaires de révision et les normes communautaires. Ces contextes aident à construire des systèmes d’IA qui comprennent mieux la manière dont les développeurs travaillent réellement. En rendant les signaux de contenu multilingue des développeurs plus faciles à découvrir et à analyser, ce jeu de données offre aux chercheurs, aux développeurs open source et aux constructeurs de modèles des outils pour étudier la représentation linguistique dans le développement logiciel, aidant à identifier les lacunes, à soutenir de meilleures évaluations et à créer des outils d’IA plus inclusifs pour les développeurs en Europe et ailleurs.

GitHub discutera de ce jeu de données et de l’importance plus large des données ouvertes pour l’IA multilingue le 16 juin au Centre de dialogue sur l’innovation ouverte (Open Innovation Dialogue Hub) à Strasbourg. Cet événement, co-organisé par le Centre d’innovation ouverte de Microsoft (Microsoft Open Innovation Center), le Conseil de l’Europe (Council of Europe) et GitHub, réunira des décideurs politiques, des chercheurs, des institutions culturelles et des leaders de l’innovation ouverte pour explorer l’IA, la diversité linguistique, le patrimoine culturel et les données ouvertes.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com