fr.wedoany.com Rapport : Des scientifiques de l’Institut AIRI ont développé un modèle de réseau neuronal nommé Genatator, capable de construire une carte génétique à partir d’une séquence d’ADN et d’annoter des génomes dépourvus de données biologiques détaillées. En recevant une séquence d’ADN, le modèle peut déterminer les limites des gènes, identifier les types de transcrits et reconstruire leur structure, en distinguant les gènes, les exons, les introns et d’autres régions.

Il est très difficile de trouver des gènes dans l’ADN, car ils ne possèdent pas de signaux universels de début et de fin ; leurs limites dépendent de la combinaison de courts motifs, dont la signification est déterminée par le contexte. Les gènes peuvent se chevaucher et se situer sur des brins différents de l’ADN.
Le modèle de réseau neuronal Genatator fonctionne par étapes. Le modèle recherche d’abord les sites possibles d’initiation et de terminaison de la transcription sur les deux brins d’ADN, puis un autre modèle vérifie si la région ressemble à un gène. Après que le classifieur a déterminé le type de transcrit, le modèle de segmentation affine la structure du gène et identifie les exons et les introns. Enfin, l’algorithme élimine les prédictions douteuses et produit l’annotation finale.
Cette méthode diffère des outils traditionnels en ce que le modèle ne repose pas uniquement sur des règles prédéfinies. Les outils traditionnels utilisent les caractéristiques des gènes codant pour des protéines, comme les codons d’initiation, les codons de terminaison et les signaux d’épissage, mais ils sont moins performants pour les régions non traduites et les longs ARN non codants. Le nouveau modèle, entraîné sur de grands ensembles de données génomiques, recherche directement des motifs dans l’ADN.
Cette approche est particulièrement importante pour les organismes non modèles. L’homme et la souris, après des décennies de recherche, disposent d’annotations détaillées, mais la plupart des organismes ne possèdent que des assemblages génomiques non annotés. L’analyse montre que, parmi les 4 582 assemblages génomiques de mammifères dans la base de données NCBI, seuls 166 sont annotés, ce qui rend les génomes non annotés difficiles à utiliser pour la recherche.
Le système est capable d’identifier deux types de gènes : les gènes codant pour des protéines et les gènes d’ARN longs non codants. Pour ces deux types, le système détermine les exons et les introns ; pour les gènes codant pour des protéines, il annote en outre la région CDS ainsi que les régions 5’-UTR et 3’-UTR.
Genatator a été entraîné sur des gènes humains et de 38 mammifères, dont le morse et l’éléphant. Le modèle fonctionne également bien sur d’autres organismes n’ayant pas participé à l’entraînement, notamment la drosophile Drosophila melanogaster, l’arabette Arabidopsis thaliana et la levure de boulanger Saccharomyces cerevisiae.
Le modèle a également découvert certaines régions rares appelées « exons toxiques », dont l’inclusion peut entraîner la dégradation de l’ARN. Même dans les annotations de haute qualité, ces éléments apparaissent rarement. Les développeurs accordent une attention particulière à la précision des limites des gènes, car une erreur d’un seul nucléotide peut entraîner un décalage du cadre de lecture et fausser la prédiction des protéines.
Veniamin Fishman, docteur en biologie, chercheur principal à l’Institut AIRI et à l’Institut de cytologie et de génétique de la branche sibérienne de l’Académie des sciences de Russie (ИЦиГ СО РАН), souligne que la vitesse d’assemblage des nouveaux génomes dépasse celle de leur annotation, et que de tels modèles peuvent constituer la première étape de l’analyse, permettant d’obtenir plus rapidement une carte des gènes candidats à vérifier.
Pour évaluer la qualité, l’équipe a créé un classement public comparant le modèle à d’autres approches. Sur plusieurs indicateurs, ce modèle a obtenu les meilleurs résultats. L’ensemble de données d’entraînement a été préparé par des scientifiques de l’Université des sciences et technologies « Sirius » (Научно-технологический университет «Сириус») et de l’Institut de cytologie et de génétique de la branche sibérienne de l’Académie des sciences de Russie (ИЦиГ СО РАН).










