fr.wedoany.com Rapport : Le domaine de la prédiction de la stabilité du repliement des protéines accueille une nouvelle ressource expérimentale à grande échelle. Le laboratoire Rocklin de l'Université Northwestern a publié l'ensemble de données de stabilité MGnify, contenant 1,8 million de mesures de stabilité de repliement pour divers domaines protéiques, couvrant plus de 200 000 familles de séquences.
Cet ensemble de données, généré par la technologie de protéolyse par présentation sur ADNc, est désormais accessible à la communauté scientifique et vise à favoriser le développement de meilleurs modèles de prédiction de la stabilité des protéines. L'équipe de recherche souligne que cet ensemble inclut à la fois des protéines stables et instables, fournissant ainsi des données négatives généralement absentes des ensembles de données biologiques publiques. Pour les modèles d'apprentissage automatique, ces cas d'échec constituent des signaux d'entraînement essentiels pour distinguer les frontières entre les séquences repliables et non repliables.
Les données montrent que cet ensemble s'appuie sur les travaux antérieurs du laboratoire Rocklin à l'échelle du million, en augmentant encore l'échelle et la diversité des domaines protéiques mesurés expérimentalement. La recherche a été co-dirigée par Gabriel Rocklin, professeur adjoint au département de pharmacologie et au Centre de biologie synthétique de la Feinberg School of Medicine de l'Université Northwestern (et chercheur principal d'OpenFold), et Sergey Ovchinnikov, professeur adjoint de biologie au MIT. Le co-chercheur principal Kotaro Tsuboyama (aujourd'hui maître de conférences à l'Institut des sciences industrielles de l'Université de Tokyo) a analysé expérimentalement 1,8 million de domaines protéiques diversifiés, principalement issus de la base de données métagénomique MGnify. Un autre co-chercheur principal, Yehlin Cho, a développé sur la base de ces données les modèles de prédiction SaProtΔG et ESM3ΔG, capables non seulement de prédire les effets des mutations, mais aussi de prédire avec précision la stabilité de la plupart des petits domaines protéiques.
Afin de valider la valeur applicative pratique de l'ensemble de données, les chercheurs ont évalué SaProtΔG et ESM3ΔG dans plusieurs scénarios. Ces modèles peuvent prédire les effets des substitutions, insertions et délétions d'acides aminés, retrouver les tendances de stabilité associées aux organismes thermophiles, et améliorer la capacité à distinguer les protéines stables des protéines instables issues de la conception computationnelle, allant même jusqu'à corréler avec leur température d'agrégation sans avoir été entraînés sur des données de nanocorps.
L'ensemble de données présente encore des possibilités d'amélioration. L'ensemble de données de stabilité MGnify ne couvre actuellement que les domaines d'une longueur de 60 à 80 acides aminés, avec une résolution expérimentale de stabilité d'environ 5 kcal/mol. Les auteurs estiment que davantage de données expérimentales et de nouvelles méthodes sont nécessaires pour améliorer les performances de prédiction pour les protéines plus grandes et hautement stables.
Le consortium OpenFold a partiellement financé ce travail. Ce consortium est une organisation de recherche en IA à but non lucratif, composée de partenaires universitaires et industriels, dont l'objectif est de développer des outils logiciels open source gratuits pour la biologie et la découverte de médicaments, fonctionnant comme un projet de l'Open Molecular Software Foundation. Woody Sherman, président du comité exécutif d'OpenFold et directeur de l'innovation chez PsiThera, a déclaré que des ensembles de données expérimentales vastes et soigneusement générés, incluant des données négatives, sont essentiels pour construire des modèles capables de comprendre les propriétés biophysiques liées au repliement des protéines, à la fonctionnalisation et à la découverte de médicaments.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com








