结构生物学进入全新时代:两大预测算法联手登上《科学》

时间:2021-11-12 11:14:03   热度:37.1℃   作者:网络

2020年12月,谷歌旗下的DeepMind公司公布了一项轰动性的进展:他们的人工智能(AI)算法AlphaFold破解了存在近半个世纪的蛋白质折叠问题,根据氨基酸序列准确地预测出蛋白质的三维结构。

今年7月,这项研究的细节发表在《自然》杂志上。就在第二天,另一个名为 RoseTTAFold的AI算法遥相呼应,登上了另一本顶级期刊《科学》。这个由华盛顿大学的David Baker教授领衔、联合多家机构研发的工具利用不同于AlphaFold的策略,在10分钟内就能根据序列信息预测出蛋白质结构。

就在今天刚刚上线的一篇《科学》论文中,这两个当今最先进的蛋白质预测工具联手,预测出真核生物蛋白质复合体的三维结构。从单体到复合体,这项重要突破使得我们对于蛋白质结构的理解迈出了重要一步。

在生物体内,蛋白质单体之间的相互作用至关重要。蛋白质成对运作形成的复合体,是完成各项生命活动的重要基础。但对于多数蛋白质复合体的三维结构,人们至今仍缺乏了解,其主要障碍是大量蛋白质结构的不稳定性。而AlphaFold和RoseTTAFold这两套AI算法的横空出世,让科学家看见了取得突破的希望。

RoseTTAFold与AlphaFold都能根据产生蛋白质的基因序列准确预测蛋白质结构,但两者的策略有所不同。在AlphaFold采用的双轨神经网络的基础上,RoseTTAFold 增加了第三个轨道,使得它能够同时兼顾序列、氨基酸相互作用以及蛋白质三维结构等不同维度的信息。此外,在开发过程中,RoseTTAFold的团队也尝试了一个快速的双轨道模型,虽然这个双轨道模型的准确率不及三轨道模型和AlphaFold,运算速度却是AlphaFold的近百倍。

正是这两套工具不同的性质,使得研究团队有机会结合两者的优势,在全蛋白组的范围内筛选可能相互作用的蛋白质并预测其结构。双轨RoseTTAFold的速度更快,这使得它可以适应全蛋白质组的规模。此外,RoseTTAFold更加侧重于蛋白质序列中的共进化信息——在细胞中真正可以相互作用的蛋白质,应该是协同进化的。而AlphaFold更偏重于三维结构,因此适用于模拟两个蛋白质能否形成稳定的复合体。

▲最新研究预测出的蛋白质复合体三维结构(图片来源:丛倩教授/得克萨斯大学西南医学中心)

现任职于得克萨斯大学西南医学中心的丛倩教授介绍称,之前在Baker教授实验室做博士后时,她的研究方向正是用不同蛋白质之间的协同进化,来预测蛋白质组中可能相互作用的部分。但是之前的方法需要大量的序列,尽管在原核生物中可以达到优于大规模试验的准确性,却难以应用在已知序列较少的真核生物中。

在最新研究中,由Baker教授、丛倩教授领导的国际团队将这两个原先用于预测蛋白质单体结构的 AI 工具扩展,用来预测蛋白质复合体的结构,以及在蛋白质组的范围内预测可能在细胞内相互作用的蛋白质。这两种AI工具极大地提高了预测相互作用的蛋白质以及蛋白质复合体结构的准确性,在真核生物中,准确率达到80%~90%。

研究团队选取的研究对象是一类常见的真核模式生物——酵母菌。一方面,酵母菌的基因组较小、RNA剪接也较为少见,因此易于研究;另一方面,目前已有大量关于酵母菌中蛋白质相互作用的研究数据,这些数据可以作为“金标准”来检验预测结果的准确性。

随后,研究人员利用不同蛋白质残基之间的共进化,在酵母菌中大规模筛查了830万对蛋白质,他们从中发现了 1505种可能的蛋白质复合体。其中699个蛋白质复合体的三维结构已经在先前的实验中得到了解析,此次AI联合算法再次发现,也验证了算法的实用性。而预测结果中,剩余的806个三维结构同样令人激动:其中700个蛋白质复合体的三维结构是此前未知的,而另外106个更是从未被描述过的全新蛋白质复合体。

从这些首次预测出的三维结构中,进一步的研究已经找出了与一系列功能相关的蛋白质复合体,它们参与了DNA同源重组、DNA修复与转录翻译、染色体分离、蛋白质跨膜运输等重要生命活动。此外,研究团队还发现了一些功能已知与功能未知的蛋白质之间的相互作用,为未来的研究奠定了基础。

▲最新研究预测出的一系列与DNA转录翻译、修复相关的三维结构(图片来源:参考资料[1])

在从酵母菌体内取得了丰硕成果之后,研究团队的另一个目标,自然是将这套工具应用于人类蛋白。论文指出,该方法可以直接应用于人类蛋白质组更大规模的相互作用,但与此同时,也有一些障碍需要跨越:人类蛋白质对的数量远多于酵母菌,因此需要更漫长的运算时间;此外,人类蛋白质残基之间的共进化作用较弱,因此模型的准确性可能不及酵母菌实验。

注:原文有删减

参考资料:

[1] Ian R. Humphreys et al. Computed structures of core eukaryotic protein complexes. Science (2021). DOI: 10.1126/science.abm4805

[2] Deep-learning in protein-protein interactions identifies complexes that will advance our understanding of cellular processes. Retrieved Nov 11, 2021 from https://www.eurekalert.org/news-releases/934108

上一篇: 《科学》封面重磅!能活200年的长寿奥秘...

下一篇: 共为唇齿 关于逾千亿增长空间的药用辅料的...


 本站广告