Nature | Alphafold 3.0:AI 蛋白质预测器的升级

Nature | Alphafold 3.0:AI 蛋白质预测器的升级
2024年05月09日 17:39 世界生命科学大会

自强大的人工智能(AI)工具蛋白质预测结构模型AlphaFold2于2020年发布以来,科学家们已经广泛使用这一工具预测了各种蛋白质结构、发现了药物以及绘制了多种已知蛋白质。

AlphaFold 2 的推出,在蛋白质结构及其相互作用建模方面引发了一场革命,有力推动了生命科学的发展。中国科学院院士施一公曾对媒体说:“依我之见,这是人工智能(AI)对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一,是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”

2024年5月8日,Alphabet旗下 AI 药物发现公司Isomorphic Labs与Google旗下DeepMind共同宣布推出新一代AI生物分子结构模型AlphaFold 3。AlphaFold 3 的开发建立在AlphaFold 2 的基础之上,将预测范围从蛋白质带到广泛的生物分子。(图1)

其相关研究论文《Accurate structure prediction of biomolecular interactions with AlphaFold 3》同步发表在顶刊《Nature》上。该文描述了 AlphaFold 3 (AF3)模型,该模型具有大幅更新的基于扩散的架构,该架构能够预测复合物的联合结构,包括蛋白质、核酸、小分子、离子和修饰残基

与以前的许多专业工具相比,新的 AlphaFold 模型显示出显着提高的准确性:蛋白质-配体相互作用的准确性远高于最先进的对接工具,蛋白质-核酸相互作用的准确性远高于核酸特异性预测因子,抗体-抗原预测精度明显高于 AlphaFold-Multimer v2.3。总之,这些结果表明,在单个统一的深度学习框架中,跨生物分子空间的高精度建模是可能的。(图2)

一、架构更新与训练

AF3的整体结构与AlphaFold 2相呼应,但每个主要组件存在较大的差异。(图3)

架构更新带来的优势在于:

①升级版Evoformer模块:这一深度学习架构是AlphaFold 2高性能的关键,而AlphaFold 3对其进行了优化改进。

②全新Diffusion Network:类似于AI图像生成器中的扩散网络,它从"原子云"开始,通过多轮迭代细化,最终聚焦于精确的分子结构。

③简化的Pairformer和Diffusion模块:相比AlphaFold 2使用的复杂方法,AlphaFold 3引入这两个新组件来简化流程,从而更高效、准确地预测蛋白质及其他类型分子。

二、复杂结构的预测精度

AF3可以预测输入聚合物的序列、残基修饰和配体的结构。

研究人员在PoseBusters基准集上评估了蛋白质-配体界面的性能,准确性报告为口袋与配体的RMSD小于2 Å。其预测的准确性优于对接工具Vina和Gold。图示为AlphaFold 3能够预测187种含有数千个残基的蛋白质核结构(图4)。

还评估了AF3在10个公开可用的CASP15RNA靶点上的性能:在195个预测的共同子集上,AF3的平均性能高于RoseTTAFold2NA和AIchemy_RNA27。但没有达到最佳人类专家辅助CASP15提交AIchemy_RNA241的性能。图示为7R6R - DNA结合蛋白:AlphaFold 3预测的分子复合物中具有与DNA双螺旋(粉红色)结合的蛋白质(蓝色),与通过艰苦实验发现的真实分子结构(灰色)近乎完美匹配。(图5)

共价修饰(结合配体、糖基化、修饰的蛋白残基和202个核酸碱基)也可以通过AF3准确预测,包括对任何聚合物残基(蛋白质、RNA或DNA)的修饰。其准确率可能因共价修饰的类型不同而有所不同。

AF3也提高了蛋白质复合物的准确性,特别是抗体- 蛋白相互作用预测有了显著提高,蛋白单体LDDT的改善也很显著。AF3对MSA深度的依赖性与af - m2.3非常相似,对于具有较浅MSA的蛋白质的预测精度较低。

三、预测可信区间的跟踪校准

与AlphaFold 2一样,AlphaFold 3的可信区间也经过精确校准。置信度分析在最近的PDB评估集上进行的,所有统计数据都是聚类加权,并且只考虑排名靠前的预测。

四、应用局限性

研究人员注意到AlphaFold 3在立体化学、幻觉、动力学和某些目标的准确性方面存在模型局限性

立体化学上,有两类主要的失误。

一个是模型输出并不总是尊重手性,即使采取了一定的解决措施,仍然在基准中观察到4.4%的手性违反率。(图6)

另一个是模型在预测中偶尔产生重叠(“碰撞”)原子的趋势,且失误无法完全消除。(图7)

此外,由于从AlphaFold 2模型转换到基于扩散的AlphaFold 3模型,模型容易在无序区域产生虚假结构(幻觉)。(图8)

再者,蛋白质结构预测模型的一个关键限制是,它们通常预测PDB中的静态结构,而不是溶液中生物分子系统的动态行为。这种限制在AlphaFold 3中仍然存在,模型无法准确预测生物分子系统在溶液中的动态行为,并且在某些情况下,模型建模的构象状态可能不正确或不全面。

最后,尽管AlphaFold 3模型在建模准确性方面取得了巨大进步,但仍然在一些目标的准确建模上具有挑战性,可能需要生成大量的预测并对其进行排名。

分子生物学的核心问题是理解并最终调节生物系统中复杂的原子相互作用。AlphaFold 3模型在这个方向上迈出了一大步,它证明了在一个统一的框架中准确预测大范围生物分子系统的结构是可能的,而无需在蛋白质结构预测和配体对接之间进行人工分离。

AlphaFold 3模型还证明,缺乏跨实体进化信息并不是预测这些相互作用进展的实质性障碍,而且抗体结果的实质性改进表明,alphafold衍生的方法能够在不依赖于MSAs的情况下模拟分子的化学和物理相互作用

研究人员表示,结构建模将继续改进,不仅是因为深度学习的进步,而且还因为实验结构确定方法的持续进步,实验和计算方法的并行发展有望推动我们进一步进入一个结构知情的生物学理解和治疗发展的时代。

DOI:https://doi.org/10.1038/s41586-024-07487-w

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部