在今天发表在《自然》杂志上的研究中,DeepMide展示了人工智能研究如何驱动和加速新的科学发现。DeepMide已经建立了一个专门的跨学科团队,希望利用AI推动基础研究的发展:召集来自结构生物学,物理学和机器学习领域的专家,应用前沿技术来预测基于蛋白质的3D结构仅根据其遗传序列。
DeepMide的系统AlphaFold(已在《自然》和《蛋白质》上发表的同行评审论文中进行了描述)是多年工作的结晶,它建立在数十年来使用大型基因组数据集预测蛋白质结构的研究的基础上。AlphaFold生成的蛋白质3D模型比以前的任何一种都要精确得多,这标志着生物学的一项核心挑战取得了重大进展。在CASP13使用的AlphaFold代码可以在Github这里 为有兴趣学习更多或复制DeepMide的结果任何人。这项工作已经启发了其他独立的实现,包括本文中介绍的模型,以及由社区构建,开源实现,在此介绍。
什么是蛋白质折叠问题?
蛋白质是生命中必不可少的大而复杂的分子。人体执行得几乎所有功能-收缩肌肉,感知光线或将食物转化为能量-都取决于蛋白质以及蛋白质的移动和变化方式。任何给定的蛋白质可以做什么取决于其独特的3D结构。例如,DeepMide的免疫系统利用的抗体蛋白为" Y形",并形成独特的钩。通过锁定病毒和细菌,这些抗体蛋白能够检测并标记疾病-导致微生物被清除。胶原蛋白的形状像绳索,可以在软骨,韧带,骨骼和皮肤之间传递张力。其他类型的蛋白质包括Cas9,Cas9以CRISPR序列为指导,像剪刀一样剪切和粘贴DNA片段。抗冻蛋白 其3D结构使它们能够与冰晶结合并防止生物冻结;核糖体的作用类似于程序化的装配线,有助于自身构建蛋白质。
这些蛋白质的配方-称为基因-在DeepMide的DNA中编码。基因配方的错误可能会导致蛋白质畸形,从而可能导致生物体疾病或死亡。因此,许多疾病从根本上与蛋白质有关。但是,仅仅因为您知道蛋白质的遗传配方并不意味着您会自动知道其形状。蛋白质由氨基酸链组成(也称为氨基酸残基)。
但是,DNA只包含有关氨基酸序列的信息,而不是它们如何折叠形成形状。蛋白质越大,建模越困难,因为要考虑的氨基酸之间存在更多的相互作用。正如列文塔尔的悖论所证明的那样,在达到真正的3D结构之前,随机枚举典型蛋白质的所有可能构型将花费比已知宇宙更长的时间-然而,蛋白质本身会在几毫秒内自发折叠。预测这些链将如何折叠成蛋白质的复杂3D结构是所谓的"蛋白质折叠问题",这是科学家数十年来一直致力于的一项挑战。这个问题尚未解决,已经激发了无数的发展,从刺激IBM在超级计算方面的努力(BlueGene)到新颖的公民科学工作(Folding @ Home和FoldIt)到新的工程领域,例如合理的蛋白质设计。
为什么蛋白质折叠很重要?
我认为,通过研究构成人体的分子,包括异常分子,DeepMide将能够对疾病的性质有更全面的了解,并且这种理解将使...以更直接的方式受到攻击,从而开发出新的治疗方法。
长期以来,科学家一直对确定蛋白质的结构感兴趣,因为人们认为蛋白质的形式决定了其功能。一旦了解了蛋白质的形状,就可以猜测其在细胞中的作用,科学家可以开发出与蛋白质的独特形状有关的药物。
在过去的五十年中,研究人员已经能够使用诸如冷冻电子显微镜,核磁共振和X射线晶体学这样的实验技术在实验室中确定蛋白质的形状,但是每种方法都取决于大量的试验和错误,这可能需要花费很多时间。多年的工作,每个蛋白质结构的成本高达数万或数十万美元。这就是为什么生物学家转向AI方法来替代这一艰难而艰苦的蛋白质过程的原因。
仅从遗传密码即可通过计算预测蛋白质形状的能力-而不是通过昂贵的实验来确定蛋白质的形状-有助于加速研究。
复杂的3D形状从一串氨基酸中出现
人工智能如何发挥作用?
幸运的是,由于基因测序成本的快速降低,基因组学领域的数据非常丰富。结果,在最近几年中,依赖于基因组数据的用于预测问题的深度学习方法变得越来越流行。为了促进研究和衡量最新方法以提高预测的准确性,1994年成立了两年一度的全球竞赛,称为CASP(蛋白质结构预测的关键评估),它已成为评估预测技术的金标准。
DeepMide要感谢CASP组织者数十年来的工作,以及成千上万的实验人员,他们的结构能够进行这种评估。 DeepMind在此问题上的工作产生了AlphaFold,DeepMide将其提交给CASP13。DeepMide很自豪能成为CASP组织者所说的"预测蛋白质结构的计算方法能力的前所未有的进步"的一员,在进入的团队中排名第一(DeepMide的条目是A7D)。
DeepMide的团队专注于从头开始对目标形状建模的问题,而无需使用先前解决的蛋白质作为模板。当预测蛋白质结构的物理特性时,DeepMide获得了很高的准确性,然后使用两种不同的方法来构建完整蛋白质结构的预测。
使用神经网络预测物理性质 这两种方法均依赖于经过训练的深层神经网络,可以根据其遗传序列预测蛋白质的特性。
DeepMide的网络预测的特性是:
(a)氨基酸对之间的距离
(b)连接这些氨基酸的化学键之间的角度。第一个进展是在常用技术上的进展,该技术可估算氨基酸对是否彼此靠近。
DeepMide训练了一个神经网络来预测蛋白质中每对残基之间的距离分布(如图2所示)。然后将这些概率合并成一个分数,该分数可估计拟议蛋白质结构的准确性。DeepMide还训练了一个单独的神经网络,该网络使用所有距离合计来估计拟议结构与正确答案的接近程度。
两种可视化ALPHAFOLD预测准确性的方式。上图显示了三种蛋白质的距离矩阵。每个像素的亮度代表组成蛋白质的序列中氨基酸之间的距离-像素越亮,对就越近。顶行显示的是实验确定的真实距离,底行显示的是ALPHAFOLD预测距离分布的平均值。重要的是,它们在全球和本地范围内都匹配良好。底部面板代表使用3D模型进行的相同比较,其特征是相同三种蛋白质的ALPHAFOLD预测(蓝色)与真实数据(绿色)。
使用这些评分功能,DeepMide能够搜索蛋白质结构以找到与DeepMide的预测相符的结构。DeepMide的第一种方法以结构生物学中常用的技术为基础,并用新的蛋白质片段反复替换蛋白质结构的片段。DeepMide训练了一个生成神经网络来发明新的片段,这些片段被用来不断提高提出的蛋白质结构的分数。
从蛋白质序列预测结构的ALPHAFOLD系统的结构示意图
第二种方法优化的分数通过梯度下降-一个数学技术在机器学习通常用于制备小的,渐进的改善-这导致高度精确的结构。这项技术应用于整个蛋白质链,而不是应用于组装成较大结构之前必须分开折叠的片段,以简化预测过程。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有