科学家们正在使用人工智能来构想革命性的新蛋白质

来源:ScienceAI


6 月,韩国监管机构授权使用人类设计的新型蛋白质制成首个药物,即 COVID 疫苗。该疫苗基于研究人员近十年前通过劳动密集型试错过程创造的球形蛋白质「纳米颗粒」。

现在,由于人工智能(AI)的巨大进步,由西雅图华盛顿大学(UW)的生物化学家 David Baker 领导的一个团队在《科学》杂志上报告说,它可以在几秒钟而不是几个月内设计出这样的分子。

这些努力是科学巨变的一部分,因为诸如 DeepMind 的蛋白质结构预测软件 AlphaFold 等人工智能工具已被生命科学家所接受。7 月,DeepMind 透露,最新版本的 AlphaFold 已经预测了科学界已知的每种蛋白质的结构。最近几个月,人工智能工具出现了爆炸性增长——其中一些基于 AlphaFold——可以迅速构想出全新的蛋白质。此前,这是一项艰苦的追求,失败率很高。

「自 AlphaFold 以来,我们处理蛋白质设计的方式发生了转变。」西班牙赫罗纳大学的计算生物学家 Noelia Ferruz 说,「我们正在见证非常激动人心的时刻。」

大多数努力都集中在可以帮助制造原始蛋白质的工具上,这些蛋白质的形状不同于自然界中的任何东西,而没有过多地关注这些分子可以做什么。但研究人员——以及越来越多将人工智能应用于蛋白质设计的公司——希望设计出可以做有用事情的蛋白质,从清理有毒废物到治疗疾病。致力于实现这一目标的公司包括伦敦的 DeepMind 和加利福尼亚州门洛帕克的 Meta(原 Facebook)。

「这些方法已经非常强大了。他们会变得更强大。」Baker说,「问题是你要用他们解决什么问题。」

从头开始

Baker的实验室在过去的三年里一直在制造新的蛋白质。他的实验室于 1990 年代开始开发名为 Rosetta 的软件,该软件将流程分为多个步骤。最初,研究人员设想了一种新蛋白质的形状——通常是通过将其他蛋白质拼凑在一起——软件推断出与这种形状相对应的氨基酸序列。

但是这些「初稿」蛋白质在实验室制造时很少折叠成所需的形状,而是最终陷入了不同的确认中。因此需要另一个步骤来调整蛋白质序列,使其仅折叠成一个所需的结构。曾在 Baker 实验室工作的哈佛大学进化生物学家 Sergey Ovchinnikov 表示,这一步涉及模拟不同序列可能折叠的所有方式,计算成本很高。「你真的会让 10,000 台计算机运行数周来执行此操作。」

Ovchinnikov 说,通过调整 AlphaFold 和其他人工智能程序,这个耗时的步骤变得瞬间完成。在Baker团队开发的一种称为幻觉的方法中,研究人员将随机氨基酸序列输入到结构预测网络中。根据网络的预测,这会改变结构,使其变得更像蛋白质。在 2021 年的一篇论文中,Baker的团队在实验室中创造了 100 多种小的「幻觉」蛋白质,并发现了大约五分之一与预测形状相似的迹象。

AlphaFold 和 Baker 实验室开发的名为 RoseTTAFold 的类似工具经过训练,可以预测单个蛋白质链的结构。但研究人员很快发现,这样的网络也可以模拟多种相互作用蛋白质的组装。在此基础上,Baker和他的团队相信他们可以产生幻觉蛋白质,这些蛋白质会自组装成不同形状和大小的纳米粒子。这些将由单个蛋白质的多个副本组成,并且类似于 COVID-19 疫苗所基于的那些。


但是当他们指导微生物在实验室中进行创造时,150 种设计都没有奏效。「它们根本没有折叠:它们只是粘在试管底部。」Baker说。

大约在同一时间,实验室的另一位研究员、机器学习科学家 Justas Dauparas 正在开发一种深度学习工具来解决所谓的逆折叠问题——确定与给定蛋白质的整体形状相对应的蛋白质序列。Ovchinnikov 说,这个名为 ProteinMPNN 的网络可以充当使用 AlphaFold 和其他工具创建的设计蛋白质的「拼写检查」,方法是在保持分子整体形状的同时调整序列。

当 Baker 和他的团队将第二个网络应用于他们的幻觉蛋白质纳米粒子时,它在实验上制造了分子,取得了更大的成功。研究人员使用低温电子显微镜和其他实验技术确定了 30 种新蛋白质的结构,其中 27 种与 AI 主导的设计相匹配。该团队的创作包括具有复杂对称性的巨型环,不同于自然界中发现的任何东西。共同领导这项工作的生物物理学家 Lukas Milles 说,从理论上讲,该方法可用于设计与几乎任何对称形状相对应的纳米粒子。「看到这些网络能做什么令人兴奋。」

深度学习革命

斯德哥尔摩大学的计算生物学家 Arne Elofsson 表示,蛋白质 MPNN 等深度学习工具已经改变了蛋白质设计的游戏规则。「你画出你的蛋白质,按下一个按钮,你就会得到十分之一有效的东西。」正如 Baker 的团队在设计纳米粒子时所做的那样,通过组合多个神经网络来处理设计过程的不同部分,可以实现更高的成功率。「现在我们可以完全控制蛋白质的形状。」Ovchinnikov 说。

Baker 团队并不是唯一一家将 AI 应用于蛋白质设计的实验室。在 9 月发布到 bioRxiv 的一篇评论论文中,Ferruz 团队统计了近年来使用各种方法开发的 40 多种 AI 蛋白质设计工具。

包括 proteinMPNN 在内的许多工具都解决了逆折叠问题:它们指定了与特定结构相对应的序列,通常使用从图像识别工具中借鉴的方法。其他一些基于类似于语言神经网络(如 GPT-3)的架构,可生成类似人类的文本;但是,相反,这些工具能够产生新的蛋白质序列。「这些网络能够『说』蛋白质。」Ferruz 说,她们共同开发了一个这样的网络。

加州大学伯克利分校的机器学习研究员 Chloe Hsu 与 Meta 的研究人员一起开发了一个反向折叠网络,他说,有这么多可用的蛋白质设计工具,如何最好地比较它们并不总是很清楚。


许多团队评估他们的网络从结构中准确确定现有蛋白质序列的能力。但这并不适用于所有方法,科学家们表示,目前尚不清楚这个被称为回收率的指标如何适用于新型蛋白质的设计。Ferruz 希望看到一场蛋白质设计竞赛,类似于两年一次的蛋白质结构预测关键评估(CASP)实验,其中 AlphaFold 首次展示了其优于其他网络的优势。「这只是个梦。像 CASP 这样的东西真的会推动这个领域向前发展。」她说。

到湿实验室去

Baker 和他的同事们坚信,在实验室中制造一种新型蛋白质是对他们方法的最终测试。他们最初未能制造出幻觉的蛋白质组装体表明了这一点。「AlphaFold 认为它们是非常棒的蛋白质,但它们显然在湿实验室中不起作用。」Baker 实验室的生物物理学家 Basile Wicky 说,他与 Baker、Milles 和威斯康星大学生物化学家 Alexis Courbet 共同领导了这项工作。

但伊利诺伊州芝加哥丰田技术研究所的计算生物学家许锦波指出,并非所有为蛋白质设计开发 AI 工具的科学家都能轻松获得实验装置。寻找合作实验室需要时间,因此许锦波正在建立自己的湿实验室,以测试他的团队的创造。

Baker 说,在设计具有特定任务的蛋白质时,实验也很重要。7 月,他的团队描述了两种人工智能方法,使研究人员能够将特定序列或结构嵌入到一种新型蛋白质中。他们使用这些方法来设计催化特定反应的酶;能够与其他分子结合的蛋白质;以及一种可用于疫苗中的蛋白质,这种病毒是婴儿住院的主要原因。

去年,DeepMind 在伦敦成立了一家名为 Isomorphic Labs 的衍生公司,打算将 AlphaFold 等人工智能工具应用于药物发现。DeepMind 的首席执行官 Demis Hassabis 表示,他认为蛋白质设计是深度学习技术,尤其是 AlphaFold 的明显且有前途的应用。「我们在蛋白质设计领域做了很多工作。现在才刚开始。」

相关报道:https://www.nature.com/articles/d41586-022-02947-7

最新文章