《自然》:AlphaFold和AI蛋白质折叠革命终局如何

2022-04-15 10:44:00 作者:澎湃新闻记者 邵文 来源:澎湃新闻 选稿:郑闻文

在过去的半年里,AlphaFold狂热席卷了生命科学领域。“我参加的每次会议,人们都在说‘为什么不使用AlphaFold?’。”伦敦大学学院的计算生物学家Christine Orengo说。

当地时间4月13日,《Nature》发文总结了自AlphaFold出现以来,在生命科学领域产生了哪些令人瞩目的成果,以及伴随着AlphaFold的发展,又给生命科学带来哪些新的可能性。最后,AlphaFold有何限制,其将去向何方?

以下为记者对《What's next for AlphaFold and the AI protein-folding revolution》原文的编译:

在某些情况下,人工智能节省了科学家的时间,甚至在一些情况下,它使以前不可想象或非常不切实际的研究成为可能。同时它也有局限性,一些科学家发现它的预测对他们的工作来说太不可靠了。但实验仍然如火如荼。

即使是开发AlphaFold的人也在努力跟上它在从药物发现和蛋白质设计到复杂生命起源等领域的使用。“我醒来后在Twitter上输入AlphaFold,”DeepMind的AlphaFold团队负责人John Jumper说,“看到一切都有相当神奇之感。”

“AlphaFold改变了游戏规则。”Baker说。“这就像一场地震。你可以在任何地方看到它,”以色列耶路撒冷希伯来大学的计算结构生物学家Ora Schueler-Furman说,他正在使用AlphaFold来模拟蛋白质相互作用。

AlphaFold在2020年12月引起了轰动,当时它主导了一场名为“蛋白质结构预测关键评估”(Critical Assessment of Protein Structure Prediction,CASP)的比赛。该竞赛每两年举行一次,旨在衡量生物学最大挑战之一的进展:仅从蛋白质的氨基酸序列中确定蛋白质的3D形状。计算机软件根据X射线晶体学或低温电子显微镜(cryo-EM)等实验方法,通过向蛋白质发射X射线或电子束以建立它们的图像形状。

AlphaFold的2020版是该软件的第二版。Jumper说,它还赢得了2018年的 CASP,但其早期的努力大多不足以代替实验确定的结构,而AlphaFold2的预测平均而言与经验结构已相当。

此前尚不清楚DeepMind何时会发布可广泛使用的软件,因此研究人员利用Jumper的公开演讲中的信息以及他们自己的见解,开发了自己的AI工具,称为RoseTTAFold。

此后在2021年7月15日,描述RoseTTAFold和AlphaFold2的论文出现了,还有免费提供的开源代码和专家运行他们自己工具版本所需的其他信息。一周后,DeepMind宣布它已经使用AlphaFold预测了人类制造的几乎所有蛋白质的结构,以及其他20种广泛研究的生物体的整个“蛋白质组”,例如小鼠和大肠杆菌数量超过36.5万的总结构。DeepMind还将这些信息公开发布到由EMBL的欧洲生物信息学研究所维护的数据库中(EMBL-EBI)。此后,该数据库已增长至近一百万个结构。

今年,DeepMind计划发布总计超过1亿个结构预测。这几乎是所有已知蛋白质的一半,是蛋白质数据库 (PDB)结构库中实验确定的蛋白质数量的数百倍。

AlphaFold部署了深度学习神经网络(一种受大脑神经线路启发的计算架构,可识别数据中的模式),它目前已经接受了蛋白质数据库和其他数据库中数十万个实验确定的蛋白质结构和序列的训练。当面对一个新序列时,它将首先在数据库中寻找相关序列,这些序列可以识别出倾向于一起进化的氨基酸,表明它们在3D空间中很接近。而现有相关蛋白质的结构可以提供另一种估计新序列中氨基酸对之间距离的方法。

AlphaFold在尝试对氨基酸的3D位置进行建模时来回迭代来自这些平行轨迹的线索,并不断更新其估计值。专家表示,该软件在机器学习研究中的新思想应用似乎是AlphaFold如此出色的原因——特别是,它使用一种称为“注意力”(attention)的人工智能机制来确定哪些氨基酸连接在任何时候对其任务最重要。

该网络对相关蛋白质序列信息的依赖意味着AlphaFold存在一些局限性。即它并非旨在预测突变(例如引起疾病的突变)对蛋白质形状的影响,它也没有被训练来确定在其他相互作用的蛋白质或药物等分子存在的情况下蛋白质如何改变形状。但它的模型附带的分数可以衡量网络对其预测蛋白质每个氨基酸单元的信心,研究人员正在调整AlphaFold的代码以扩展其功能。

据DeepMind称,到目前为止,已有超过40万人使用了EMBL-EBI的AlphaFold数据库。

用AlphaFold求解蛋白质结构

AlphaFold解析结构的能力已经给生物学家留下了深刻的印象。“根据我目前所见,我非常信任AlphaFold。”丹麦奥胡斯大学(Aarhus University)的结构生物学家Thomas Boesen说。该软件已成功预测了Boesen中心已确定但尚未发表的蛋白质形状,“这对我来说是一个很大的验证。”

Boesen和奥胡斯微生物生态学家Tina Šantl-Temkiv正在使用AlphaFold来模拟促进冰形成的细菌蛋白质结构——这可能有助于云中冰的冷却效应。

斯德哥尔摩大学的蛋白质生物信息学家Arne Elofsson说,只要一种蛋白质卷曲成一个明确定义的3D形状,而且不需要全部如此,AlphaFold的预测就很难被击败。“这是一种一键式解决方案,可能是你将获得的最佳模型。”

Elofsson说,在AlphaFold不太自信的地方,“它非常擅长告诉你什么时候它不起作用”。在这种情况下,预测的结构可能类似于浮动的意大利面条线(如下图)。这通常对应于缺乏确定形状的蛋白质区域,这种本质上无序的区域——约占人类蛋白质组的三分之一,可能只有在存在另一种分子(如信号伙伴)时才能得到很好的定义。

伦敦癌症研究所的计算生物学家Norman Davey表示,AlphaFold识别疾病的能力已经改变了他研究这些区域特性的工作,“我们的预测质量立即有了巨大的提高,而我们没有付出任何努力。”

AlphaFold转储到EMBL-EBI数据库中的蛋白质结构数据也立即投入使用。Orengo的团队正在搜索它以识别新的蛋白质种类(没有通过实验验证它们),并且已经发现了数百甚至数千个潜在的新蛋白质家族,扩大了科学家对蛋白质外观和功能的了解。

在另一项努力中,该团队正在搜索从海洋和废水中采集的DNA序列数据库,以尝试识别新的食用塑料酶。使用AlphaFold快速模拟近似的数千种蛋白质的结构,研究人员希望更好地了解酶如何进化以分解塑料,并有何潜在改进可能。

“对于进化研究来说,将任何蛋白质编码基因序列转化为可靠结构的能力是特别重要的。”哈佛大学的进化生物学家Sergey Ovchinnikov认为,研究人员通过比较基因序列以确定生物及其基因在物种间的相关性。但对于远缘相关的基因,比较可能无法找到进化亲属,因为序列发生了很大变化。那么通过比较蛋白质结构——其变化往往不如基因序列快——研究人员或许能够发现被忽视的古老关系。“这为研究蛋白质进化和生命起源提供了一个绝佳的机会。”苏黎世瑞士联邦理工学院的计算生物学家Pedro Beltrao表示。

为了验证这个想法,首尔国立大学的计算生物学家Martin Steinegger和他的同事领导的一个团队使用他们开发的“Foldseek”工具来寻找SARS-CoV-2的RNA复制酶的亲属(一种导致COVID-19的病毒)。在EMBL-EBI的AlphaFold数据库中,这项搜索发现了以前未知的可能远古亲属:真核生物中的蛋白质,包括粘菌,它们的3D结构类似于称为逆转录酶的酶。病毒如HIV使用逆转录酶将RNA复制到DNA中,尽管在遗传基因序列水平几乎没有相似性。

作为实验助理的AlphaFold

对于想要确定特定蛋白质的详细结构的科学家来说,用AlphaFold预测不一定是直接解决方案。比起这个,它能提供的是一个可以通过实验验证或改进的初始近似值,这本身有助于理解实验数据。例如,来自X射线晶体学的原始数据显示为衍射X射线的图案,科学家通常需要对蛋白质结构进行初步猜测才能解释这些模式。

“以前,他们经常将来自蛋白质数据库中相关蛋白质的信息拼凑起来或使用实验方法。”英国剑桥大学的结构生物学家Randy Read说,他的实验室专门研究其中一些方法。现在,AlphaFold的预测使得大多数X射线模式不需要这种方法。Read说,他的实验室正在努力在实验模型中更好地利用AlphaFold,“我们完全重新调整了研究重点。”

Read和其他研究人员已经使用AlphaFold从X射线数据中确定晶体结构,这些数据在没有足够的起始模型的情况下是无法解释的。“人们正在解决多年来一直没有解决的结构。”Read实验室的前博士后Claudia Millán Nebot说。她预计会看到大量新的蛋白质结构提交给蛋白质数据库,“这在很大程度上是因为AlphaFold”。

专门从事冷冻电镜研究(捕捉快速冷冻蛋白质的照片)的实验室也是如此。在某些情况下,AlphaFold的模型准确地预测了称为G蛋白偶联受体(GPCR)的蛋白质独特特征,这些蛋白质是重要的药物靶标。“它似乎非常适合生成第一个模型,然后我们用一些实验数据对其进行改进,”北卡罗来纳大学教堂山分校的结构生物学家和药理学家Bryan Roth说,“这为我们节省了一些时间。”

但AlphaFold并不总是那么准确,Roth补充说,在他的实验室已经解决但尚未发表的几十个GPCR结构中,“大约有一半的时间,AlphaFold结构相当好,而有一半的时间它们或多或少对我们的目的毫无用处。在某些情况下,AlphaFold以高置信度标记预测,但实验结构表明它是错误的。即使软件做对了,它也无法模拟蛋白质与药物或其他小分子(配体)结合时的外观,这会大大改变结构。”这样的警告让Roth想知道AlphaFold对药物发现有多大用处。

在药物发现工作中越来越普遍使用计算对接软件(computational-docking software)来筛选数十亿个小分子以找到一些可能与蛋白质结合的小分子(这表明它们可以制造有用的药物)。Roth现在正与加州大学旧金山分校的药物化学家Brian Shoichet合作,以了解AlphaFold的预测与通过实验确定的结构相比如何。

Shoichet说,他们正将工作限制在AlphaFold的预测与实验结构相吻合的蛋白质上。但即使在这些情况下,对接软件也会为实验结构和AlphaFold提供不同的药物命中率,这表明微小的差异可能很重要。“这并不意味着我们不会找到新的配体,我们只会找到不同的配体。”Shoichet说。他的团队现在正在合成使用AlphaFold结构鉴定的潜在药物,并在实验室中测试它们的活性。

AlphaFold可以帮助药物发现?学者:带着批判性的乐观

Shoichet说,制药公司和生物技术公司的研究人员对AlphaFold帮助药物发现的潜力感到兴奋。“批判性的乐观就是我的描述。”2021年11月,DeepMind推出了自己的衍生产品IsoMorphic Labs,旨在将AlphaFold和其他AI工具应用于药物发现,但该公司对其具体计划只字未提。

Karen Akinsanya领导着Schrödinger的治疗开发,Schrödinger是一家总部位于纽约市的药物发现公司,该公司也发布化学模拟软件。Akinsanya说,她和同事已经在虚拟屏幕和候选药物的化合物设计中成功地使用AlphaFold结构,包括G蛋白偶联受体(GPCR)。她发现,就像实验结构一样,需要额外的软件来获取氨基酸侧链或单个氢原子可能所在位置的详细信息。一旦完成,AlphaFold结构已被证明在某些情况下足以指导药物发现。

“很难说‘这是灵丹妙药’;因为它可以令人惊讶的为一个结构做得很好,但它显然不是非常适用于所有结构。”Akinsanya说。她和同事发现,AlphaFold的准确度预测并不能显示一个结构是否对以后的药物筛选有用。Akinsanya认为,AlphaFold结构永远不会完全取代药物发现中的实验性结构,但他们可能会通过补充实验方法来加速这一过程。

对AlphaFold感到好奇的药物开发商在1月份收到了好消息,当时DeepMind取消了对其用于商业应用的关键限制。当该公司在2021年7月发布AlphaFold的代码时,它规定运行AlphaFold神经网络所需的参数或权重。这是在数十万个蛋白质结构和序列上训练的最终结果,仅用于非商业用途。Akinsanya表示,这对行业中的一些人来说是一个瓶颈,当DeepMind改变策略时出现了一股“兴奋的浪潮”。(RoseTTAFold也有类似的限制,其开发人员之一Ovchinnikov说,但下一个版本将完全开源。)

人工智能工具不仅改变了科学家确定蛋白质外观的方式,一些研究人员正在使用它们来制造全新的蛋白质。“深度学习正在彻底改变我们小组中蛋白质设计的方式。”华盛顿大学的生物化学家、蛋白质设计和预测其结构领域的领导者David Baker说。Baker的团队与计算化学家Minkyung Baek一起领导了开发RoseTTAFold的工作。

Baker的团队让AlphaFold和RoseTTAFold能够产生新蛋白质“幻觉”。研究人员已经改变了人工智能代码,因此,给定氨基酸的随机序列,软件将对其进行优化,直到它们类似于神经网络识别为蛋白质的东西。

2021年12月,Baker和他的同事报告说,在细菌中表达了129种这些幻觉蛋白,并发现其中约五分之一折叠成类似于其预测形状的东西。“这确实是第一次证明你可以使用这些网络设计蛋白质。”Baker说。他的团队现在正在使用这种方法来设计做有用事情的蛋白质,例如催化特定的化学反应,方法是指定负责所需功能的氨基酸,并让AI“梦想”其余部分。

蛋白质“幻觉”的四个例子。在每种情况下,AlphaFold都会显示一个随机氨基酸序列,预测结构并更改序列,直到软件有把握地预测它将折叠成具有明确3D形状的蛋白质。颜色显示预测置信度(从红色表示非常低的置信度,通过黄色和浅蓝色到深蓝色表示非常高的置信度)。

蛋白质“幻觉”的四个例子。在每种情况下,AlphaFold都会显示一个随机氨基酸序列,预测结构并更改序列,直到软件有把握地预测它将折叠成具有明确3D形状的蛋白质。颜色显示预测置信度(从红色表示非常低的置信度,通过黄色和浅蓝色到深蓝色表示非常高的置信度)。

破解AlphaFold:其工作原理如何?

当DeepMind发布其AlphaFold代码后,Ovchinnikov想要更好地了解该工具的工作原理。几天之内,他和包括Steinegger在内的计算生物学同事建立了一个名为ColabFold的网站,允许任何人向AlphaFold或RoseTTAFold提交蛋白质序列并获得结构预测。Ovchinnikov设想他和其他科学家会使用ColabFold来尝试“破解”AlphaFold,例如,通过提供有关目标蛋白质序列进化亲属的虚假信息,Ovchinnikov希望他能够确定网络是如何学会如此出色地预测结构。

事实证明,大多数使用ColabFold的研究人员只是想获得蛋白质结构。也有其他人将其用作修改AlphaFold的输入以处理新应用程序的平台。“我没想到会有各种类型的黑客攻击。”Jumper说。

到目前为止,最流行的黑客攻击是在蛋白质复合物上使用该工具,该复合物由多个相互作用的(通常是相互交织的)肽链组成。就像核孔复合物一样,细胞中的许多蛋白质在与多个蛋白质亚基形成复合物时发挥作用。

AlphaFold旨在预测单个肽链的形状,其训练完全由此类蛋白质组成。但该网络似乎已经了解了一些关于复合物如何折叠在一起的知识。AlphaFold的代码发布几天后,东京大学的蛋白质生物信息学家Yoshitaka Moriwaki在推特上表示,如果将两个蛋白质序列与长连接序列缝合在一起,它可以准确预测它们之间的相互作用。Baek很快分享了另一个从开发RoseTTAFold中收集到的预测复合物的技巧。

ColabFold后来加入了预测复合物的能力。同时,在2021年10月,DeepMind发布了一个名为AlphaFold-Multimer 8的更新,与其前身不同,该更新专门针对蛋白质复合物进行训练。Jumper的团队将其应用于蛋白质数据库中的数千个复合物,发现它预测了大约70%的已知蛋白质间相互作用。

这些工具已经在帮助研究人员发现潜在的新蛋白质伙伴。Elofsson的团队使用AlphaFold预测了6.5万个人类蛋白质对的结构,根据实验数据这些蛋白质对被怀疑有相互作用。Baker领导的一个团队使用AlphaFold和RoseTTAFold来模拟酵母编码的几乎每对蛋白质之间的相互作用,识别出100多个以前未知的复合物。

Elofsson说,这只是起点,他们在预测某些蛋白质配对方面做得很好,特别是那些稳定的,但很难识别出更短暂的相互作用。“因为它看起来不错并不意味着它是正确的,”Elofsson说,“你需要一些实验数据来证明你是对的。”

Kosinski认为,核孔复合体的工作是预测和实验数据如何协同工作的一个很好的例子,“这并不是说我们将所有30种蛋白质都放入AlphaFold中,然后把结构拿出来。”为了将预测的蛋白质结构放在一起,研究小组使用了核孔复合物的3D图像,这些图像是使用一种称为低温电子断层扫描的冷冻电子显微镜拍摄的。在一个例子中,可以确定蛋白质接近度的实验在复合物的两个成分之间产生了令人惊讶的相互作用,AlphaFold的模型随后证实了这一点。

基因组网关:人类核孔复合体的两种视图显示它如何嵌入核膜 ​​

基因组网关:人类核孔复合体的两种视图显示它如何嵌入核膜​​

AlphaFold的限制:预测蛋白质新突变的后果

对于AlphaFold取得的所有进展,科学家们表示,重要的是要清楚它的局限性,特别是因为不专门预测蛋白质结构的研究人员也在使用它。

尝试将AlphaFold应用于破坏蛋白质自然结构的各种突变,包括与早期乳腺癌相关的突变,已被证实该软件无法预测蛋白质新突变的后果,因为没有进化相关的序列可供检查。

AlphaFold团队现在正在考虑如何设计神经网络来处理新的突变。Jumper预计这将需要网络更好地预测蛋白质如何从展开状态变为折叠状态。哥伦比亚大学计算生物学家Mohammed AlQuraishi说,这可能需要仅依靠它所学到的蛋白质物理学知识即可预测结构的软件。“我们感兴趣的是,在不使用进化信息的情况下从单个序列进行预测,”他说,“这是一个关键问题,但仍然悬而未决。”

AlphaFold还旨在预测单个结构。但是许多蛋白质具有多种构象,这对其功能可能很重要。“AlphaFold不能真正处理可以采用不同构象的不同结构的蛋白质。”Schueler-Furman说。预测是针对孤立结构的,而许多蛋白质与配体(如DNA和RNA)、脂肪分子和矿物质(如铁)一起发挥作用。“我们仍然缺少配体,我们缺少关于蛋白质的其他一切。”Elofsson说。

AlQuraishi认为,开发这些下一代神经网络将是一个巨大的挑战。AlphaFold依赖于数十年的研究,这些研究产生了网络可以学习的蛋白质实验结构。目前无法获得如此大量的数据来捕捉蛋白质动力学,或者蛋白质可以与之相互作用的数万亿个小分子的形状。Jumper补充说,蛋白质数据库包括蛋白质与其他分子相互作用时的结构,但这仅捕获了一小部分化学多样性。

研究人员认为,他们需要时间来确定如何最好地使用AlphaFold和相关的人工智能工具。AlQuraishi看到了电视发展早期的相似之处,当时一些节目由广播电台组成,只是阅读新闻,“我认为我们将找到我们尚未设想的结构的新应用。”

AlphaFold革命的终点在哪里,谁也说不准。“事情变化太快了,”Baker说,“即使是下一年,我们也将看到使用这些工具取得的重大突破。”EMBL-EBI的计算生物学家Janet Thornton认为,AlphaFold的最大影响之一可能只是说服生物学家对计算和理论方法的见解更加开放,“对我而言,革命就是思维方式的改变”。

AlphaFold革命激发了Kosinski的远大梦想,他认为受AlphaFold启发的工具不仅可用于对单个蛋白质和复合物进行建模,还可以对整个细胞器甚至细胞进行建模,直至单个蛋白质分子的水平,“这是我们未来几十年的梦想。”

}