快捷搜索:

CASP 15 冠军大论道:AlphaFold2「扫荡群雄」之后结

CASP15冠军大论道:AlphaFold2「扫荡群雄」之后结构预测还有路可走吗?(下篇)

  内部网站asp源码在哪里看到在蛋白质 - 小分子复合体预测方面, 药物设计和酶设计 等领域的项目未来是否加速落地? 当下火热的 AIGC 技术,能为 AI 生命科学领域带来多少可能?

  在 CASP 比赛创建者 John Moult 教授看来,这一比赛从来不是闭门造车,或是学术界的圈地自嗨。

  2018 年,在第 13 届 CASP 比赛中,一个顶着谷歌子公司帽子的参赛选手亮相,其 AlphaFold 系统以最高的预测准确率击败其他参赛队伍。

  2020 年,在第 14 届 CASP 比赛中,这一公司再次卷入竞技场,凭借 AlphaFold 二代系统以绝对的优势大获全胜,并在次年将技术成果全部发表于《Nature》和《Science》等顶级期刊。

  从那以后,人们首次将 人工智能 和 蛋白质结构预测 两个毫不相关的领域联系在一起。而 DeepMind 背后的谷歌,也凭借 CASP 大赛织造了一张梦寐以求的医疗商业蓝图。

  从业内人士的角度,这或许是意料之中。正如 John Moult 教授创立 CASP 比赛的初心,便是希望以此推动计算生物学研究,加速理解细胞构建原理和推进药物发现,最终惠及全人类。

  不久前,CASP 15 落下帷幕,尽管本届比赛中未见 DeepMind 身影,但诸多华人团队参赛热情高涨,在蛋白质单体 / 多体结构预测、蛋白质 - 蛋白质复合体结构预测、RNA 结构预测、蛋白质 - 小分子配体复合物结构预测等多赛道上夺得桂冠。

  不少参赛选手直言, 这是‘后 AlphaFold2 时代’的首届大型同台竞技,所有选手都获得了业内前所未有的关注。

  本届首次新增蛋白质 - 小分子复合体预测和 RNA 结构预测两大赛道,是否意味着蛋白质结构预测不再稳占 C 位 ?

  近日,由雷峰网 GAIR Live&《医健 AI 掘金志》举办的《生物计算 奥赛 冠军团队论道:当生命科学遇上史诗级 AI,何去何从?》线上圆桌论坛落幕。

  本次论坛邀请了多位在 CASP 15 中取得出色成绩的参赛者,由上海智峪生科 CEO 王晟担任主持,江苏理工学院生物信息与医药工程研究所教授常珊、密歇根大学计算医学和生物信息学系博士后研究员郑伟、浙江工业大学信息工程学院教授张贵军、上海智峪生科技 CTO 熊鹏参与讨论。

  在上篇中,几位嘉宾共同分享了在 CASP 15 中的参赛经历,以及在 AlphaFold2 冲击下,蛋白质结构预测赛道该何去何从。

  在下篇中,将聚焦本届两大新增赛道:蛋白质 - 小分子复合体预测和 RNA 结构预测在应用层面的潜力,探讨当下火热的 AIGC 技术在 AI 生命科学领域的可能性。

  全球人工智能与机器人大会 (GAIR)始于 2016 年雷峰网与中国计算机学会(CCF)合作创立的 CCF-GAIR 大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网 连接三界 的全新定位也在此大会上得以确立。

  经过几年发展,GAIR 大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

  GAIR Live 作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

  王晟:在蛋白质 - 小分子复合体预测方面, 药物设计和酶设计 等领域的项目未来是否加速落地?

  常珊:其实不完全是蛋白质和小分子,刚刚我们探讨的有两个 target,受体是 RNA。当然我们做算法开发时,会偏向以蛋白质作为受体的蛋白质 - 小分子的相互作用预测。

  但在去年江苏生物信息学专委会上,有学者对靶向 RNA 的配体小分子设计,以及相应的药物筛选表现出兴趣,给我们很大启发。因此,当 CASP15 上有这样的题目时,我们就有很大的动力去研究靶向其他受体的小分子算法开发。

  而且郑伟博士说得很有道理,如果先靶向 RNA,是不是比靶向后续它表达出来蛋白质更有效一些?这也是一个很好的思路。所以我觉得这一块的确值得我们去深入研究相应的算法。我感觉这样的一些工具,相对于蛋白和小分子的预测的工具来说,应该更少一些。印象中,我师兄华中科技大学黄胜友教授团队做了一个类似程序。

  在本次 CASP15 的蛋白质 - 小分子的赛道设置上,组委会出了大概 20 多个题目,非常多,但有些场景我感觉跟药物设计不是特别匹配。

  比如其中一个题目是, 有一个受体,这个受体有很多结合的小分子,有 56 个配体, 请预测所有小分子的结合位置。 一般的药物开发体系很少需要预测这么多配体分子。

  因为我们平时和制药公司合作比较多,经常合作做一些药物方面的设计和开发,制药公司并不关心你能找出多少小分子,它们真正关心的是,不管你是自己生成,还是从数据库里筛选,只要能够找出一个抑制蛋白质的最合适的小分子就可以。

  不过有人在 CASP15 交流会上透露,可能下一届就会有小分子的筛选问题 -- 从众多小分子中筛选出最合适的配体。这也是目前制药公司都很关心的问题,因此我们现在还要继续完善方法,从而更针对于制药过程中的关键问题。

  值得一提的是,自从我们在 CASP15 比赛上获得了蛋白质 - 小分子赛道第一名后,能明显感觉到合作企业和科研机构变多了。另外我们也和江苏本地的普美瑞生物科技公司合作开发了一些抑制剂,或 PROTAC(Proteolysis-Targeting Chimeras,即蛋白水解靶向嵌合体)分子。目前一些实验结果都非常出乎意料,刚刚筛选出来的配体降解能力就达到了皮摩尔(pM)级的水平,这意味着不需要进行多轮优化就可以去做后续实验。

  王晟:常老师说得非常对,CASP 比赛中有一个 pose ( 构象 ) 的问题。简单来说,就是给你一个蛋白质,一个小分子,要把它建模到正确的口袋里面且形成合理的相互作用,查看和 标准答案 复合物之间是不是足够得近。

  刚才说的 ranking 问题,其实包括两层含义,一是构象预测 / 排序问题 - 找出最好构象的过程需要产生很多构象然后排序打分 - 即 CASP15 关系的复合体结构问题,二是不同分子的排序 - 即 screening 问题。在 CASP 蛋白质预测中,分成了 3D 预测和 QA 预测,小分子结构预测中我个人理解上将二者融合起来一切称为 1- 构象预测 / 排序问题。

  而制药公司也很关心的是 screening 问题。就是在众多的小分子中,比如从几千个,几万个,甚至几百万个,几亿个小分子中,筛选出一个或者几个抑制蛋白质活性的小分子。

  实际上,我认为这几个问题的底层逻辑是相通的。如果我们能够把 Pose 问题或者 docking、结合位置都做得准确,构象 RMSD 做到很小,同时能量也计算正确,那么对工业界关心的 screening 问题,也一定会有很好的推动作用的。张贵军老师对于蛋白 - 小分子,或者叫做大分子和小分子的对接,复合物建模应用有哪些看法?

  张贵军:我们课题组主要做蛋白结构预测的研究,复合物方面研究工作刚刚开始,这也是今后需要努力的一个方向。

  实际上,无论是大分子,还是小分子,和靶标蛋白来形成相互作用,最终形成一个复合物,其中一个有效的方法是通过开发打分函数,评估小分子或大分子在口袋里面的舒适度。此外,还有一种比较可靠的方式,即搜索模板,并基于模板信息做比对建模。

  小分子这块我不太了解,但是从大分子 - 大分子相互作用的结果来看,我们可能需要一种新方式。因为它本来就是一体,如果单独对它建模,再进行刚性、柔性对接,这一定不符合实际的生命过程。所以 fold 和 dock 的过程应用同步进行。最近我看到有 Arne Elofsson 课题组的一个工作就是按照上述思想开展工作,精度提升非常高,受此启发,我们课题组也在开展相应工作,我相信未来在蛋白质结构预测、复合物组装方向的下游应用会进展迅速。

  王晟:张贵军老师讲了一个非常有意思的点,就是在实际的生物体当中,不管是大分子 - 小分子,还是大分子 - 大分子,它们在生命体中的相互作用,并不像传统的计算模拟 -- 先把两个分子的结构搞出来,再把它们对接到一起,而是类似于 共折叠 (co-folding)的模式。

  过去的 Autodock Vina 是怎么做的?蛋白质保持可以刚体模式也可以让口袋去区域保持柔性,建模时候小分子可以和蛋白质侧链一起按照能量下降以及蒙特卡洛方式去调整位置。因此,小分子和口袋区域蛋白质侧链具有一定的自由度,但蛋白质至少在主链上是没有什么自由度的。

  诱导契合学说(induced- fit hypothesis)谈到,在对接过程中,不仅小分子自身改变 pose ( 构象 ) ,结合空腔中的氨基酸残基位置也会改变,有时候可能会导致蛋白质 loop 区域的位移,即配体和受体双向奔赴的过程。

  实际上,AlphaFold2-Multimer(专长于蛋白复合物特别是结合界面结构预测的模型)已经初步尝试 co-folding 的方式,效果非常好。

  我们这次参赛的方法就是利用了类似理念。把 AlphaFold2 的这套方法,在蛋白序列后面再加上小分子 frame,通过 frame 再构造成一个整体相互作用的模拟。我认为,未来这条路径一定大家都选择的方向,因为它更加偏向真实的物理过程。

  郑伟:在蛋白质 - 小分子的 binding 问题上,早些年 CASP 其实一直在关注这个问题。在 CASP10 之前一直有一个赛道 --- 蛋白质功能预测(protein function prediction),用于预测蛋白质 ligand binding site。当然它没有特异性,只让你预测蛋白质的哪个位点可以绑定小分子,选手只要给出该预测信息即可。

  但在 CASP11 之后,这条赛道就一直被取消,直到本届 CASP15 又重新设置基于 Pose 的蛋白质 - 小分子结构预测赛道。

  因此,我觉得蛋白质 - 小分子赛道重新提上日程,而且是以更加精细的预测项目出现,一个重要原因是蛋白质单体或者蛋白质复合物的结构预测精度已经非常高。

  我们有了蛋白质结构、小分子的具体的 binding 位点,binding pose、以及具体的小分子信息之后,你可以预测工作就更多了。整体来看, CASP 的赛道设置不是特别割裂,每条赛道之间都相互促进。

  另外,我非常同意王晟师兄的意见。我们确实应该系统考虑蛋白质 - 小分子的折叠问题,而不是先折叠蛋白质,再让小分子 打配合 。

  实际上,PDB 数据库中解析的真实实验结构,很多蛋白质可以配合小分子,也可以不配合小分子;甚至一些蛋白质和小分子配体后,但它的侧链结构,甚至主链结构都会发生小范围的变构。

  所以蛋白质本身在折叠过程中,或者和小分子配体去做联合折叠时,它不应该是一个彼此割裂,或者 先有鸡还是先有蛋 的问题,它肯定是一个联合发展的折叠问题。

  因此,如果我们利用类似于共进化信息,控制蛋白质 - 小分子的体系,是更有预测优势的。当然asp教程,具体怎么构建这种蛋白质和 - 小分子共进化,可能比较难。

  因为即使在结构预测领域,共进化也不是百分之百都解决透了的。而且在蛋白质复合物里面,共进化要比单体更难。所以推广在蛋白质 - 小分子问题上,我们怎么设计共进化,或者是怎么发现潜在的共进化就更难了。具体的药物落地这一方面,我研究得不是特别多,张贵军、常珊两位老师已经总结得很好。

  熊鹏:关于蛋白质 - 小分子的相互作用,我研究比较少,也就不发表太多的评论。我主要跟大家谈一谈 RNA- 小分子结合的问题。

  RNA 结构和蛋白质结构有很大差别,因为蛋白质的最小折叠单元是 domain,每个 domain 有一个疏水折叠核心(hydrophobic folding core),那些小分子结合的口袋,都是位于 domain 内部或者 domain 之间的空腔,预测蛋白质和小分子的结合,需要先预测蛋白质的整体结构。

  但 RNA 所有的基团都是极性基团,在折叠过程中并没有类似的疏水核心。所以 RNA 的最小折叠单元并不是 domain,而是 motif(少数碱基形成的结构模块),由 motif 组装后形成 RNA 的三维结构以及小分子接口。

  CASP15 上有好几个 target,都涉及 RNA 和小分子的相互作用。但这些相互作用并不牵涉到整个 RNA 结构,只是牵涉了其中一些 motif。比如 R1117 target,就是小分子结合到差不多十来个碱基左右的 motif 口袋中;还有一个是人工设计 RNA,其来源也是将一个结合小分子的天然 motif,拼接到人工设计的框架上。

  也就是说,对于和 RNA 结合的小分子而言,它与 RNA 的结合并不牵扯到 RNA 的整体三维结构,而只是作用于结构中的特殊 motif。因此,如果我们要针对 RNA 的小分子做药物设计,问题的关键并非 RNA 的整体形状预测,而是 RNA 内部功能 motif 的预测。

  这也是我之前一直非常强调的问题。可能我们并不需要过度关注 RNA 的端对端预测、overall fold 预测,如果能够把 RNA 的一些关键结构的 motif 预测好,那么对于理解 RNA 的功能,比如说如何结合小分子就已经足够了。

  王晟:熊老师讲了一个非常深刻的观点。因为我们知道 RNA 结构中,很多地方它是飘在那里的,类似于蛋白质里的 intrinsically disordered regions ( IDR ) 。

  熊鹏老师希望我们抓住问题的本质,也就是说,RNA 跟蛋白质是类似的,都有一些 motif 组成的区域,只不过相对来说,蛋白质的这种刚性区域多一些,IDP 相对少一点;RNA 的非刚性区域可能会更多,但如果 RNA 要和小分子等结合形成结构,一定会有 motif 的存在,把它们给咬合在一起。

  因此,从 RNA 的这点特性出发,对于我们理解 RNA 功能,如何设计把靶标于 RNA 的小分子抑制剂都至关重要,而且对于我们今后如何去预测 RNA 结构也提供了全新思路。

  王晟:再谈一下时下最火热的话题—— ChatGPT。这段时间,以 ChatGPT 为代表的 AIGC 概念相当火爆。不少生物计算实验室也拿出了一些成果。 能否站在您的角度,谈谈 AIGC 在 AI 生命科学领域的应用前景?

  常珊:ChatGPT 的放在生命科学领域来说再合适不过了。因为我们去表述生命科学中的一些分子,不管是核酸、蛋白还是小分子,都是以类似于语言 序列 的方式去表示,比如 DNA 序列,蛋白序列、小分子 SMILES。所以我觉得 ChatGPT 背后的语言模型天然适合生命科学研究,生命科学研究者也要尽快训练大型语言模型理解蛋白质、分子、DNA 和 RNA。

  刚才王晟提到几个程序,我之前看过文献,但没有深入地去看这方面的算法细节,但 GPT 和 ChatGPT 出来后,我发现它的算法可以直接用在生物上,但是我们也要注意两个潜在问题。

  ChatGPT 在训练过程中,数据有很多,而且处理得比较干净。但对于生物学数据来说,哪怕在 PDB 数据库中的数据也可能有错误,而且这些错误数据可能没法通过简单方式做清洗。只有通过大量的实验才能做精确筛选。因此,在当前的生物学数据现状之下,训练完成的算法 / 模型都会有一些影响。

  模型如何做验证,最常用的方法就是开放做公开试用。对于 ChatGPT 这种通用型模型来讲,大家会担心广泛且公开的试用,如果反馈学习可能会把模型 教坏 。但对生物学模型来说,判断一个模型好坏还是需要一些实验的方法,但是反馈可能会慢一些,导致模型迭代优化的速度会相对缓慢。

  我们最近也用语言模型做了一个抗菌肽的序列设计,核磁解析的结构发现和设计一致,所以我觉得语言模型天然具有优势,只是在数据、模型后续迭代上需要进一步完善。

  一、AIGC 等生成式 AI 术现在确实非常火,我们已经看到 ChatGPT 技术、扩散模型等技术在小分子三维构象、蛋白质复合物预测等生命科学领域的潜力,未来可能会引领下一场变革。

  三年前,我对人工智能的态度是,这个技术是生物信息研究中的一个必要条件,但不是充分条件,不是我们做什么都要用人工智能。但经过几年发展,我的想法也在不断改变。因为人工智能可以建立了强大的能量模型拟合函数,甚至包含上千亿个参数的大模型。在这种基于数据的模型表达下,或许 AI 真的能够充分表征生命系统。

  刚才大家讲到的生命系统,有蛋白质、核酸等发分子表达,这些都可以想象成是通过 生命语言 来进行调控。蛋白质序列本质上类似于自然语言:氨基酸以多种组合排列形成具有功能的结构,就像字母构成单词、单词形成句子所具有的含义一样。因此,在自然语言处理(NLP)技术应用到蛋白质结构建模问题也就不足为奇。

  人类基因组编码的蛋白质数量不少于 20 万个,但目前已知的只有 2 万多个,但由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这 2 万多个人类基因究竟能编码多少个蛋白质目前仍是个谜。但可以确定的是,其余大部分蛋白质编码基因都在做调控。因此,未来需要进一步协同考虑蛋白质跟小分子、DNA、 以及 RNA 等相互作用,从而进行相关设计。

  用 AI 研究生命系统,实际上是人工智能模拟生命系统。因此,回到最本质的问题上,什么是智能?生命能够被完全模拟吗?

  实际上,现在进行的蛋白质结构预测和设计,以及 RNA 研究、复合体研究等,它们即便能够通过语义、语法与规则被表达出来,但它们如何形成 生命 ?事实上,蛋白质本身是没有生命的,通过蛋白质之间的互作以及细胞之间的协作,最终才形成生命活动,这是需要思考的一个方面。

  就预测而言,现有挑战在于揭示蛋白质的折叠机理和活体状态的多态问题。目前 AI 模型拟合出来的还是一个静态的蛋白质结构;

  就设计而言,脱离实验室条件,人工设计的蛋白质安全性、稳定性、耐药性(人工设计蛋白进入体内,白细胞可能会把它当成一个病毒来处理,马上产生抗体,蛋白质就可能会失效)如何都不得而知,而能否适合工业生产又有很多不确定性。

  因此,回到问题的源头,为什么人是有生命的?因为人体存在一系列的群体连锁反应,最后组成了一个复杂的、拥有智能和意识的生命体。

  在前不久的第 11 届全国生物信息学会议上,来自军事医学院的李昊称, 最近的模型可解释性方法将使我们能够打开 黑匣子 ,从而增强对折叠原理的理解。 足以看出生成语言模型在设计功能序列方面的巨大潜力。

  目前我们课题组也在不断深入研究,从最初采样到现在的能量模型,接下来我们就考虑蛋白质整体结构预测、多域、复合物模型,以及相应的模型质量评估技术。

  郑伟:AI 生成内容最近特别火,我也在关注,ChatGPT 和 stable diffusion 都试玩了一下,从 AI 产生的内容质量来看,确实蛮令人惊叹。

  具体地,AIGC 在生命科学领域,或者在结构生物学、计算结构生物学领域都有什么应用。我个人认为,AIGC 非常适合用在蛋白质设计和蛋白质结构预测。实际上,目前这一领域已经开始尝试算法应用,比如 PLM(protein language model )方法。

  它是利用机器学习去学习隐式的蛋白质进化的语言信息,类似于隐式的 MSA 信息,从而用学习到的蛋白质语言信息来替代传统的 MSA。

  总体来说,这一技术的前景很好。但是目前来看,我们训练出来的 PLM 模型,以及一些大公司放出来的 PLM,结果不太令人满意,在 CASP15 中分数不高。

  当然我个人觉得排名低不影响算法前景,目前分数不高可能是因为现在大家都在拼算力,以及大家刚开始描述 MSA 或者使用蛋白质语言,还在摸索阶段。

  熊鹏:前面几位老师都分享了语言模型在蛋白质结构预测、蛋白质设计方面的应用,我就从另外一个角度聊一聊对 ChatGPT 的看法。

  现在生命科学学术圈的每年论文增幅约几十万篇,我们逐篇地阅读起来肯定是不充分的。因此我一直希望能有一个 AI 机器人,或者学术辅助工具,帮我了解一个新领域、帮我看文献,给我一种学术指导。所以 ChatGPT 出来后,我很希望它能够实现这一目标。

  但据一些老师的测试结果,目前 ChatGPT 还没有很好地实现学术辅助的功能。比如你问他一些专业的问题,它可能会给你列出一堆参考文献,但是你仔细去翻看那些参考文献,发现都是 ChatGPT 基于语言模型虚构出来的论文。格式都对,看上去很专业,但实际上什么都不是,纯碎是瞎编乱造的内容。

  所以,如果要重新开发一个对我们做学术有帮助的 AI 机器人,可能需要重新训练一套新的模型。它既需要帮助我们去阅读文献、理解文献、总结文献、帮我们快速进入一个新领域,也帮我们做一些学术交叉的研究。

  Q:请问常珊教授:今年您带队参加的蛋白质 - ligand 复合体结构预测,这一技术在合成生物学,尤其是小分子多肽和蛋白质受体作用的预测上,有没有投入实用的可能性?

  尽管和蛋白质结构预测相比,序列生成相对落后一点,但是目前 Meta ( Facebook ) 、Baker 等几个团队都发表了很多论文,涵盖多肽设计、小蛋白设计、单体蛋白设计等。其中 Meta ( Facebook ) 最近测试了 30 多个蛋白,效果都不错,所以我觉得这一块落地的可能性还是很大的。合成生物学对蛋白质序列设计非常重视,所以我觉得能够设计出更好的蛋白质,一定会有助于合成生物学的发展。

  张贵军:第一,模型的实用性,对后续的药物研发等过程非常重要,因为药物研发通常要花费十几亿美元,耗费十几年的时间,最终可能仅有 10% 的成功率。因此,如果预测模型并不精准,下游的环节都会有问题。

  第二,蛋白质结构预测是一个不断优化的问题,因此我们要采用不同的方法去做精修,比如建立一个力场,去模拟蛋白质折叠过程,不仅要找到得分为 90 分的蛋白质模型,还需要找到 20 分的, 30 分的、40 分、50~90 等中低段模型。

  第三,在多态问题上,实际上已经有一些例子,比如抗体设计、抗原设计。但我们发现一个有意思的现象,预测的 pDockQ 可能在 90 分以上,但与实验测定情况相差较多;有些实验分数非常高,但预测的 pDockQ 却在 0. 23 以下。这可能都是因为预测和实际结构多态现象所导致的原因之一,这也是我们将来非常重要的研究方向之一。

  Q:请问郑伟博士:您在多条赛道上获第一名。有蛋白质单体单结构域、蛋白质单体多结构域、蛋白质复合体结构预测类别等赛项。后续的技术转化有哪些?团队都有哪些产学研合作?

  郑伟:首先,药物研发的靶点很多都是蛋白质,所以蛋白质结构预测得好,无疑对药物研发来说是一个基础保障。

  其次,今年的蛋白质 - 复合体的预测精度有明显提升,一定会在制药领域有一定应用前景。因为有些药物不光仅是 RNA 药物,或者小分子药物,可能也是一些蛋白类药物。比如医药领域有一些抗体类药物,其实也是比较依赖于蛋白质 - 复合体结构预测这一基础问题。

  CASP15 上公布了 antibody-antigen 的复合体,也公布了 nanobody-antigen 的复合体,有些课题组在某些 target 上做得不错,我们课题组在大部分的 nanobody 和 antibody 上,复合体预测的精度非常高。所以我个人觉得在制药领域,复合体结构预测的落地速度会加快,因为它对抗体类的药物研发作用更直接。

  熊鹏:RNA 结构计算在落地方面,相对容易的是通过 计算 + 实验 的方法做一些功能 RNA 分子的设计。因为功能 RNA 分子直接应用场景,比如基因治疗药物、调控元件等。第二是同时用计算 + 实验的相互迭代的方法,也能够更快地改进我们的方法,改进我们的计算模型。

  长远来看,靶向 RNA 的药物设计是一个重要方向。RNA- 小分子的相互作用预测,RNA- 蛋白质在细胞内的调控元件的一些相互作用预测,将真正推动在生物医药领域的落地。

您可能还会对下面的文章感兴趣: