资讯动态: 公司新闻; 行业动态

Industry trends

行业动态

深圳湾实验室团队最新综述：蛋白质结构预测中“分而治之”的策略，以及后AlphaFold2时代

发布时间：2023-10-17

发布人：安各洛公司-转载：络绎科学

蛋白质结构预测一直是一个重大挑战性。在过去的 20 年里，这个领域的发展相对缓慢。然而，AlphaFold 的出现使得这个领域取得了迅速进展，预测准确性达到了或者接近了实验精确度。

近日，来自深圳湾实验室系统与物理生物学研究所的周耀旗团队在《国家科学评论》上发表题为“3=1+2: How the Divide Conquered de Novo Protein Structure Prediction and What’s Next?”的综述，梳理了近年来蛋白质预测领域的发展，并对 AlphaFold2 之后，该领域未来的方向做出展望。

作者们认为，AlphaFold2 带来的突破是建立在预测蛋白质一维结构特征和二维侧链距离方面的进展，以及通过一维和二维特征的嵌入来进行端到端的学习。AlphaFold2 把蛋白质结构预测这个三维结构问题拆解成一维和二维的子问题（即 3=1+2），解决了将多个同源序列映射到其关联的“单一”结构的问题，但却尚未能解决将单个序列映射到其真实世界的结构和动力学的问题。

技术背景

蛋白质在每个生物过程中都发挥着多种多样的作用，因此是分子生物学研究的焦点。蛋白质的化学结构简单，是由 20 种氨基酸残基的不同排列组成的线性高分子。蛋白质的功能多样性归因于它们能够折叠成独特而多样的三维结构形态。然而，通过实验确定这些蛋白质的结构费时费力且价格昂贵。

从 1994 年开始，结构预测技术的进展根据全局距离测试 GDT 打分函数来衡量。经过 20 年的努力，对于最难预测的蛋白质，总体的 GDT 分数只是从 27 增加到了 32。然而，DeepMind 开发的 AlphaFold 却在 2018 年让这个分数骤然增加到了 65 分，并在 2020 年通过 AlphaFold2 达到了 85 分，等同或者接近了实验测定的结构精确度。这一革命性的进展在生物学领域产生了深远影响。值得研究的是：这一飞跃是如何实现的，未来将如何进一步发展？

3=1+2，分而治之

由于存在巨大的构象空间和缺乏准确的自由能函数，从蛋白质序列直接预测三维结构挑战巨大。因此，这个问题长期以来被分成几个更简单的子问题，包括预测一维性质的二级结构或扭转角，以及二维性质的距离图，然后综合起来进行三维结构的预测。这种化繁为简的方法可以看作是一种“3=1+2”的方法。

一维结构特征的预测以预测三态二级结构为主。但是基于单一蛋白质序列的方法并不那么准确，即使是使用最先进的深度学习技术如 SPOT-1D-Single 和 S4PRED，三态准确性（螺旋，片条和无规线圈，Q3）也仅为 74%。而使用进化信息则能大幅度改进准确率。到 2019 年，作者们的 SPOT-1D 方法已经可以达到 87% 的准确率，接近理论极限。

不过用离散的二级结构状态来预测蛋白质主链的三维结构有其不足之处。例如，并不存在理想的螺旋和片条状结构，而所预测的无规线圈状不包含结构信息。相比之下，如果主链的三个扭转角（φ、ψ 和 ω）的数值已知，则可以直接构建主链结构。考虑到 ω 经常固定在 180°，作者们首次尝试预测两个扭转角（φ 和 ψ）的实数值。其中 Real- SPINE 预测的 ψ 角起始误差平均为 54°。通过解决角度的周期性问题（RealSPINE2）、改进神经网络、离散和连续实数值的混合预测（SPINE XI），并结合最新的基于深度学习的多种方法，误差最终被降低到 20°。

回顾主链结构预测从离散到连续的演变，可以发现这个过程催生了使用针对特定蛋白质的能量函数来进行无结构碎片蛋白质结构预测的方法，以及通过可微分损失函数来实现端到端结构预测的方法。

而对于二维结构特征，则需要预测 Cα 原子或侧链 Cβ 原子的二维离散接触或连续距离图。与主链结构预测类似，2016 年左右通过将深度学习与直接耦合分析（如 PconsC2 和 RaptorXContact）相结合，接触预测的精确度得到了很大的改进。随着深度学习的不断发展，离散两态接触图的预测进一步发展为距离网格图甚至连续距离预测。就像主链结构的预测从离散转变为连续一样，从离散到连续的距离预测则为“3=1+2”方法在连续可微空间中的应用铺平了道路。

三维结构预测及AlphaFold

在 AlphaFold 出现之前，蛋白质结构预测始于同源建模或模板建模。由于大多数蛋白质无模板，因此科学家们开发了无模板建模，即 CASP 自由建模，也称从头结构预测。Bowie-Eisenberg 首次提出基于结构碎片的技术，将序列片段映射到结构碎片，进行能量引导的结构组装。使用刚性结构碎片可更快采样，缺点是很难定位最佳结构碎片，而且天然结构碎片与结构库里面的最佳结构碎片之间或许不能完全吻合。

更自然的蛋白质折叠方法是无模板/无结构碎片建模。科学家们开发了基于知识的结构碎片方法，采用扭转角采样偏差或预测的扭转角作为针对蛋白质的评分/约束。然而，尽管能够准确预测扭转角，且对于生成主链结构很有帮助，这些新出现的无结构碎片方法被在 CASP 上发展比较成熟的基于片段的方法边缘化了。

在 CASP13 中，AlphaFold 使用的也是无片段的蛋白质特异性的评分方法。它是建立在前人方法的基础上的。例如 CONFOLD 和 COINFOLD 利用了预测的离散的二级结构和接触图。而作者提出的方法 SPOT-Fold 采用了预测的连续角度，但具有离散的预测接触图。相比之下，AlphaFold 预测了残基之间的距离和主链扭转角的分布，并将两者转换为一个蛋白质特异的评分函数以进行最小化。AlphaFold 表明，“在 CASP 中后来使用的无结构碎片梯度下降方法在每个类别中的表现都优于结构碎片组装方法”，这证实了无结构碎片方法与特定蛋白质的能量函数相结合的优势。AlphaFold 将科学界的注意力引向了无结构碎片技术，并利用蛋白质特异的评分，在几乎连续的网格空间中，利用了 3=1+2 的方法来实现了蛋白质结构预测精度的第一次飞跃。

AlphaFold2 的端到端学习

AlphaFold2 在 CASP14 中进一步推动了无结构碎片的方法，但不再使用能量函数，而是通过神经网络进行序列到结构的直接映射。AlphaFold2 输入同源序列以提取一维和二维演化特征，并直接预测全局仿射变换和局部侧链扭转角以促进全原子结构组装。其所预测的结构在结构模块和模型循环中更新，这与之前的 AlphaFold 通过“1”和“2”以产生“3”的方法不同。

AlphaFold2 的网络架构来自于计算机科学中可微分反向传播技术的发展，这使得端到端的蛋白质结构预测成为可能。RGN 和 NEMO 是早期尝试端到端蛋白质结构预测的模型，它们通过迭代优化和主链角度预测并强制执行链约束。AlphaFold2 借鉴了 NEMO 的方法，但做出了两个关键改进：通过预测独立的残基仿射变换生成三级结构，并从多个同源序列映射到单个结构的角度出发进行预测。这样可以将多个同源序列一起输入，从而可以更直接地捕获协同进化信息，这与 RGN 和 NEMO 中使用的预处理一维序列谱不同，因为那样很可能丢失了大部分协同进化信息。此外，AlphaFold2 采用了庞大的序列数据集（BFD）和 PDB 中的大多数结构（170，000个）来训练一个大模型。训练这个大模型所需的计算资源是大多数科研团队无法获得的。

在 AlphaFold2 之后，科学家们还陆续开发出了许多端到端方法，包括 RoseTTAFold、RGN2、ESMFold 和 OmegaFold。大多数新方法都侧重于使用语言模型进行结构预测。语言模型包含了进化信息，不需要进行同源序列搜索，可以加速推理速度，但该类方法通常会伴随着建模精度的下降，对于较小的蛋白质家族尤甚。

展望未来

作者们认为 AlphaFold2 仅仅解决了将多个同源序列映射到单个结构的问题，因此它仅对具有大量同源序列的蛋白质能够预测准确的结构。使用蛋白质语言模型不是解决方案，因为语言模型从多个密切相关的序列中隐式地学习了同源信息。依赖同源序列意味着 AlphaFold2 无法预测少量突变所引发的有害的结构变异。最终的挑战是确定一个序列与其结构之间的对应关系，但是距离解决这个问题还有很长的路要走，因为基于单个序列预测二级结构的准确性约为 74%，远低于理论极限值 86-90%。要提高预测能力，首先必须在单个序列水平上将二级结构的预测准确性提高到 86%。

而预测蛋白质动态、构象转变、突变引起的蛋白质稳定性变化和蛋白质-配体相互作用将更具挑战性，因为这些预测更要考虑单个序列特异性，所以不同的同源序列可能有不同的表现。不过，作者们预计在不久的将来，蛋白质-蛋白质复合物结构预测和蛋白质设计将取得重大进展。其中，AI 驱动的蛋白质设计逐渐成为主流，且已从固定骨架设计发展到结构序列生成器。预测蛋白质-蛋白质复合物结构可能很快会更好利用协同进化信息。

RNA 结构预测是另一个相关领域，但在 CASP15 评估中，基于 BRiQ 统计能量函数的传统能量方法表现最佳，而大多数 AI 方法表现不佳。AI 驱动的 RNA 结构预测面临的挑战包括信息有限、缺乏序列保守性、主链构象角度多以及 RNA 结构在蛋白质数据库中稀少。尽管如此，在 RNA 全碱基配对结构方面还是取得了一些进展，使用了 SPOT-RNA、SPOT-RNA2、RNAcontact 和 SPOT-RNA-2D 等方法。随着更多数据和更好的算法的出现，AI 驱动的 RNA 结构预测肯定会在不久的将来重新成为焦点。

因此作者认为，AlphaFold2 在将同源序列映射到单个结构上的成功并不是结构生物学的终结，而是一个 AI 与实验结合新时代的开始。

声明：本文仅供科研分享，助力科学传播，不做盈利使用，如有侵权，请联系后台删除。

推荐公司新闻

行业动态

深圳湾实验室团队最新综述：蛋白质结构预测中“分而治之”的策略，以及后AlphaFold2时代

向光而行·科明纪元丨2026新年快乐

ANGELO喜获7项国家AI软著权

关于未经授权使用技术及原料进行市场宣传的严正声明

Nature Medicine | 深圳理工大学教授联合团队发现免疫衰老是免疫治疗耐药的关键机制

合成生物初创联手食品巨头，加速天然食用色素规模化生产

宾大团队开发生成式AI模型，从头设计抗菌肽，加速抗生素研发

合成生物初创融资1300万美元，利用微生物发酵生产植物代谢物，多条管线推进

东南大学团队合作构建基于统计学的小鼠大脑单细胞联接图谱

南方医科大学联合中山大学开发磁驱仿生细菌机器人，实现药物靶向递送与免疫调控

Nature重磅，芝加哥大学实现荧光蛋白自旋量子比特，实现活体内量子操控与成像

浮萍VS苜蓿，两大创业公司如何破解Rubisco的商业化难题？

Nature封面！华人团队AI设计超强水下粘附水凝胶，强度突破1MPa

青岛能源所高通量分选酵母突变体，解锁omega-7高效生产

中科院高彩霞团队开发大片段DNA编辑方式，真核细胞中实现千碱基到兆碱基规模的精确、无痕编辑

索尔克研究所开源AI工具，精准“锁定”基因组中的功能微蛋白

中国药科大团队发现新型双靶点抗生素，有望破解超级细菌耐药难题

中国科学家破解霉菌致敏机制，靶向上皮穿孔信号或成抗过敏新策略

海藻饲料让牛不打嗝？这家初创获千万美元融资专攻“甲烷克星”

浙大团队基于AI优化氨酰-tRNA合成酶，实现非天然氨基酸高效掺入

Helaina人乳铁蛋白产能达吨级规模，已获多家品牌采用

DeepMind前员工放大招，全新AI模型网页版一键设计蛋白质，30次实验顶百万次筛选

江大团队基于从头设计蛋白技术，开发全新靶向蛋白降解系统

气体发酵初创折戟规模化前夜，拟出售核心资产

Nature最新研究揭示，特定肠道菌群可增强抗癌药物效果，PD-1疗效提升3倍

莫那什大学利用AI从头设计蛋白，阻断营养物摄取，抑制病原菌生长

天津大学等开发兆级别人类基因组DNA合成和跨物种转移新技术

爱丁堡大学工程化大肠杆菌，将废弃塑料转化为止痛药对乙酰氨基酚，产率达92%

筛选超2000种图案，科学家找到让细菌“打滑”的特定图案，告别器械植入物感染

美国NREL团队醋解工艺回收碳纤维复合材料，2小时生成再生碳纤维

Nature报道酶的完整计算设计，Kemp消除酶效率提升百倍

Nature重磅！斯坦福新策略揭示紫杉醇生物合成关键基因，重构巴卡汀III异源合成路径

Lululemon签署10年期协议，承购再生尼龙和聚酯纤维

湖南农科院单杨院士团队改造酵母菌株，消除Crabtree效应，提高产品产量

前谷歌CEO押注，初创​​开源240亿参数模型，主打类药物分子设计

复旦团队代谢工程改造马克斯克鲁维酵母，利用淀粉合成肌醇

过程工程所团队提出一锅两步多酶法，高效合成2种人乳寡糖

康奈尔大学开发高效生物浸出菌株，助力绿色提取稀土

北化团队代谢工程改造嗜盐菌株合成PHB，产量达64.9gL

谭天伟等开发微生物发酵耦合光催化方法，实现生物基己二酸绿色合成

厦大发表突破性成果，微生物高效合成支链βγ-二醇，助力碳中和目标

中国空间站首次发现全新微生物！同属菌种在生物肥料生产、生物修复等领域潜力巨大

“AI工程师”接管工业发酵，上海交大推出AI自控系统，还可预测发酵过程

尿液变“生物矿”！劳伦斯伯克利实验室开发“骨酵母”平台，低成本合成高价值产品

Nature子刊重磅突破，哥本哈根大学改造酵母“细胞工厂”，破解紫杉醇生物合成的最后密码

上海交大改造大肠杆菌，实现柚皮素的高效合成

天津大学改造酿酒酵母，实现植物源二萜高效合成，达到迄今为止最高产量

丹麦公司21st.BIO开发无霉菌毒素的米曲霉菌株，开启精准发酵蛋白质生产新时代

江大团队改造大肠杆菌，实现抗癌药物紫苏醇的高效生产

暨南大学发掘青蒿酸生物合成二氢青蒿酸关键酶，为青蒿素的生产提供更便捷、高效途径

苏黎世联邦理工设计光合生物材料，高效封存二氧化碳逾一年

MIT、清华等代谢工程改造大肠杆菌，实现乙酸盐为底物的二醇合成

同日两篇Nature子刊，西湖大学报道聚酮合酶“即插即用”改造方法，变革药物及能源生产

浙工大团队改造大肠杆菌，从头生物合成咖啡酸和绿原酸

北大携手深圳先进院推出合成生物AI大语言模型，成功获得高性能加帽酶，催化效率高于商业酶2倍

L-乳酸生产新突破！江南大学团队改造酿酒酵母，实现无需中和剂高效生产

滑铁卢大学联合南科大构建工程菌高产膜囊泡，突破IBD治疗瓶颈

人工甜味剂也能对抗耐药菌，布鲁内尔大学揭秘关键机制，还可用作伤口敷料

AI制药初创广纳人才，华人学者加盟，提出构建“虚拟细胞”

获比尔盖茨称赞，加州初创利用二氧化碳造黄油，预计年底启动B轮融资

诺奖团队坐镇，AI制药公司融资6亿美元，或于年底开展临床试验

吹陶笛、绘陶瓷……深圳理工的人文气息竟然这么浓！

Nature｜或将改写教科书！深圳理工大学教授合作成果证实cAMP是植物细胞第二信使

共筑红色教育高地！深圳理工与市委党史文献研究室签署合作协议

教育部部长怀进鹏在深圳理工大学主持召开新型研究型大学调研座谈会

朱迪俭书记带队访问湖南多所高中

祝贺！潘毅当选2024年国际工程技术协会杰出会士

Neuron | 阿尔茨海默病治疗或迎来新方法

深理人物 康乐：“我期待在深圳理工将最新科研成果产业化”

校长开讲！深圳理工这堂课含“新”量满满

16位两院院士齐聚！这一活动在深圳理工大学开幕

大一学生作学术报告，深圳理工这场活动含“科”味儿拉满

结对共建

中国科学院合成细胞国际科学计划启动

深理工团队联合德国马普所发现抗抑郁靶点5-HT3R自主装配新机理

Trends in Biotechnology 基于再生代谢微环境的适配MAM材料设计和研发转化

深圳理工大学联合北京大学团队，发表最新Nature Materials！

汇聚中外60多所高校147支队伍！第三届合成生物学创新赛在深举办

深圳续篇第18届Q-Bio会议：全球学者共探定量生物学新前沿

前谷歌CEO押注，初创开源240亿参数模型，主打类药物分子设计

深理人物康乐：“我期待在深圳理工将最新科研成果产业化”

Nature｜深理工携手三校，发现生长高质量石墨烯纳米带的全新方法！

Nature Machine Intelligence ｜深度解码社交行为模式！人工智能赋能神经科学研究！