理解和设计生物分子(如蛋白质和小分子)对推动药物发现、合成生物学及酶工程研究至关重要。近年来人工智能技术的突破性进展彻底改变了生物分子研究范式,在生物分子预测与设计领域实现了前所未有的精准度。
然而核心挑战依然存在:如何通过自然语言理解生物分子并实现符合人类意图的设计?
近日,浙江大学陈华钧、张强等人推出了 InstructBioMol 大语言模型,通过实现自然语言、小分子与蛋白质之间的全方位任意模态对齐,构建起连接自然语言与生物分子的桥梁。该模型能整合多模态生物分子作为输入,使研究人员能够用自然语言阐述设计目标,并输出符合精准生物学需求的生物分子解决方案。
实验结果表明,InstructBioMol 可遵循人类指令理解并设计生物分子:其生成的药物分子结合亲和力提升达 10%,设计的酶-底物对预测评分达到 70.4。
该模型是一个统一的多模态大语言模型,可同步处理自然语言、小分子和蛋白质三类数据,其输入输出均支持自然语言文本或多模态分子/蛋白质的文本化表示。
研究人员通过两项任务评估了 InstructBioMol 的分子理解与设计能力:分子描述生成——为给定分子生成文本描述;描述导向的分子生成——根据文本描述生成对应分子。实验采用 ChEBI 数据集,其包含分子及其结构、功能、来源等多维度描述。设置了基线模型进行对比。
分子描述生成与分子生成的定量结果显示,InstructBioMol 在几乎所有指标上均表现最佳。分子描述任务,各项指标平均提升 0.9%;分子生成任务,生成分子的精确匹配准确率(EXACT)提高 0.7%,分子指纹相似度指标(MACCS FTS、RDK FTS、MORGAN FTS)平均提升 2.0%。
研究人员同样通过两项任务评估模型的蛋白质处理能力:蛋白质属性问答——回答涉及蛋白质家族、亚细胞定位、官方命名及功能等属性的问题;描述导向的蛋白质序列生成——根据文本描述生成对应蛋白质序列。设置基线模型对比。
蛋白质属性问答与蛋白质生成的定量结果表明:在蛋白质属性问答任务中,InstructBioMol 平均超越现有最优方法(SOTA)13.5%;在蛋白质生成任务中,序列同一性提升 6.2%、比对得分提高 4.1%、BLOSUM 替换矩阵得分增加 0.465,且生成蛋白质的有效性相当。
为了验证 InstructBioMol 根据人类意图设计靶向蛋白的药物分子的能力,研究人员选取测试集中 100 个靶蛋白,每个靶蛋白生成 100 个分子。同样设置基线模型对比。
结果显示,InstructBioMol 在三个关键维度表现卓越。结合亲和力,高亲和力分子比例较现有最优方法提升 25.9%;通用性质,设计成功率提高 21.9%;综合评估,生成分子有效性达 99.9%。
InstructBioMol 在实现底物导向的酶设计表现上,InstructBioMol 在生成酶蛋白的三大评估维度表现最优:ESP 评分提升 13.3%,以 70.4 分成为唯一突破开发者推荐阈值(60.0)的方法;Vina 评分提高 0.7 分;生成有效性保持 99.9% 的高成功率。
作为统一的多模态大语言模型,InstructBioMol 进一步展现了从文本描述同步生成蛋白质及其结合分子的独特优势。实验采用包含 100 个目标蛋白描述的测试集,每个描述生成 100 个蛋白质-分子对。
结果显示,InstructBioMol 全面超越基线方法。蛋白质生成比对得分提升 6.8%;分子生成 Vina 评分与合成可达性(SA)双项最优;整体成功率达 48.3%,较最优基线提升 15.2%
该模型不仅能根据人类意图理解设计分子或蛋白质,还能针对靶标蛋白设计类药分 子、为反应底物设计酶催化剂,展现出作为研究助手的潜力,可在药物与酶设计等领域提供有价值的洞见。
不过,论文中也指出,当前 InstructBioMol 的局限在于算力资源限制使其未能全面支持 DNA/RNA 等所有生物分子,且未在所有生物分子任务上完成全训练,导致其尚不能处理化学反应预测等附加任务。
参考文献:
1. Zhuang, X., Ding, K., Lyu, T. et al. Advancing biomolecular understanding and design following human instructions. Nat Mach Intell (2025). https://doi.org/10.1038/s42256-025-01064-0
免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。
安各洛(深圳)生物科技有限公司 版权所有