资讯动态
公司新闻
行业动态
Industry trends

行业动态

AI改造蛋白可绕过检测,微软联手科技公司为DNA合成筛查打“补丁”

发布时间:2025-10-03
发布人:安各洛公司-转载-生辉Synbio


人工智能的进步正在推动生物学和医学领域的突破,其中一个显著的领域是蛋白质工程。


AI 辅助蛋白质设计作为一种强大的工具正在兴起,它使科学家能够设计出全新的蛋白质或对现有蛋白质进行结构和功能上的改进。然而,在设计蛋白质的同时,也带来了无意中创造出可用于恶意目的的有害蛋白质的风险,例如毒素。


为此,微软联合 Twist Bioscience、RTX BBN Technologies、Integrated DNA Technologies、Aclid 等 DNA 合成供应商在 Science 期刊上发表同行评议论文“Strengthening nucleic acid biosecurity screening against generative protein design tools”。


他们发现,现有的生物安全筛查系统存在漏洞,他们开发并部署了补丁,从而加强了针对生成蛋白质设计工具的核酸生物安全筛选。


图片


合成任何有害蛋白质的一个关键及必要步骤,是从众多合成核酸供应商中订购编码该蛋白质的基因,一般可以通过监测来降低这些蛋白质被不当行为者获取的风险。事实上,核酸合成公司会使用生物安全筛查软件(BSS)比对订单与已知毒素或病原体,相似度过高会触发警报。


目前大多数 BSS 系统的工作原理是:在待检序列中搜索受管控的核酸或蛋白片段;若某一片段与某个关注序列的匹配优于与其他序列的匹配,则将该序列标记并交由专家复核。现代 BSS 系统在使用过程中不断被改进以提高对新兴规避手段的鲁棒性。


但最近的研究表明,这些系统存在潜在的漏洞。2023 年 10 月,由微软首席科学家 Eric Horvitz 领导的团队展示了使用蛋白质设计工具将一种受关注的蛋白质重新设计成数千种合成同源物,以及这些序列如何无法被两家知名核酸合成公司使用的生物安全筛查软件检测到。他们联系了相关机构,并告知这一潜在漏洞。包括国际基因合成联盟(IGSC)、美国科技政策办公室(OSTP)、美国大流行病准备与响应办公室(OPPR)的生物安全负责人等。


Horvitz 领导的团队专注于开发生成 AI 算法,用于预测新的蛋白质形状。这类程序已经为资金雄厚的初创公司的新药研发提供了动力,例如 Generate Biomedicines 和谷歌的衍生公司 Isomorphic Labs。


他们使用 3 种开源的蛋白质序列生成模型 ProteinMPNN、EvoDiff-MSA 和 EvoDiff-Seq,为 72 种有害蛋白生成了总共 76080 个合成同源物,涵盖了不同突变负荷的范围,其中包括蓖麻毒素、肉毒杆菌毒素以及帮助病毒感染人类的蛋白质。


随后,他们将这 76080 个同源物发送给四家生物安全筛查软件开发商,将这些序列通过其软件运行。结果显示,虽然 BSS 在检测原始野生型蛋白方面表现出很高的准确性,但在识别源自先进蛋白质设计技术的重组变体时,其性能却显著下降。


这些发现凸显了当前生物安全措施中的一个关键缺陷——BSS工具可能对特定的已知序列有效,但在面对看似相似但经过明显改变的工程化同源物时,往往会失效。未修饰蛋白质与人工智能生成的蛋白质的检测率之间的差异表明,BSS 能力亟待提升。


在初步研究结果发布后,Horvitz 的团队与 BSS 开发商合作,解决已识别的漏洞。他们着手开发旨在增强现有系统检测能力的软件补丁,改善整体生物安全状况。其中四家 BSS 供应商中有三家将重大更新整合到其软件中。经过改进后,三家供应商的工具在识别 AI 改造的变体时更有能力,同时在保持低误报率的情况下,对野生型模板的识别能力也有所增强。


值得注意的是,尽管筛查能力得到了增强,所有修补后的 BSS 工具仍无法识别所有蛋白质变体。工具 1(修补版)漏检 340 条序列(约 1%);工具 2(修补版)漏检 913 条序列(约 3%);工具 3(修补版)漏检 917 条序列(约 3%);工具 4 漏检 2287 条序列(约 7%)。总体平均下来,大约 3% 的序列未被标记(即 97% 的标记率)。


研究人员对漏检序列进行了分析发现,大多数漏检序列集中在少数几个模板蛋白:23、31、37、46 和 66 号蛋白


其中,31、37 和 46 号蛋白的同源体与一些“无关蛋白”的序列相似度很高。如果改造后的变体与无关蛋白更接近而非与有害蛋白更接近,那么它不会被标记。根据美国政府的指导,这样的筛查结果是合理的。


关于 66 号蛋白,合著者之间存在分歧:它只是某类受管控毒素的附属组分,主要作用是结构支撑,对毒素进入的作用有限,而且该毒素类型通常并不会引发人类疾病。


至于 23 号蛋白的变体,工具 1 漏检的情况较多,原因在于该工具的统一参数设置不适合检测这类序列。后来调整参数后问题得到了解决。


研究人员也将编码合成同源体的 DNA 打散并打乱顺序,测试修补后的 BSS 是否能识别。结果发现,修补后的 BSS 相比旧版本更能检测 AI 改造蛋白,对 DNA 混淆也有更强抗性,但仍存在漏检。


他们表示,从长远看,仅依赖基于序列的生物安全筛查并不足够,因为未来的蛋白质设计工具将能生成自然界不存在的全新蛋白。因此,除了持续改进现有的序列筛查软件,还必须探索新的方法。下一步的可能方向包括:利用高维嵌入空间的同源性检测,来增强现有 BSS 的检测能力。


参考链接:

1.Bruce J. Wittmann et al. ,Strengthening nucleic acid biosecurity screening against generative protein design tools.Science390,82-87(2025).DOI:10.1126/science.adu8578

2.https://investors.twistbioscience.com/news-releases/news-release-details/twist-bioscience-announces-publication-science-examining


责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。


推荐公司新闻