2024 年 11 月,斯坦福大学化学工程助理教授Brian L. Hie 团队以封面文章的形式在 Science 期刊上发表了一项开创性研究成果 —— Evo,一个能够解码和设计 DNA、RNA 和蛋白质序列的大规模基因组基础模型。
Evo 基于 270 万个原核生物和噬菌体基因组上进行训练,研究人员基于该模型生成了 CRISPR-Cas 分子复合物以及 IS200 和 IS605 可转座系统,并验证具有功能活性。
近日,该模型完成重大升级。在一份尚未经过同行评审并首次发表在 Arc Institute 网站上的新预印本中,来自 Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校、加州大学旧金山分校等机构约 50 位科学家合作,推出了 Evo 2:一种使用来自 128,000 多个物种基因组的超过 9.3 万亿个核苷酸进行训练的 AI 基础模型。除了扩大细菌、古细菌和噬菌体基因组的集合外,Evo 2 还包含来自人类、植物以及真核生物领域其他单细胞和多细胞物种的信息。
在与媒体的电话会议中,团队成员将 Evo 2 描述为迄今为止最大的公开 AI 生物学模型,能够一次分析长达一百万个核苷酸的序列长度。可应用于生物分子研究应用,包括根据蛋白质的基因序列预测其形式和功能、识别用于医疗保健和工业应用的新分子,以及评估基因突变如何影响其功能。
Evo 2 在 NVIDIA BioNeMo 平台上可供公众使用,此外,团队已将其训练数据、训练和推理代码以及模型权重开源。
研究人员训练了两个版本的 Evo 2:一个较小的版本,包含 70 亿参数,训练数据为 2.4 万亿个核苷酸;一个完整的版本,包含 400 亿参数,训练数据为 9.3 万亿个核苷酸。
此外,Evo 2 使用了一种名为 StripedHyena 2 的新型架构,这使得训练速度比优化的 Transformer 模型快了近三倍,同时,Evo 2 能够使用比 Evo 1 多 30 倍的数据进行训练,并且每次推理的核苷酸数量是 Evo 1 的 8 倍多。该新型架构由团队与 OpenAI 联合创始人 Greg Brockman 共同开发,StripedHyena 2 显著扩大了 Evo 2 的上下文窗口,使其可以处理长达 100 万个核苷酸的基因序列。
研究人员利用该模型分别创建了:人类线粒体基因组 ;生殖支原体的原核基因组(常用的最小基因组模型);代表真核生物的酵母染色体。
在医疗保健和药物研发领域,Evo 2 可以帮助研究人员了解哪些基因变异与特定疾病有关,并设计出能够精准靶向这些区域的新型分子来治疗疾病。例如,斯坦福大学和 Arc Institute 研究所的研究人员发现,在针对乳腺癌相关基因 BRCA1 的测试中,Evo 2 在预测哪些突变是良性突变和潜在致病突变方面实现了 90% 以上的准确率。
Arc Institute 的联合创始人、加州大学伯克利分校助理教授Patrick Hsu 博士表示,“Evo 2 是唯一能够预测编码和非编码突变影响的模型。它可能是编码突变的第二佳模型,但它是非编码突变的最佳模型,而其他变异效应预测方法,如 DeepMind 的 AlphaMissense ,则无法达到这一水平。”
除了精确定位突变之外,Evo 2 还可以“编写”大规模基因组片段——设计包含 tRNA 和 rRNA 基因等必需元素的细菌大小的基因组。
研究人员还在使用 Evo 2 创建自然界中不存在的新生物机制。例如,早期的 Evo 模型成功生成了一种新型 CRISPR-Cas9 变体(EvoCas9-1),与任何已知的 Cas9 有大约 73% 的相似性,但经过实验验证具有功能性。Evo 2 类似地设计了新的转座子或基因开关,可能仅在特定细胞类型中激活,通过减轻脱靶效应提高基因治疗的安全性。
在农业领域,该模型有助于解决全球粮食短缺问题,其能提供植物生物学见解,帮助科学家培育更能适应气候变化或营养更丰富的作物品种。
在其他科学领域,Evo 2 可用于设计生物燃料或改造分解石油或塑料的蛋白质。研究人员还测试了该模型解读其他复杂基因组特征的能力——包括猛犸象基因组。
不同于AlphaFold 等 AI 工具,前者可以预测单个蛋白质的 3D 结构;Evo 2 则专注于大规模基因组“语言”——检查和生成整个 DNA 或 RNA 序列,有时跨越多达一百万个碱基。AlphaFold 一次处理一个蛋白质,而 Evo 2 可以管理多基因结构、调控区域,并同时设计蛋白质及其相应的 RNA;从方法论上讲,AlphaFold 使用结构生物学数据作为训练标签,而 Evo 2 更像是以自监督方式进行训练的大型语言模型;在实践中,两者是互补的:Evo 2 可以生成潜在的新型蛋白质或 CRISPR 系统,然后 AlphaFold(或类似的结构预测模型)可以评估它们可能的 3D 构象。
未来,研究人员希望通过实验室实验验证 Evo-2。例如,他们设计了改变染色质可及性的序列(染色质会影响多细胞生物体细胞的身份),并正在与另一个实验室合作在小鼠细胞中测试这些设计。
参考链接:
1.https://arcinstitute.org/manuscripts/Evo2
2.https://build.nvidia.com/nvidia/evo2-protein-design
免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。
安各洛(深圳)生物科技有限公司 版权所有