Evo 由Arc Institute、斯坦福大学和TogetherAI的研究人员开发,是一个长上下文的生物基础模型,能够泛化生物学的基本语言:DNA、RNA 和蛋白质。它能够从单个分子到整个基因组规模(超过650 kb
)进行预测任务和多模态长序列生成设计。
该文首先列出了Evo模型在生成 CRISPR-CAS9 系统和个体基因组层面的能力(这真是超燃的功能,ChatGPT 让 IT开发者们失业;Evo 让生命研究者失业),然后简介了模型的训练和应用。
CRISPR 系统的生成
如今,生物学的单个生成模型通常只关注单一模态——例如,仅关注蛋白质或 RNA。Evo的关键突破之一是能够执行多模态设计来生成新型 CRISPR 系统,这是一个需要同时创建包含蛋白质和 ncRNA(引导 RNA)的大功能复合物的任务,而现有的生成模型无法实现。
通常,发现新的 CRISPR 系统需要在自然基因组中搜索已验证功能的相似序列。相反,Evo 通过直接从生成模型中生成序列,为获得生物多样性序列开辟了新的途径,这是创建新形式的基因组编辑工具的一个激动人心的前沿。
图示:CRISPR-Cas 分子复合物的生成设计。(来源:Arc 官网)
作者用从宏基因组和基因组数据中提取的 82,430 个CRISPR-Cas loci微调了Evo模型,且在模型中增加了特定的提示标识如 Cas9, Cas12, and Cas13 以便后续可以根据这些标识设计特定蛋白家族的 CRISPR-Cas 系统。
作者对生成的蛋白和 crRNA:tracrRNA的结构与实验鉴定的结构做了比较,发现其核心构象一致,但未进一步实验验证其编辑基因组的效率。
基因组规模的序列生成
除了在多种不同分子如蛋白质和 ncRNA的多模态上生成外,Evo 还有一个潜力是在整个基因组的规模上生成序列 (生信宝典注:随着模型进一步提高,有望合成新物种,类似Nature Plants | 首个多细胞植物染色体的部分设计与合成)。在这个规模上生成序列的能力得益于新的机器学习架构的长上下文能力以及其高效的推理模式。
Evo在单个 GPU 上生成了超过 650 kb
核苷酸的序列 (最小的细菌基因组 580 kb
),新生成的基因组中编码密度与自然基因组相近,且含有成千上万个潜在的蛋白质编码序列。其中一些蛋白与 GO 注释的同类自然存在的蛋白结构相似。因为在训练时加入了物种标签,可以指定生成特定物种的基因组序列来检验其对物种基因组的重现能力。
这么强大的模型是怎么训练的?
Evo 使用大量的原核生物和噬菌体基因组序列在单核苷酸
(单字节,注:这里同常规自然语言模型不同,自然语言模型 1 个 token 通常对应一到多个字符,这里一个 token 对应一个字符,更容易处理单核苷酸突变类似的情况。之前 AlphaFold在处理单氨基酸突变的蛋白结构预测上表现不好。)分辨率上进行训练。
Evo 拥有70亿
参数,使用131 k标记
的上下文长度来生成DNA序列,基于StripedHyena(条纹狗)架构,这是一个旨在提高效率和质量的深度信号处理架构,超越了现有的Transformer架构 (注:起码在小规模训练上超越了Transformer架构,但不知道在 ChatGPT 相近的规模上是否能超越 ChatGPT)。
图示:基于 StripedHyena 的 Evo 模型架构。(来源:论文)
Evo可通过GitHub仓库(https://github.com/evo-design/evo)和Together playground 获取,用户可以在浏览器中生成DNA。(链接:https://api.together.xyz/playground/genomics/togethercomputer/evo-1-131k-base,*测试了下并不能用,倒是里面有 LAMMA 模型可以使用*)
此外,作者还在HuggingFace
上发布了模型权重 (可以应用) 和中间检查点 (checkpoints,可以再训练),并且即将开源一个由大型的300 B的训练数据集,称之为OpenGenome
,包含270万
个公开可用的原核生物和噬菌体基因组,这是目前公开可用的最大的DNA预训练数据集,希望这能加速DNA语言建模这一激动人心且影响深远的领域的研究。
你所需要的只是DNA?
在生物学中,一切都始于DNA。基因组携带一整套DNA(遗传密码)以构建一个完整的生物体。在这些基因组中蕴含着代代进化的结果,反映了对不断变化的环境的适应。从这一代码中衍生出其他复杂的生物语言,包括蛋白质、RNA等。尽管这些语言层次多样,但它们都在基因组中统一了起来。
图示:Evo 生成的单个序列的蛋白质预测的结构。(来源:Arc 官网)
AI基础模型的出现为生物序列建模开辟了一条有希望的道路,但在整个基因组水平上的建模对许多方法而言仍然很难完成。DNA序列非常长(高达数十亿个核苷酸),而且要完全理解进化的影响(每次可能只影响单个核苷酸)所需的敏感性非常高,使得这一领域成为大规模预训练的一个特别的挑战。到目前为止,尚不清楚AI模型是否能够有效地学习这么复杂的模式。因此,现有的使用AI建模生物序列的突破主要集中在短上下文、特定任务和单一模态能力上(如AlphaFold, ESMFold, Nucleotide Transformer等模型)。
图示:Evo 模拟了生物学的中心法则。(来源:Arc 官网)
Evo是一个 DNA 基础模型
这些挑战(以及“DNA是否就是你所需要的一切”这一根本问题)激励开发Evo。特别地,想要一个能够整合长基因组序列信息同时保持对单个核苷酸变化敏感的基础模型。一个能有效学习基因组的模型不仅能理解DNA、RNA和蛋白质这些基本组分,还要能理解它们之间如何相互作用以创建复杂系统。这可以加速我们对生物学机制的理解和改造生命的能力。
第一个DNA 预训练模型上的缩放定律的验证
为了克服在长序列长度和字节级分辨率下序列建模的挑战,Evo采用了新开发的StripedHyena架构。通过最新的架构设计进步,Evo实现了长上下文和单核苷酸分辨率的处理。
StripedHyena通过混合旋转注意力 (hybridizing rotary attention)和鬣狗操作符 (hyena operators) (新的算法有狗、又有蛇,Mamba,Conda,都是老外的偏爱),有效地处理和回忆长序列中的模式。
Transformer 架构:当前各种大模型普遍依赖的技术,但其核心模块注意力机制的计算复杂度与输入序列长度呈二次方增长趋势,限制了其在长序列下的应用,如很难处理一整本书等。
StripedHyena结构:是一种混合架构,由多头、分组查询注意力和排列在Hyena块中的门控卷积组成,不同于传统的decoder-only的Transformer:通过将卷积表示为状态空间模型(SSM,state-space model)或截断滤波器,在Hyena块中进行常数内存解码。
StripedHyena也是「首个」在短上下文和长上下文评估中,以相同模型尺寸,实现了与最佳开源Transformer模型性能相匹敌的模型:在OpenLLM基准任务上与Llama-2, Yi和Mistral 7B实现了相当的性能,并且在长上下文摘要上表现更出色。
为了帮助Evo模型设计并在规模上优化性能,作者首次进行了DNA预训练上的缩放定律分析,训练了从6 M到1 B参数的300多个模型。结果发现,当在单核苷酸、字节级分辨率下训练时,Transformer模型的扩展性不如在处理自然语言时表现那样好,这表明自然语言中的主流架构不一定适用于DNA训练。
大模型的缩放定律:模型的性能强依赖于其规模,弱依赖于其形状(深度和宽度,网络的层数和节点数)
开箱即用 - 必须基因测试 (Zero-shot)
Evo模型可以在整个基因组水平上理解生物功能。基于计算基因必需性测试,Evo 可以预测哪些基因对生物体的生存是必需的,这一预测基于小的DNA突变,无需任何监督即可完成。相比之下,实验室中的基因必需性实验可能需要 6 个月到一年的努力。而用神经网络进行几次正向传递就可以替代这一过程。
关于各种 shot
zero-shot 与 few-shot,回到 NLP 场景。用 wikipedia、新闻等,训练一个 GPT 模型,直接拿来做对话任务,这个就是 zero-shot。然后,发现胡说八道有点多,找了一些人标注了少量优质数据喂进去,这就是 few-shot。
chatGPT 的发展史,就是从 zero-shot 到 few-shot。(摘自沐神的 paper reading 系列)
GPT-3 之前,跟 Bert 是两条路线的竞争关系。
GPT-2 是 zero-shot。效果没有超过 bert,又想发 paper,就把自己的卖点定义为 zero-shot(方法创新),即完全的无监督学习,论文的题目:Language Models are Unsupervised Multitask Learners。
GPT-3 是 few-shot。效果比 bert 好,不用找学术方法的卖点了,而且,zero-shot 做产品的性价比确实不高,换成了 few-shot,也就是找了一些人做标注。论文的题目:Language Models are Few-Shot Learners。
chatGPT 是 HFRL。GPT-3 之后的问题是:few-shot 时到底 shot 啥(标注哪些数据)?他们跟强化学习结合起来,也就是 human feedback reinforcement learning,俗称 HFRL。也就是 chatGPT 的核心技术之一。
DNA、RNA 和蛋白质多模态的无监督预测 (Zero-shot)
由于 Evo 在包含蛋白质编码序列的长基因组序列上进行了训练,作者测试了该模型是否能够充分学习蛋白质语言以至于可以直接执行蛋白质功能预测而无需任何微调。
Evo 在所有其他核苷酸模型中表现出色,包括仅在蛋白质编码序列上进行训练的模型,甚至与 ESM 或 ProGen 等最先进的蛋白质语言模型水平相当。
但是 Evo 的基因组训练数据中不仅仅包含蛋白质——基因组中还有 ncRNA 和调控 DNA 序列。值得注意的是,下图展示了 Evo 也能实现对 ncRNA 和调控 DNA 的无监督功能预测,从而涵盖了中心法则的所有三种模态。
CRISPR 系统的生成
如今,生物学的单个生成模型通常只关注单一模态——例如,仅关注蛋白质或 RNA。Evo的关键突破之一是能够执行多模态设计来生成新型 CRISPR 系统,这是一个需要同时创建包含蛋白质和 ncRNA(引导 RNA)的大功能复合物的任务,而现有的生成模型无法实现。
通常,发现新的 CRISPR 系统需要在自然基因组中搜索已验证功能的相似序列。相反,Evo 通过直接从生成模型中生成序列,为获得生物多样性序列开辟了新的途径,这是创建新形式的基因组编辑工具的一个激动人心的前沿。
图示:CRISPR-Cas 分子复合物的生成设计。(来源:Arc 官网)
作者用从宏基因组和基因组数据中提取的 82,430 个CRISPR-Cas loci微调了Evo模型,且在模型中增加了特定的提示标识如 Cas9, Cas12, and Cas13 以便后续可以根据这些标识设计特定蛋白家族的 CRISPR-Cas 系统。
作者对生成的蛋白和 crRNA:tracrRNA的结构与实验鉴定的结构做了比较,发现其核心构象一致,但未进一步实验验证其编辑基因组的效率。
基因组规模的序列生成
除了在多种不同分子如蛋白质和 ncRNA的多模态上生成外,Evo 还有一个潜力是在整个基因组的规模上生成序列 (生信宝典注:随着模型进一步提高,有望合成新物种,类似Nature Plants | 首个多细胞植物染色体的部分设计与合成)。在这个规模上生成序列的能力得益于新的机器学习架构的长上下文能力以及其高效的推理模式。
Evo在单个 GPU 上生成了超过 650 kb
核苷酸的序列 (最小的细菌基因组 580 kb
),新生成的基因组中编码密度与自然基因组相近,且含有成千上万个潜在的蛋白质编码序列。其中一些蛋白与 GO 注释的同类自然存在的蛋白结构相似。因为在训练时加入了物种标签,可以指定生成特定物种的基因组序列来检验其对物种基因组的重现能力。
Evo 的安全和负责任的开发
Evo 是第一个能够以单核苷酸分辨率预测和生成整个基因组规模的 DNA 序列的技术。大规模 DNA 模型(如 Evo)带来的潜在能力也带来了很多挑战,还需要额外的工作来确保这些能力的安全部署,并造福于人类。在论文中,作者对潜在风险和预防措施进行了深入讨论。
未来计划
Evo 标志着对建模生物序列以及更广泛领域理解的看法出现了转折。我们相信这项技术有望加速科学发现和理解(如生物学、化学或材料科学),并可应用于包括药物发现、农业和可持续性发展在内的实际问题。
尽管结果显示了令人鼓舞的计算能力,但仍需要对生成的序列进行进一步的实验验证。基础模型将成为越来越重要的科学工具。我们期待着训练更大的模型,改进它们的生成能力,并将 Evo 的预训练扩展到人类基因组。通过增强这些模型所学习的生物复杂性,我们相信我们可以在抗击复杂疾病和改善人类健康方面取得重大进展。
虽然 Evo 模型具有卓越的功能,但仍然存在许多技术限制和挑战。研究人员在 300 B 原核生物 token 数据集上对 Evo 进行了预训练,该数据集仅代表公开可用的基因组数据的 PB 级的一小部分。由于该模型仅基于原核数据进行训练,因此它预测突变对人类蛋白质适应性的功能影响的能力是有限的。
自然语言模型通常很难在长序列上保持连贯和多样化的生成,而 Evo 可以表现出类似的特性。在基因组规模上,Evo 生成了数百个碱基,展示了对基因组组织的高水平理解,但难以包含关键 token 基因。这些限制也反映了自然语言模型的限制,随着规模的扩大、 token 数据、提示工程以及与人类偏好的校对,自然语言模型得到了改进。研究人员认为 DNA 模型也会出现类似的情况。
文章的通讯作者之一 Patrick D. Hsu 说:「未来,我们将把 Evo 扩展到真核和人类序列。我对该模型帮助或取代湿实验室实验的潜力感到非常兴奋。许多小组对必需基因进行了费力的 CRISPR 筛选——我们用神经网络的前向传递来代替它。」
该模型于 2024 年 2 月 27 日发布了研究「Sequence modeling and design from molecular to genome scale with Evo」的预印本。
源代码:https://github.com/evo-design/evo
论文链接:https://arcinstitute.org/manuscripts/Evo
相关报道:
https://arcinstitute.org/news/blog/evo
https://twitter.com/pdhsu/status/1762512557565456825
高颜值免费 SCI 在线绘图(点击图片直达)
往期精品(点击图片直达文字对应教程)
机器学习