每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
自2020年推出以来,已有超过200万研究人员在疫苗开发、癌症治疗等工作中使用了Google DeepMind的AlphaFold 2模型,解决了困扰研究人员超过50年的难题。在帮助科学家预测了数亿种结构后,团队本可以功成身退。然而,他们并没有停下脚步,而是开始了AlphaFold 3的研发。这款新模型由Google DeepMind和Isomorphic Labs团队于今年5月推出,不仅能预测蛋白质折叠结构,还能预测包括DNA、RNA和配体(与蛋白质结合的小分子)在内的所有生命分子的结构和相互作用。
“我们在AlphaFold 2上解决了蛋白质折叠这个几十年的老问题,但从最近的高影响力研究来看,研究人员已经超越了这一点,”Google DeepMind的研究科学家Jonas Adler表示。“他们的结论往往涉及更详细的内容,比如小分子的结合或RNA,这是AlphaFold 2无法做到的。实验研究已经进展到了一个新前沿,为了赶上生物学和化学的最新进展,我们必须能够覆盖所有生物分子。”
这些生物分子包括配体,占所有药物的约一半。Isomorphic Labs的研究负责人Adrian Stecula表示:“在Isomorphic Labs,我们看到了AlphaFold 3在合理药物设计中的巨大潜力,并且已经在日常工作中使用它。新模型解锁了回答诸如‘蛋白质如何与DNA和RNA相互作用?’以及化学修饰对蛋白质结构的影响等问题的能力。”
增加这些额外的分子类型引入了数量级更多的可能组合。“蛋白质是非常有序的,例如,只有20种标准氨基酸,”Jonas说。“而对于小分子来说,空间是无限大的——它们几乎可以做任何事情,非常多样化。”
构建一个包含所有能力的数据库是不可能的,因此推出了AlphaFold Server,这是一种免费工具,允许科学家输入自己的序列,AlphaFold可以为其生成分子复合物。自5月推出以来,研究人员已经使用它生成了超过100万个结构。
“它就像分子复合物的谷歌地图,”Google DeepMind的研究工程师Lindsay Willmore说。“任何不懂编程的用户都可以复制并粘贴他们的蛋白质、DNA、RNA序列或小分子的名称,按一下按钮,等待几分钟,他们就能看到结构和置信度指标,从而评估他们的预测。”
为了让AlphaFold 3处理更广泛的生物分子范围,团队大幅扩展了新模型的训练数据,包括DNA、RNA、小分子等。“我们能够说,‘让我们训练所有现有的数据集,看看能走多远,’”Lindsay说。“结果表明,我们可以走得很远。”
AlphaFold 3的另一个重大变化是生成结构的模型架构的转变。AlphaFold 2使用的是复杂的基于几何的模块,而AlphaFold 3采用的是基于扩散的生成模型,这大大简化了模型处理所有新分子类型的方式。
但这一变化也带来了新问题:由于蛋白质的“无序区域”没有包含在训练数据中,扩散模型会尝试创建一个不准确的“有序”结构,而不是预测无序区域。因此,团队转向AlphaFold 2,它已经非常擅长预测哪些相互作用是无序的,哪些不是。“我们使用AlphaFold 2的预测结构作为AlphaFold 3的蒸馏训练,让AlphaFold 3学习预测无序,”Lindsay说。
“我们有一句话:‘相信螺旋面,拒绝意大利面,’”Jonas补充道。
AlphaFold 3的一个预测示例。中央是蓝色紧密卷曲的螺旋结构,周围是橙色松散交织的结构,类似于意大利面。这些颜色代表模型预测的置信度。
团队期待看到研究人员如何使用AlphaFold 3推动基因组学研究、药物设计等领域的发展。
“看到我们取得的进展,真是令人难以置信,”Jonas说。“过去非常困难的事情现在变得很容易,过去不可能的事情现在变得可能——虽然这里仍然有非常难的问题需要解决,但我们对AlphaFold 3能帮助解决这些问题充满期待。”