PNAS | 蛋白质结构预测屈服于机器学习

今天为大家介绍的是来自James E. Rothman的一篇短文。今年的阿尔伯特·拉斯克基础医学研究奖表彰了AlphaFold的发明,这是蛋白质研究历史上的一项革命性进展,首次提供了凭借序列信息就能够准确预测绝大多数蛋白质的三维氨基酸排列的实际能力。这一非凡的成就是由Demis Hassabis、John Jumper以及他们在Google DeepMind和其他合作者的同事们共同取得的,它建立在几十年的实验性蛋白质结构确定(结构生物学)和多种融合生物启发的统计方法的渐进发展基础之上。但是,当Jumper和Hassabis将创新的基于神经网络的机器学习方法融入其中时,结果引起了轰动。实现半个世纪以来的蛋白质结构预测梦想已经加速了化学、生物学和医学等多个领域的进展和创新。

2c19c65684a8e795e4ee0f57abb89a14.png

蛋白质

在1838年,荷兰化学家G. J. Mulder创造了一个科学术语——蛋白质,这个术语被选得再合适不过。它源自希腊词汇"prōteios",意味着"第一等级"。蛋白质在接下来的六十年中一直没有明确定义,直到逐渐(从1900年到1965年)揭示出所有蛋白质都是由20种基本氨基酸组成的多肽链,其序列由遗传密码规定,并且能够折叠成独特的结构(构象),这些结构决定了它们的化学性质,从而影响生物功能。毫无疑问,蛋白质是"第一等级"的,因为细胞内几乎没有不涉及它们的生物过程。

27f2cd88da327e112cdf8610795e56d9.png
图 1

到了20世纪60年代,了解蛋白质如何折叠成独特的结构成为生物学的一个核心问题,人们期望能够预测蛋白质的结构将带来重大的益处。早期就已认识到,每个多肽链理论上可以假定有着天文数字级的可能构象,其中绝大多数会导致聚集和沉淀。然后在1961年,使用小型分泌酶核酸酶,Anfinsen证明了最简单的可能性成立——氨基酸序列本身可以决定链的折叠方式,而在这个过程中不需要额外的遗传信息。这一关键性实验将蛋白质折叠重新定义为物理问题,其简单思想是折叠状态是多肽链的最低可访问能量状态。但是,相应能量景观的极端复杂性,有许多局部能量井来捕获折叠中间体(图1),使得直接计算甚至模拟在除了最简单的情况以外几乎是棘手的,即使在计算能力呈指数增长的时期也是如此。

到了1990年,人们明白了生物细胞中的蛋白质折叠更加复杂,需要编码分子伴侣的基因。实际上,在高度进化的有机体中普遍存在的多域和多亚基蛋白质通常不会在Anfinsen风格的实验中高效或迅速地重新折叠。这绝不否定Anfinsen的核心思想,即最终的构象完全由多肽链的物理性质决定。但是,分子伴侣作为催化剂促进蛋白质折叠的发现是细胞生物学的一个基本进展。分子伴侣蛋白质本质上是ATP酶,通过将ATP水解的能量引导到折叠多肽链的能量陷阱中,"踢"出折叠多肽链,或者在首次避免这些陷阱(图1)中,同时屏蔽疏水侧链以防止聚集。通过这样做,分子伴侣蛋白质通过加速跨越能量景观的运动来催化折叠的整个过程。

结构预测

随着逐渐明显的趋势,直接的、仅基于物理的方法在没有像量子计算那样的革命性突破的情况下最终无法达到原子级的准确性,到了2010年左右,研究人员开始转向受生物启发的统计方法。其中一个基础性思想是,即使在氨基酸序列中它们彼此距离很远,但在折叠结构中物理上接触的氨基酸将以相关的方式在进化中变化。这些思想被纳入同源蛋白质的多序列比对(MSAs)中,这对所有预测算法都至关重要,包括AlphaFold。另一个基础性的统计概念涉及结构模板。除了同源序列,同源的三维结构也可以作为直接的蛋白质结构预测的起点。最初,基于模板的预测是主导方法,但协同进化方法在早期的2000年代,DNA序列的信息迅猛增长超越了蛋白质结构,于是占据了主导地位。在过去的10年中,随着冷冻电镜结构测定的出现,绕过了晶化的瓶颈,研究人员又开始关注蛋白质结构。

最重要的因素被证明是机器学习,它使得来自MSAs和模板以及其他数据的信息能够更加高效地被利用。尽管MSAs和模板的信息可以在单独的流程中使用,但它们也可以以交互方式同时使用。这基本上是像AlphaFold这样的"神经网络"系统在从数据中学习最佳的组合方式时所做的。为了客观评估进展,折叠研究领域建立了一个两年一次的比赛,即蛋白质结构预测的关键评估(CASP),该比赛测量了针对当时尚未公开的实验确定的结构的竞争方法的比较准确性。DeepMind团队在第13届会议中首次亮相,并且引起了广泛关注,他们的AlphaFold(版本1)在96个竞争对手中表现出色,但仍然远未达到原子级的预测准确性。他们的算法为43个测试蛋白质中的25个生成了最佳结构。

然而,Hassabis知道这还不够好。他们首先尝试将AlphaFold1推向极限。大约在CASP13后的六个月后,意识到它无法达到我们想要的原子级准确性,无法真正解决问题,也无法对实验学家和生物学家有所帮助。因此做出了我们需要重新开始的决定...但在那之后的大约六个月到一年内,情况变得更糟,而不是更好。AlphaFold2系统(早期版本)比AlphaFold1差得多。在准确性方面似乎退步是非常可怕的时期。John Jumper于2017年加入了DeepMind,担任研究科学家,他及时为CASP13/AlphaFold1项目提供了一些新的想法,这些想法后来成熟为AlphaFold2。Hassabis显然对Jumper印象深刻,并在2018年7月提拔他为AlphaFold2的负责人。Hassabis认识到Jumper在蛋白质物理学和机器学习领域的跨学科背景的重要性。至关重要的是,他们共享一个大胆的信念,即在AlphaFold2性能不断恶化的情况下,仍然可以解决预测问题(即准确性可以达到基因组尺度的1埃)。

最终,Jumper和Hassabis带领他们的团队进行了完全的系统重构,包括许多创新。描述这些方法的《自然》论文长达约60页。尽管这篇2021年8月的发表是一个重要的里程碑,但关键事件实际上发生在一年前,当所有参赛者提交了他们的结果给CASP14竞赛(2020年5月至7月)。当结果揭晓时(2020年12月),结构生物学界感到震惊。AlphaFold2远远超越了所有竞争对手,将预测提升到了原子级准确度,实现了飞跃。

为什么AlphaFold可行

415f7cb30093bb98337880e69e998cce.png
图 2

尽管AlphaFold神经网络是由人类设计的,就像人脑一样,我们可能永远无法完全理解它。AlphaFold是一种工程产品,其内部解剖结构是完全明确的(图2)。理解它究竟如何工作,就成了一个独立的科学问题。在神经科学中,经典的方法是消融,字面意思是去除大脑的一部分,或更微妙地切断连接,甚至更微妙的是在细胞层面引入光遗传损伤,或者在人类情况下观察与病变相关的功能缺陷。Jumper、Hassabis和他们的团队进行了系统性的计算消融研究,明确证明了各种不同的机制以一种在很大程度上合并到整体的方式起作用。

设计中的一个基本机制是机器学习的人工神经网络,它捕捉了长程和短程相互作用,与以前的算法不同,以前的算法通常只考虑了局部或成对的相互作用,部分通过考虑多肽链几何结构的基本特征来实现。迭代细化的使用类似于人脑的工作方式,是其另一个核心概念。其他关键特征包括一个新的架构,用于联合嵌入MSAs和成对特征;一个新的输出表示和相关的损失,可以实现准确的端到端预测;使用中间损失来实现迭代细化;以及涉及自我蒸馏的新的培训程序。该网络分为两个主要阶段(图2)。首先,网络的主干通过重复使用称为Evoformer的新型网络块来处理输入,最终表示经过处理的MSAs和残基对,并包含基于注意力的组件。消融研究表明,在Evoformer中形成了一个具体的结构假设,并不断更新。Jumper和Hassabis在他们的论文中解释说,Evoformer中的关键创新包括在MSA和对表示之间交换信息的新机制,这使得可以直接推断空间和进化关系。这些更新本质上创建了预测结构收敛到正确解的轨迹,并可以视为在明确的分子动力学或蒙特卡洛模拟中的“动作”。其次,主干后面是结构模块,它以每个残基的坐标形式生成3D结构。随着每次迭代,这些结构迅速发展并细化,形成了具有原子细节的高度准确的蛋白质结构。关键的创新包括分解链结构,以允许对结构的所有部分进行同时细化,从而可能提供一种避免地景上多个能量陷阱(图1)的机制。

该网络是从开放获取的蛋白质数据银行(PDB)中进行训练的,这实际上是几代结构生物学家的努力累积而成。PDB目前包含约200,000个独特的蛋白质结构和相关序列,主要来自X射线晶体学和最近的冷冻电镜技术。然后,训练好的网络被用来预测另一个重要的公共库(Uniclust30)中约350,000个不同序列的结构。最后,使用混合PDB数据和预测结构数据集作为训练数据,从头开始训练了新的AlphaFold网络。这种自我蒸馏过程鼓励网络利用未伴随结构的序列数据,并观察到总体准确性的提高。

从GO开始

Hassabis和Jumper的成功展示了当两个领域融合时释放出的创造性能量。Demis Hassabis出生在英国伦敦,有希腊塞浦路斯和新加坡华人的血统,他是一个官方认可的神童,13岁时已经是公认的国际象棋大师,可以与成年人比赛。17岁时,他加入了Bullfrog Productions公司,在那里设计了畅销游戏《主题公园》等游戏。然后,他进入剑桥大学,在那里学习计算机科学和数学,并从生物学专业的朋友口中第一次听说了蛋白质折叠问题。毕业后(1997年),他加入了Lionhead Studios,然后创办了自己成功的公司Elixir Studios。"我一直在思考和致力于通用人工智能,甚至在大学时也是如此。我倾向于记下我认为有朝一日可能会变得可行的科学问题...而蛋白质折叠问题正是其中之一。"然而,他意识到他仍然需要学习如何专业地处理科学问题,因此他在伦敦大学学院学习了认知科学。在此之后,Hassabis创立了DeepMind(2014年被谷歌收购),他和同事最初专注于创建用于掌握游戏的学习算法,最终在2016年DeepMind的AlphaGo惊人地击败了传奇围棋选手李世石。"我们几乎是在从首尔AlphaGo比赛回来的那天开始的...我们从游戏开始,因为开发AI和测试各种东西更加高效...但最终,那从来不是最终目标。"在剑桥大学毕业近20年后,Hassabis准备翻出他的旧笔记。

John Jumper出生在阿肯色州。他的非传统之旅相对传统的从物理和数学(范德堡大学,2007年学士学位)开始,然后获得了前往剑桥大学的马歇尔奖学金。然而,他决定在金融领域担任“量化分析员”的职位,2008年申请加入了DE Shaw公司,这家由计算机科学家David Shaw创立的著名公司。碰巧的是,但直到他申请时,Jumper并不知道,Shaw已经从投资回归到基础研究,并专门设计了用于蛋白质折叠和药物发现的计算机设备,在D.E. Shaw Research工作,他被邀请加入Shaw的研究团队。在前沿计算领域工作了3年后,Jumper既致力于解决问题,也充分意识到他可能再也不会有如此强大的计算能力。听说DeepMind在围棋之后涉足蛋白质折叠领域,他设法将自己的简历送到Hassabis那里,而今年的阿尔伯特·拉斯克基础医学研究奖的获得者双人组就是在2017年开始合作的。

开普勒和牛顿不同

尽管我们为首次能够从基因序列准确预测基因组规模的蛋白质结构的发明而欢呼,但许多科学家也感到有些不安,因为我们并没有像预期的那样提取出可推广的传统科学解释原则。例如,基于开普勒的定律,我们可以准确预测行星的轨道,但开普勒的技术的全部威力只有在牛顿从中提取了古典力学原理后才被充分释放出来。有许多类似的例子。兰登的X射线,于1895年发现,并于1901年获得首个诺贝尔物理学奖,长时间以来在医学上产生了巨大的影响,尽管在最终从量子力学中理解它们之前,它们仍然是未解之谜。随着时间的推移,我们可以希望会出现有关蛋白质实际如何折叠(与最终形状不同)的类似深刻的见解和新原则。

未来的影响

毫无疑问,当前版本的AlphaFold只是一个开始。它已经在不断改进,以包括多亚单位蛋白质复合体。与任何革命性和强大的技术概念一样,它将吸引开放式创新,并以无法预测的方式发展,触及生物科学的各个角落。作者所知道的每个实验室都在使用AlphaFold并且是高度富有想象力的方式。即使在这些无数的探索远征中不可避免地会失败,也会在许多方面催化改进。然而,AlphaFold可能最长期的影响之一是预示AI即将成为生物学中被接受的、可靠的和有用的发现方法。今天的科学家大多接受了使用模型的培训,但并不真正信任它们,特别是如果他们无法明确理解这些模型。我们准备好信任模型并进行验证吗?

参考资料

Rothman, J. E. (2023). Starting at Go: Protein structure prediction succumbs to machine learning. Proceedings of the National Academy of Sciences, 120(39), e2311128120.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/140037.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

行情分析——加密货币市场大盘走势(11.13)

大饼上涨太快,又开始震荡,但上不去,所以目前来看差不多要做回踩动作,入场空单性价比较高。而且从MACD日线来看,也是进入空头趋势,RSI(14)也是进入了超买区间,值得入手空单…

sqli-labs关卡15(基于post提交的单引号布尔盲注)通关思路

文章目录 前言回顾上一关知识点二、靶场第十五关通关思路1、判断注入点2、猜数据库长度3、猜数据库名字4、猜表名长度5、猜表名名字6、猜列名长度7、猜列名名字8、猜数据长度9、猜数据名字 总结 前言 此文章只用于学习和反思巩固sql注入知识,禁止用于做非法攻击。注…

探索C#事件(Event)的强大应用

摘要 在现代软件开发中,对象之间的通信和交互是一个常见而重要的问题。为了解决这个问题,C#作为一种面向对象的编程语言提供了一种强大的特性:事件(Event)。事件可以帮助开发人员实现对象间的松耦合,提高代…

Leetcode100120. 找出强数对的最大异或值 I

Every day a Leetcode 题目来源:100120. 找出强数对的最大异或值 I 解法1:模拟 枚举 2 遍数组 nums 的元素,更新最大异或值。 代码: /** lc appleetcode.cn id100120 langcpp** [100120] 找出强数对的最大异或值 I*/// lc c…

react使用wx-open-launch-weapp的方法

index.html中加载 <script src"https://res.wx.qq.com/open/js/jweixin-1.6.0.js"></script> ios浏览器中,建议直接在app.js中触发 wx.config,其中openTagList写上wx-open-launch-weapp 因为微信需要根据网址计算签名,iosreact中会以根目录为有效网址 …

【Python小程序】求解2 * 2矩阵的逆矩阵

一、内容简介 使用Python求解2 * 2矩阵的逆矩阵。 二、求解方法 我们使用邻接矩阵法来求解2 * 2矩阵的逆矩阵。 det(A): 矩阵A的行列式 adj(A): 矩阵A的邻接矩阵 对于2*2矩阵A 我们有 三、Python代码 基于上述求解方法&#xff0c;我们可以写出Python代码如下&#xff…

camera tuning 常识

#灵感# 把收集的乱东西&#xff0c;归在一起。字体颜色标浅色的&#xff0c;是扩展内容&#xff0c;为了先简单了解&#xff0c;并不做很细致的阐述。 &#xff08;1&#xff09;模组 集成封装好的模组&#xff0c;一般由三个部分组成&#xff1a;镜头&#xff08;lens&#…

Apache DolphinScheduler如何完全设置东八区?

默认情况 为了兼容全世界不同时区&#xff0c;Apache DolphinScheduler 使用的是 UTC 0 时区&#xff0c;包括保存到数据库表中的数据时区&#xff0c;以及展示到页面上的时区。 如果我们想在页面上看到东八区时间&#xff0c;则需要在页面上手动选择上海时区&#xff0c;如下…

【EI会议征稿】第七届结构工程与工业建筑国际学术会议(ICSEIA 2024)

第七届结构工程与工业建筑国际学术会议&#xff08;ICSEIA 2024&#xff09; 2024 7th International Conference on Structural Engineering and Industrial Architecture 随着城市化进程的不断深入&#xff0c;建筑领域的需求也在优化、调整。结构工程的发展依旧受到重视&am…

C与汇编深入分析

汇编怎么调用C函数 直接调用 BL main传参数 在arm中有个ATPCS规则&#xff08;ARM-THUMB procedure call standard&#xff09;&#xff08;ARM-Thumb过程调用标准&#xff09;。 约定r0-r15寄存器的用途&#xff1a; r0-r3&#xff1a;调用者和被调用者之间传递参数r4-r11…

开放领域对话系统架构

开放领域对话系统是指针对非特定领域或行业的对话系统&#xff0c;它可以与用户进行自由的对话&#xff0c;不受特定领域或行业的知识和规则的限制。开放领域对话系统需要具备更广泛的语言理解和生成能力&#xff0c;以便与用户进行自然、流畅的对话。 与垂直领域对话系统相比…

Chrome版本对应Selenium版本

1.获得浏览器版本号和驱动 访问 https://vikyd.github.io/download-chromium-history-version/ 2. 安装selenium pip install selenium3.141.0 -i http://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn 3.解压chromedriver到python目录下 4.设…

软文推广中媒体矩阵的优势在哪儿

咱们日常生活中是不是经常听到一句俗语&#xff0c;不要把鸡蛋放在同一个篮子里&#xff0c;其实在广告界这句话也同样适用&#xff0c;媒介矩阵是指企业在策划广告活动时&#xff0c;有目的、有计划的利用多种媒体进行广告传播&#xff0c;触达目标用户。今天媒介盒子就来和大…

聊一聊 Solid 和 Vue 框架有啥差异性?

Solid.js和Vue.js都是JavaScript框架&#xff0c;在开发者社区中引起了相当大的关注和采用。每个框架都满足了不同的需求和偏好&#xff0c;具有独特的方法论、理念和特性。本文旨在对它们进行评估&#xff0c;探讨它们的基本理念、架构、可用性、性能等方面。 让我们从两个简短…

如何有效概括一段工作经历?

问题描述&#xff1a; 如何有效概括一段工作经历&#xff1f; 解决方案&#xff1a; 1.要有效概括一段工作经历&#xff0c;可以遵循以下几个步骤&#xff1a; 确定关键信息&#xff1a;仔细审查工作经历&#xff0c;确定其中的关键信息和亮点。这可能包括你的职位、工作职责…

ENVI IDL:如何生成FY4A快照

01 数据说明 FY4A全圆盘&#xff08;DISK&#xff0c;全球&#xff09;多光谱影像&#xff0c;panoply软件打开数据层次结构如下&#xff1a; 我们生成快照主要使用到其中的NOMChannel01、NOMChannel02、NOMChannel03进行快照显示&#xff0c;注意我并没有进行辐射定标。 02 生…

瑞吉外卖Day02

小张推荐:瑞吉外卖Day01&#xff0c;瑞吉外卖Day03 1.登陆功能 1.1结果封装类 导入返回结果类R此类是一个通用结果类。服务端响应的所有结果最终都会包装成此种类型返回给前端页面 注意属性名&#xff0c;莫要写错&#xff0c;不然与前端很难对接&#xff01;&#xff01;&…

openlayers 注册投影

注册投影 openlayers 默认支持的坐标系有4326&#xff08;基于美国wgs84坐标系&#xff09;和3857&#xff08;墨卡托投影&#xff09;两种。 所以如果我们想要使用比如4490坐标系&#xff0c;或者4547坐标系&#xff0c;就需要先注册&#xff0c; 注册4490示例代码如下 如…

抖音商城双11好物节,从供需两侧重新定义“好货”

【潮汐商业评论/原创】 你用的第一款护肤品是什么&#xff1f; 大部分人回忆起童年的时候&#xff0c;想起来的都是那款有着牛奶香味的、塑料包装的小袋白色乳霜——郁美净儿童霜。 但是不知何时&#xff0c;它逐渐淡出了很多人、特别是年轻人的视野&#xff0c;直到今年在互…

20 个好用的一行 Java代码

今天分享给大家20个 令人惊叹的 Java一行代码&#xff0c;让你们的工作更轻松。一起来看看吧&#xff01; 1. 获取浏览器 Cookie 的值 使用document.cookie 来获取 Cookie 的值。 2. 将 RGB 转换为十六进制 3. 复制到剪贴板 使用 navigator.clipboard.writeText 轻松将任何文本…