基于注意力的几何感知的深度学习对接模型 GAABind - 评测

GAABind 作者是苏州大学的生物基础与医学院, 期刊是 Briefings in Bioinformatics, 2024, 25(1), 1–14。GAABind 是一个基于注意力的几何感知蛋白-小分子结合模式与亲和力预测模型,可以捕捉小分子和蛋白的几何、拓扑结构特征以及相互作用。使用 PDBBind2020 和 CASF2016 作为训练数据集,可以达到 82% 的结合模式预测能力,亲和力的预测的皮尔森相关系数为 0.803。

一、背景介绍

GAABind 来源于苏州大学基础医学与生物科学学院的胡广教授为通讯作者的文章:《GAABind: a geometry-aware attention-based network for accurate protein–ligand binding pose and binding affinity prediction》。文章链接:https://academic.oup.com/bib/article/25/1/bbad462/7473491 。该文章在 2023 年 11 月 22 日发表于 《Briefings in Bioinformatics》 上。

准确预测结合构象和结合亲和力是计算方法理解蛋白质-配体相互作用的关键挑战。传统的分子对接工具在构象搜索采样时需要很高的计算成本。现有的深度学习方法在分子表示学习和分子间相互作用建模方面也不尽人意。为此,作者提出了 GAABind ,这是一种几何感知的基于注意力的深度学习模型,能够在多任务学习框架内有效预测口袋-配体结合构象结合亲和力。GAABind 全面捕捉了结合口袋和配体的几何和拓扑特性,并采用表达性强的分子表示学习来建模分子内相互作用。此外,GAABind 熟练地学习分子间的多体相互作用,并通过精心设计的网络模拟配体在与蛋白质相互作用过程中动态的构象适应。

作者在 PDBbind v2020 上训练了 GAABind,并在 CASF 2016数据集上进行了评估。结果表明 GAABind 在结合构象预测中的成功率达到 82.8%,而预测的结合亲和力与实验值之间的皮尔逊相关系数高达 0.803 。此外,作者还评估了 GAABind 在严重急性呼吸综合症冠状病毒 2 型主要蛋白酶交叉对接数据集上的表现。在该评估中,GAABind 在结合构象预测中的成功率达到 76.5%,并在结合亲和力预测中与所有基准方法相比,获得了最高的皮尔逊相关系数。

二、模型介绍

理解蛋白质-配体相互作用是药物开发中的一个重要步骤。由于实验方法的花费和时间成本较高,所以计算方法已经成为一种新的研究范式。计算识别蛋白质-配体相互作用的三个主要问题包括准确预测:(1) 结合位点:蛋白质表面配体可以结合的特定区域;(2) 结合构象:配体结合其靶蛋白时所采用的特定取向和构象;(3) 结合亲和力:相互作用的强度。

分子对接是一种广泛用于预测蛋白质-配体的结合构象和结合亲和力的计算方法。传统的对接工具通过两个主要操作来预测蛋白质-配体的结合构象和结合亲和力:构象采样和评分。

近年来,提出了许多基于深度学习的评分函数,预测结合亲和力。基于蛋白-小分子复合物的模型利用从蛋白质-配体结合结构中获取的分子间相互作用信息,通常优于无复合物模型。然而,大多数蛋白质-配体复合物结构并不可用,通过实验方法或对接技术获取复合物结构涉及高昂的成本和劳力。

只有少数基于深度学习的方法专门用于蛋白质-配体结合构象预测,包括 DeepDock、EDM-Dock、TankBind 和 Uni-Mol。这些方法通常由两个阶段组成。第一阶段专注于学习分子表示,而第二阶段则建模分子间相互作用,以预测蛋白质与配体之间的原子距离。预测的分子间距离随后被用于通过差分进化、反向传播或距离几何优化等策略生成结合构象。

在第一阶段,DeepDock、EDM-Dock 和 TankBind使用图模型来表示分子。然而,图模型面临过度平滑和捕捉长距离依赖性困难等挑战。相比之下,Uni-Mol 结合了原子和成对表示与基于变换器的网络,建模分子的 3D 结构。然而,输入的成对表示仅包含原子对之间的几何距离,缺乏对分子关键 2D 拓扑信息的整合。此外,成对表示仅从原子表示中接收更新的注意力权重,忽略了分子表示学习中成对之间的多体相互作用。

进入第二阶段,DeepDock 和 EDM-Dock 以成对方式连接分子图的节点特征,然后将其输入多层感知器以预测分子间距离。然而,这种简单的特征连接方法未能充分捕捉分子间相互作用的复杂性。Uni-Mol 将学习到的分子表示连接成口袋-配体复合物表示,随后作为整体分子通过基于变换器的网络预测原子距离,对分子间和分子内相互作用没有区别对待。TankBind 使用分子图的节点特征初始化口袋-配体相互作用嵌入,并使用一个结合分子内距离图的三角函数模块对其进行更新。虽然三角函数模块整合了分子内几何约束,但分子内距离图的使用并未全面整合分子内相互作用。

为了解决当前方法的局限性,作者提出了 GAABind,这是一种几何感知的基于注意力的网络,用于同时预测蛋白质-配体的结合构象和结合亲和力。

3D 结构在分子相互作用中发挥的重要作用,这促使作者将几何感知注意力纳入模型。这一机制通过整合几何信息扩展了传统的注意力模型,从而增强了原子间相互作用的建模,并实现了配体与蛋白质之间物理上合理的几何关系的学习。在 GAABind 中,作者利用原子和成对嵌入进行分子表示。原子嵌入用于表示分子中的每个原子,而成对嵌入则表示原子对之间的关系。GAABind 的核心在于原子-成对注意编码块和互交块。前者专注于学习富有表现力的分子表示,而后者有效建模口袋与配体之间的互相作用。通过利用这些组件,GAABind 对口袋-配体对距离、配体对距离和蛋白质-配体结合亲和力进行预测。基于预测的距离,作者采用简单高效的反向传播方法生成配体的结合构象。在 CASF 2016 基准数据集上的实验表明,GAABind 在结合构象预测方面的表现优于其他先进的基准方法。此外,GAABind 在预测结合亲和力方面表现相当,且不依赖于蛋白质-配体复合物结构作为输入。

文章的主要贡献如下:

(1)作者引入了原子-成对注意编码块(Atom–Pair Attentive Encoding Block),这是一种用于富有表现力的分子表示学习的新方法。在该块中,原子和成对嵌入交替更新并相互通信,促进了输入分子的分子内相互作用的全面编码。

(2) 为有效建模口袋与配体之间的互相作用,作者提出了互交块( Mutual Interaction Block)。该块涉及一个迭代过程,包括口袋/配体到复合物、复合物自更新和复合物到配体的信息流阶段,从而实现对对接过程的有效和动态建模。

(3) 通过结合原子-成对注意编码和互交块,作者提出了 GAABind,这是一个强大的框架,用于预测口袋-配体结合构象和结合亲和力。实验结果表明 GAABind 在这两项任务中的稳健表现。

2.1 模型框架

GAABind 的整体架构如下图所示。给定一个已知 3D 结构的结合口袋和处于任何未结合(apo)构象的配体,首先提取输入分子的特征,并采用原子-成对注意编码块(Atom–Pair Attentive Encoding Block)为每个分子获取原子和成对嵌入。随后,通过整合口袋和配体的原子嵌入来初始化口袋-配体复合物对嵌入。接着,采用互交块( Mutual Interaction Block)基于分子间相互作用迭代更新复合物对和配体对嵌入。利用这些更新后的成对嵌入,GAABind 在预测块(Prediction Block)中对复合物对距离、配体对距离和输入的结合亲和力进行预测。通过预测的复合物对距离和配体对距离,可以使用简单高效的反向传播方法生成配体的3D结合构象。

模型的关键模块是原子-成对注意编码块(Atom–Pair Attentive Encoding Block)、互交块( Mutual Interaction Block)和预测块(Prediction Block)等。接下来主要介绍这几个模块。

2.1.1 原子-成对注意编码块

原子对注意编码块从嵌入初始化层开始,在这里,利用输入分子的提取特征初始化每个分子的原子和对嵌入。接着,交替使用原子注意层和对注意层来更新原子和对嵌入。结合口袋和配体的原子对注意编码块共享相同的架构,但权重不同。

对于嵌入初始化层,为了减少计算负担,仅考虑每个分子中的重原子。原子嵌入是使用基于输入原子特征的嵌入矩阵初始化的。对于对嵌入初始化,作者采用 Zhou 等人提出的空间位置编码方法来捕捉分子的几何特性。这种方法利用一种对配对类型敏感的高斯核来嵌入所有原子对的欧几里得距离。此外,原子之间的键特征也被纳入对嵌入中,这些特征包含重要的化学和拓扑信息。因此,使用的特征对全局旋转和位移是不变的。

如下图所示,作者在原子注意力层中使用多头自注意力(MHA),以全面捕捉局部和全局的原子间关系。对嵌入作为偏置项被纳入,以增强注意力机制,提供来自原子对的上下文信息。此外,原子之间的注意力权重被用来更新对嵌入,从而促进原子与其对应对之间的有效交流。

对注意力层操作对嵌入,以建模对之间的多体相互作用。在对嵌入的更新中,保持几何一致性(例如三角不等式)至关重要,因为它表示关于原子的成对信息。受到 AlphaFold 2 中使用的 Evoformer 框架的启发,作者设计了两个模块来有效更新对嵌入。

第一个模块称为自三角更新模块,如下图 A 所示,它结合了 AlphaFold2 提出的“具有外向边的三角乘法更新”和“具有内向

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/938640.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【CSS in Depth 2 精译_080】 13.1:CSS 渐变效果(中)——不同色彩空间的颜色插值算法在 CSS 渐变中的应用

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 13 章 渐变、阴影与混合模式】 ✔️ 13.1 渐变 ✔️ 13.1.1 使用多个颜色节点(上)13.1.2 颜色插值方法(中) ✔️13.1…

虚拟机VirtualBox安装最新版本Oracle数据库

https://www.oracle.com/database/technologies/databaseappdev-vm.html 如上所示,从Oracle官方网站上下载最新版本的VirtualBox虚拟机对应的Oracle数据库安装源文件。 如上所示,在VirtualBox中导入下载的Oracle安装源文件。 如上所示,导入…

热更新解决方案4——xLua热补丁

概述 运行时不在执行C#中的代码,而是执行Lua中的代码,相当于是打了个补丁。 1.第一个热补丁 2.多函数替换 3.协程函数替换 在原HotfixMain脚本中只加个协程函数即可(和在Start中启动协程函数) 4.索引器和属性替换 在HotfixMain中…

突破长链视觉推理瓶颈:Insight-V多智能体架构解析

GitHub 仓库:https://github.com/dongyh20/Insight-V HuggingFace 模型库:https://huggingface.co/THUdyh/Insight-V arXiv 技术论文:https://arxiv.org/pdf/2411.14432 模型:https://huggingface.co/THUdyh/Insight-V-Reason 今天…

IDEA 未启用lombok插件的Bug

项目中maven已引用了lombok依赖,之前运行没有问题的,但有时启动会提示: java: You arent using a compiler supported by lombok, so lombok will not work and has been disabled. Your processor is: com.sun.proxy.$Proxy8 Lombok support…

AI工具如何深刻改变我们的工作与生活

在当今这个科技日新月异的时代,人工智能(AI)已经从科幻小说中的概念变成了我们日常生活中不可或缺的一部分。从智能家居到自动驾驶汽车,从医疗诊断到金融服务,AI正以惊人的速度重塑着我们的世界。 一、工作方式的革新…

压力测试Jmeter简介

前提条件:要安装JDK 若不需要了解,请直接定位到左侧目录的安装环节。 1.引言 在现代软件开发中,性能和稳定性是衡量系统质量的重要指标。为了确保应用程序在高负载情况下仍能正常运行,压力测试变得尤为重要。Apache JMeter 是一…

手眼标定工具操作文档

1.手眼标定原理介绍 术语介绍 手眼标定:为了获取相机与机器人坐标系之间得位姿转换关系,需要对相机和机器人坐标系进行标定,该标定过程成为手眼标定,用于存储这一组转换关系的文件称为手眼标定文件。 ETH:即Eye To …

vue 自定义组件image 和 input

本章主要是介绍自定义的组件:WInput:这是一个验证码输入框,自动校验,输入完成回调等;WImage:这是一个图片展示组件,集成了缩放,移动等操作。 目录 一、安装 二、引入组件 三、使用…

CTFHUB-web(SSRF)

内网访问 点击进入环境,输入 http://127.0.0.1/flag.php 伪协议读取文件 /?urlfile:///var/www/html/flag.php 右击查看页面源代码 端口扫描 1.根据题目提示我们知道端口号在8000-9000之间,使用bp抓包并进行爆破 POST请求 点击环境,访问flag.php 查看页…

Mysql 深度分页查询优化

Mysql 分页优化 1. 问题根源 问题: mysql在数据量大的时候,深度分页数据偏移量会增大,导致查询效率越来越低。 问题根源: 当使用 LIMIT 和 OFFSET 进行分页时,MySQL 必须扫描 OFFSET LIMIT 行,然后丢弃前…

[LeetCode-Python版]21. 合并两个有序链表(迭代+递归两种解法)

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4] 示例 2: 输入:l1 [], l2 [] 输出&#x…

Git 安装教程

Git 是一个分布式版本控制系统,用于跟踪源代码的变化。它允许多个开发者协作开发同一个项目,能够有效管理项目的版本历史,便于协作与代码回溯。 Git官网 官网提供各种操作系统的安装程序。 step1.点击"Download for Windows"按钮&a…

Spring学习笔记-基础

前言:我是在哔哩哔哩上黑马程序员上找的课程。-----2024-12-16 官网Spring | Homehttps://spring.io/ Sping全家桶中重要三个: Spring Framework底层框架,在整个全家通中,所有的技术依赖它执行。 Spring Boot简化开发加速开发…

CNAS-AL06《实验室认可领域分类》修订,软件测试领域整体修订

为了不断适应行业发展的需要,进一步完善认可评审管理工作,进一步提高认可评审工作质量,CNAS认可委针对CNAS-AL06《实验室认可领域分类》进行了修订,并于近日正式发布。 原文件CNAS-AL06:20220101有25项一级代码,其中0…

单片机原理及应用笔记:单片机中断系统原理与项目实践

高金鹏:男,银川科技学院计算机与人工智能学院,2022级别计算机科学与技术本科生,单片机原理及应用课程第六组。 指导教师:王兴泽 电子邮件:高金鹏3535558665qq.com 个人CSDN:暴躁的海绵宝宝 暴躁的海绵宝…

【win10+RAGFlow+Ollama】搭建本地大模型助手(教程+源码)

一、RAGFlow简介 RAGFlow是一个基于对文档深入理解的开源RAG(Retrieval-augmented Generation,检索增强生成)引擎。 主要作用: 让用户创建自有知识库,根据设定的参数对知识库中的文件进行切块处理,用户向大…

在 Ubuntu 上部署 Terraform 管理平台:实现云基础设施的集中管理

简介 Terraform 是一款开源基础架构自动化工具,可让您通过命令行界面部署和管理数百台服务器。使用 Terraform,你可以通过在一个人类可读的文件中定义配置来构建、更改和管理你的基础架构。它支持许多云提供商,如 AWS、Azure、GCP 和阿里巴巴…

概率论得学习和整理25:EXCEL 关于直方图/ 频度图 /hist图的细节,2种做hist图的方法

目录 1 hist图的特点 2 hist的设置技巧:直接生成的hist图往往很奇怪不好用:因为横轴的分组不对 3 如何修改分组 4 设置开放边界,把长尾合并,得到hist图1 5 用原始表得到频数表 6 用上面的频数图做柱状图,再修改&…

RabbitMQ的核心组件有哪些?

大家好,我是锋哥。今天分享关于【RabbitMQ的核心组件有哪些?】面试题。希望对大家有帮助; RabbitMQ的核心组件有哪些? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 RabbitMQ是一个开源的消息代理(Messag…