蛋白质分子结构设计

paper read 1

Created by: 银晗 张
Created time: May 27, 2023 3:47 PM
Tags: Product

  • 补充了解蛋白质的生物学知识
  • 学习一下Diffusion的原理

💡 Method & Innovations

  1. Framework

Summary:

  1. first deep learning models to perform antibody sequence-structure design by considering the 3D structures of the antigen
  2. design protein sequences and coordinates & side-chain orientations , firstly achieve atomic-resolution antibody design and is equivariant to rotation and translationw
  3. applied to antibody design tasks sequence-structure co-design, fix-backbone CDR design, and antibody optimization

Prospose Method: 基于扩散的生成模型联合采样抗体CDR序列和结构

  • CDR序列及其结构的联合分布直接依赖于抗原结构, 所以我们的任务是给定一个由抗原和抗体框架组成的蛋白质复合物作为输入,得到CDRs的结构

  1. Differences to previous works

Traditional Computational Antibody Design Problems:

  1. the search space of CDRs is vast , L squences may have 20^L
  2. time-consuming and local optima

Generative model challenges :

  1. how to model the intrinsic relation between CDR sequences and 3D structures
  2. how to model the distribution of CDRs conditional on the rest of the antibody sequence
  3. the model should be explicitly conditional on the 3D structures of the antigen and generate CDRs that fit the antigen structure in the 3D space
  4. model should be able to consider both the position and orientation of amino acids
  5. instead of de novo design, model should be applicable to another realistic scenario: optimizing a particular antibody to increase the binding affinity to the antigen

Related Diffusion-Based Generative Models

  • the sequence-based methods can only generate new antibodies based on previously observed
    antibodies but can hardly generate antibodies for specific antigen structures
  • protein structure pretidion algorithms : MSAs、AlphaFold2
  • diffusion model : denosing with prior distrubtion、molecular 3D structure

Differences

M o d e l S t e p s : Model Steps: ModelSteps

  1. 用任意序列、位置和方向初始化CDR。扩散模型首先聚集了来自抗原和抗体框架的信息
  2. 迭代地更新cdr上每个氨基酸的氨基酸类型、位置和方向(侧链的方向)
  3. 我们基于预测的方向,使用侧链填充算法在原子级重建CDR结构

  1. What insights would the proposed approach bring?

SO(3) Denosing for Amino Acid Orientations:

S : coordinates , X: amino acid types, O: orientations

  • 各向同性的高斯分布,改变旋转角度
  • 神经网络用于方向去噪和输出去噪的方向矩阵
  • 目标函数是真实和预测的方向矩阵之间的差异内积

Diffusion For C a C_a Ca Coordinates :

  • 坐标是一个正态分布
  • 变化的学习率
  • 神经网络用于预测高斯分布的噪声
  • 目标函数是生成的分布和初始先验分布的MSE

Migrate Markov chains

  • A diffusion probabilistic model defines two Markov chains of diffusion processes

    • The forward diffusion process gradually adds noise to the data until the data distribution approximately reaches the prior distribution
    • The generative diffusion process starts from the prior distribution and iteratively
      transforms it to the desired distribution.
  • Use Multinomial Distribution instead of Gaussian distribution in Diffusion Model

Processes:

  1. MLP embeding: encodes the information of amino acid types, torsional angles, and 3D coordinates of all the heavy atoms . The pairwise embedding MLP encodes the Euclidean distances and dihedral angles between amino acid i and j to feature vectors zij, use IPA(to transform ∗ ∗ ∗ e i ∗ ∗ ∗ ***e_i*** ei and ∗ ∗ ∗ z i j ∗ ∗ ***z_{ij}** zij into hidden representations ∗ ∗ ∗ h i ∗ ∗ ***h_i** hi) to represent itself and environment

  2. Denoise: the representations are fed to three different MLPs to denoise the amino acid types, 3D positions, and orientations of the CDR,respectively

  3. 预测局部坐标系中的坐标偏差,并将其投影到全局坐标系中,可以确保预测的等方差,因为当整个三维结构以特定的角度旋转时,坐标偏差也以相同的角度旋转。

    1. 偏差表示:

      在这里插入图片描述

    2. 将向量转换为旋转矩阵 M j ∈ S O ( 3 ) M_j∈SO (3) MjSO(3)右向乘以方向,为下一步生成步骤产生一个新的平均方向: O j t − 1 ← O j t M j O^{t−1}_j←O^t_jM_j Ojt1OjtMj

    3. 所提出的网络与整体结构的旋转和平移是等变的:

    在这里插入图片描述

  4. sample algorithm:

    • 20 types amino acids distrubution : s j T ∼ U n i f o r m ( 20 ) s^T_j∼ Uniform(20) sjTUniform(20)
    • C α C_α Cα positions from the standard normal distribution: ∗ ∗ x j T ∼ N ( 0 , I 3 ) **x^T_j ∼ N (0, I3) xjTN(0,I3), side-chain C β C_β Cβ
    • orientations from the uniform distribution over SO(3): ∗ ∗ O j T ∼ U n i f o r m ( S O ( 3 ) ) ∗ ∗ **O^T_j∼ Uniform(SO(3))** OjTUniform(SO(3))

    DiffAb的实验:

    DiffAb Experiment

Details


Antigen-Specific Antibody Design and Optimization with Diffusion-Based Generative Models for Protein Structures

Domain words:

  • antigen, antibody : 抗体、抗原
  • complementarity-determining regions (CDR):互补性结构区域
  • amino acids: 氨基酸
  • molecular , atom : 分子、原子

SO(3)是三维旋转群的代数结构,表示在三维空间中的旋转操作。在蛋白质中,SO(3)通常用于描述氨基酸侧链的取向。通过SO(3)变换,可以将一个氨基酸侧链的取向转换为另一个取向,从而对氨基酸侧链的构象空间进行建模和分析。


抗体是免疫系统蛋白质,通过与病毒和细菌等特定抗原结合来保护宿主。抗体与抗原之间的结合主要由抗体的互补决定区(CDR)决定。在这项工作中,我们开发了一个深度生成模型,基于扩散概率模型和等变神经网络,共同模拟CDR的序列和结构。我们的方法是第一个明确针对特定抗原结构生成抗体的深度学习方法,并且是早期蛋白质结构扩散概率模型之一。

该模型能够进行序列-结构协同设计、给定骨架结构的序列设计和抗体优化。

我们进行了广泛的实验,评估了设计抗体的序列和结构的质量。我们发现,我们的模型在生物物理能量函数和其他蛋白质设计指标衡量的结合亲和力方面能够产生有竞争力的结果。

Background

  • the structure of antibody-antigen

在这里插入图片描述

Target: to design effective therapeutic antibody structure

Traditional Problems:

  1. the search space of CDRs is vast , L squences may have 20^L
  2. time-consuming and local optima

Generative model challenges :

  1. how to model the intrinsic relation between CDR sequences and 3D structures
  2. how to model the distribution of CDRs conditional on the rest of the antibody sequence
  3. the model should be explicitly conditional on the 3D structures of the antigen and generate CDRs that fit the antigen structure in the 3D space
  4. model should be able to consider both the position and orientation of amino acids
  5. instead of de novo design, model should be applicable to another realistic scenario: optimizing a particular antibody to increase the binding affinity to the antigen
  • the sequence-based methods can only generate new antibodies based on previously observed
    antibodies but can hardly generate antibodies for specific antigen structures
  • protein structure pretidion algorithms : MSAs、AlphaFold2
  • diffusion model : 先验分布去噪、molecular 3D structure

Work

Prospose Method: 基于扩散的生成模型联合采样抗体CDR序列和结构

  • CDR序列及其结构的联合分布直接依赖于抗原结构, 所以我们的任务是给定一个由抗原和抗体框架组成的蛋白质复合物作为输入,得到CDRs的结构

Steps:

  1. 用任意序列、位置和方向初始化CDR。扩散模型首先聚集了来自抗原和抗体框架的信息
  2. 迭代地更新cdr上每个氨基酸的氨基酸类型、位置和方向(侧链的方向)
  3. 我们基于预测的方向,使用侧链填充算法在原子级重建CDR结构

Detail

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H8xR5GdJ-1690184885986)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%203.png)]

扩散过程

S : coordinates , X: amino acid types, O: orientations

  • A diffusion probabilistic model defines two Markov chains of diffusion processes
    • The forward diffusion process gradually adds noise to the data until the data distribution approximately reaches the prior distribution
    • The generative diffusion process starts from the prior distribution and iteratively
      transforms it to the desired distribution.

多项式分布 → 高斯分布

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-drIGTfju-1690184885987)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%204.png)]

  • 任意时刻 t t t,用 t 0 t_0 t0 β \beta β表达

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGb3wfX6-1690184885989)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%205.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7pq3PLEI-1690184885989)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%206.png)]

C C C:空间结构信息; R t R^t Rt :t时刻CDR的状态


all-one vector是一个元素全部为1的向量。例如,一个长度为n的all-one vector可以表示为[1, 1, 1, ..., 1]。在数学和计算机科学中,all-one vector经常用于矩阵和向量的运算和表示,例如在矩阵乘法中,一个矩阵乘以一个all-one vector可以得到该矩阵每一行的和。all-one vector也可以用于表示一组等权重的值,例如在计算平均值时,可以将每个值乘以一个all-one vector,再除以向量的长度,即可得到这组值的平均值。

  • 可以用作去噪声

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s1dJVaBJ-1690184885990)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%207.png)]

Diffusion For C a C_a Ca Coordinates :

  • 坐标是一个正态分布
  • 变化的学习率
  • 神经网络用于预测高斯分布的噪声
  • 目标函数是生成的分布和初始先验分布的MSE

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yI6UXLqJ-1690184885991)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%208.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FoE7p8iH-1690184885991)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%209.png)]

SO(3) Denosing for Amino Acid Orientations:

  • 各向同性的高斯分布,改变旋转角度
  • 神经网络用于方向去噪和输出去噪的方向矩阵
  • 目标函数是真实和预测的方向矩阵之间的差异内积

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A0rsS9HK-1690184885992)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2010.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qe87cPsQ-1690184885992)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2011.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8EAtnPL-1690184885993)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2012.png)]

  • For all Loss

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iFGXHoeL-1690184885994)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2013.png)]


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/44609.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

banner轮播图实现、激活状态显示和分类列表渲染、解决路由缓存问题、使用逻辑函数拆分业务(一级分类)【Vue3】

一级分类 - banner轮播图实现 分类轮播图实现 分类轮播图和首页轮播图的区别只有一个,接口参数不同,其余逻辑完成一致 适配接口 export function getBannerAPI (params {}) {// 默认为1 商品为2const { distributionSite 1 } paramsreturn httpIn…

pearcmd.php文件包含妙用

文章目录 pearcmd.php文件包含妙用利用条件原理利用config-createinstalldownload pearcmd关键词被ban参考 pearcmd.php文件包含妙用 利用条件 php.ini中register_argc_argvOn开启安装pecl/pear pecl是PHP中用于管理扩展而使用的命令行工具,而pear是pecl依赖的类…

从新手到专业人士:探索 C++ STL 以获得终极性能

探索 C STL 以获得终极性能 博主简介一、引言二、C STL 简介2.1、STL 是什么?2.2、STL 中的常用组件2.3、STL 的优点 三、入门指南:了解基本概念和用法3.1、容器:vector、list、deque、set、map 等3.2、算法:查找、排序、遍历等3.…

Javascript程序异常处理

什么是异常,异常就是我们在编写Javascript程序时出现的一些错误,并会在控制台中抛出这个错误,出现异常其实并不是一件坏事,相对的呢它可以提醒我们开发人员哪里出现了错误,方便我们后续的修改,能让我们的代…

OSI 和 TCP/IP 网络分层模型详解(基础)

OSI模型: 即开放式通信系统互联参考模型(Open System Interconnection Reference Model),是国际标准化组织(ISO)提出的一个试图使各种计算机在世界范围内互连为网络的标准框架,简称OSI。 OSI 七层模型 OS…

centos逻辑分区磁盘扩展

最近碰到服务器磁盘空间不足,需要扩展逻辑分区的需求,特地做下小笔记,方便后续自己回忆。下图是磁盘的相关概念示意图: 1、查看磁盘空间 [rootlocalhost ~]# df -h #查看磁盘空间,根分区的大小是18G,已经用…

RISCV -3 RV32I/RV64I基本整型指令集

RISCV -3 RV32I/RV64I基本整型指令集 1 RV32I Base Integer Instruction Set1.1 Programmers’ Model for Base Integer ISA1.2 Base Instruction Formats1.3 Immediate Encoding Variants1.4 Integer Computational Instructions1.4.1 Integer Register-Immediate Instruction…

深入浅出多种开发语言对接淘宝京东1688阿里巴巴等电商平台,获取实时商品详情数据API接口介绍

api接口详解大全?优秀的设计是产品变得卓越的原因设计API意味着提供有效的接口,可以帮助API使用者更好地了解、使用和集成,同时帮助人们有效地维护它每个产品都需要使用手册,API也不例外在API领域,可以将设计视为服务器和客户端之…

iPortal 注册登录模块扩展开发

作者:yx 文章目录 前言一、示例代码简介二、对接 iPortal REST API 接口2.1、登录模块扩展开发2.2、注册模块扩展开发 三、页面内容及样式实现四、配置启用定制页面 前言 针对注册登录模块,iPortal 允许用户通过 iFrame 方式接入自行开发的页面&#xf…

pytorch安装GPU版本 (Cuda12.1)教程: Windows、Mac和Linux系统快速安装指南

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

语言尽头的奇幻旅程:如何求解最后一个单词的长度?

本篇博客会讲解力扣“58. 最后一个单词的长度”的解题思路,这是题目链接。 以示例2为例:s " fly me to the moon " 首先,找到字符串末尾的\0。s一开始指向首字符f,我们从这个位置开始,向后遍历&#xff0c…

基于高斯混合模型聚类的风电场短期功率预测方法(Pythonmatlab代码实现)

目录 💥1 概述 📚2 运行结果 2.1 Python 2.2 Matlab 🎉3 参考文献 🌈4 Matlab代码、数据、文章讲解 💥1 概述 文献来源: 摘要:对任意来流条件下的风电场发电功率进行准确预测,是提高电网对风电…

153、仿真-基于51单片机四相步进电机正反转控制系统设计(程序+Proteus仿真+参考论文+流程图+配套资料等)

毕设帮助、开题指导、技术解答(有偿)见文未 目录 一、设计功能 二、Proteus仿真图​ 三、程序源码 资料包括: 需要完整的资料可以点击下面的名片加下我,找我要资源压缩包的百度网盘下载地址及提取码。 方案选择 单片机的选择 方案一:ST…

vuejs源码之模版编译原理

之前我们说过虚拟dom,也就是虚拟dom拿到vnode后所做的事情,而模版编译是如何让虚拟dom拿到vnode。 模版编译的目标就是生成渲染函数,而渲染函数的作用是每次执行它,它就会使用当前最新的状态生成一份新的vnode,然后用…

ES6基础知识八:你是怎么理解ES6中Proxy的?使用场景?

一、介绍 定义: 用于定义基本操作的自定义行为 本质: 修改的是程序默认形为,就形同于在编程语言层面上做修改,属于元编程(meta programming) 元编程(Metaprogramming,又译超编程,是指某类计算…

.360勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

引言: 近年来,随着互联网的普及和信息技术的快速发展,网络安全问题日益严峻。其中,勒索病毒成为网络安全领域的一大威胁。本文91数据恢复将重点介绍一种名为“.360勒索病毒”的恶意软件,并探讨被该病毒加密的数据文件…

quartus工具篇——PLL IP核的使用

quartus工具篇——PLL IP核的使用 1、PLL简介 PLL(Phase-Locked Loop,相位锁环)是FPGA中非常重要的时钟管理单元,其主要功能包括: 频率合成 - PLL可以生成比输入时钟频率高的时钟信号。频率分频 - PLL也可以输出分频后的较低频率时钟。减小时钟抖动 - PLL可以过滤输入时钟中…

踩坑 视觉SLAM 十四讲第二版 ch8 编译及运行问题

1.fmt相关 CMakeLists.txt中&#xff1a;在后面加上 fmt target_link_libraries(optical_flow ${OpenCV_LIBS} fmt ) target_link_libraries(direct_method ${OpenCV_LIBS} ${Pangolin_LIBRARIES} fmt )2.不存在用户定义的从 "std::_Bind<void (OpticalFlowTracker::…

架构重构实践心得

一、前言 大多数的技术研发都对重构有所了解&#xff0c;而每个研发又都有自己的理解。从代码重构到架构重构&#xff0c;我参与了携程大型全链路重构项目&#xff0c;积累了一点经验心得&#xff0c;在此抛砖引玉和大家分享。 二、重构的定义 重构是指在不改变外部行为的情…

改进的北方苍鹰算法优化VMD参数,最小包络熵、样本熵、信息熵、排列熵(适应度函数可自行选择,一键修改)包含MATLAB源代码...

今天给大家带来一期由改进的北方苍鹰算法(SCNGO)优化VMD的两个参数。 同样以西储大学数据集为例&#xff0c;选用105.mat中的X105_BA_time.mat数据中1000个数据点。没有数据的看这篇文章。西储大学轴承诊断数据处理&#xff0c;matlab免费代码获取 选取四种适应度函数进行优化&…