CCGNet用于发现共晶材料中的coformer

共晶工程(cocrystal engineering)在制药,化学和材料领域有广泛应用。然而,如何有效选择coformer一直是一个挑战性课题。因此,作者开发了一个基于GNN的深度学习框架用于快速预测共晶的形成。为了从现有报告的6819个正样本和1052个负样本中捕获结晶(crystallization)的main driving force,作者探索了一种可行的GNN框架,将重要的先验知识整合到分子图的端到端学习中。CCGNet在7个竞争方法和3个具有挑战性的独立测试集(pharmaceutical cocrystals,π–π cocrystals和energetic cocrystals)上进行了验证,结果表明,CCGNet具有鲁棒性和泛化性。

来自:Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materials


coformer是指在共晶工程中与活性成分一起形成共晶的分子。在共晶工程中,选择合适的coformer非常重要,因为只有某些特定的分子才能与活性成分形成共晶。


目录

  • 背景概述
  • 方法
    • 数据收集和增强
    • 样本的表示
    • CCGNet概述
  • 实验
    • 消融实验
    • 药物共晶的独立检测
    • π–π共晶的独立检测
    • 高能共晶ECCs的应用与实验验证

背景概述

共晶体(co-crystals,CCs)是由两个或两个以上的中性分子按一定的化学计量比通过非共价力组合而成的一种单相结晶材料,它既不是溶剂化物,也不是简单的盐。这种共结晶可以通过低成本、结构灵活的非共价键合成来实现功能分子的新特性。因此,共晶工程已成为制药、化学和材料领域的一种有效的设计策略。例如,CCs被用作处理物理化学、生物制药的手段,并扩大活性药物成分(APIs,Activate Pharmaceutical Ingredients)的固体形态多样性。对于有机功能材料来说,CCs具有先进的光学、电学新功能。同时,共晶是提高炸药性能以实现低灵敏度高能量的有效杠杆。

尽管前景诱人,但如何选择coformer是共晶工程的关键,因为共晶只发生在某些特定的分子之间。新共晶的实验测定通常涉及大范围coformer的系统筛选,因此在时间、精力和实验资源上都是昂贵的。为了解决这一问题,一些计算方法被提出并用于预测可能形成CCs的coformer,例如,使用CSD(Cambridge Structural Database)的实验数据进行结构分析、基于网络的共晶设计链接预测、共晶形成的热力学特性研究、分子动力学模拟、分子间位点配对能(ISPE,intermolecular site pairing energy)研究。以上这些方法大致遵循了基于知识的和基于物理的范式,它们确实为实验设计提供了有用的指导。然而,它们在非共价相互作用和分子化学结构多样性的推广方面受到限制。因此,迫切需要开发更通用、计算成本更低的策略。

一些研究已经利用ML方法对共晶预测进行了有意义的尝试,包括支持向量机、多元自适应回归、随机森林和深度神经网络。然而,这些ML方法与分子描述符或指纹相结合,仅表现出中等的共晶预测精度。随着数据的快速积累和图形处理单元GPU的蓬勃发展,深度学习在许多研究领域已经远远超出了传统的机器学习方法。特别是图神经网络GNN,作为深度学习的一个子集,由于图的强大表达能力而受到越来越多的关注。对于GNN,在分子图上的端到端学习取代了传统的特征工程。据报道,一项基于GNN的共晶筛选工作在验证集达到了97%的准确率,但是在独立测试集仅达到80%的准确率。尽管GNN提高了验证集上的性能,但反映ML模型对未知样本的鲁棒性和泛化的独立测试集上的预测精度仍然适中。然而,提高泛化能力一直被认为是机器学习面临的最大挑战之一。

机器学习主要依赖于大量的高质量数据。CSD(Cambridge Structural Database)含有丰富的共晶结构,但仅限于正样本(cocrystals),而缺乏无效的共晶组合(即负样本)。为了构建平衡的负样本,Devogelaer和Wang借助一些计算方法,如基于网络的链接预测和基于分子相似性的方法,将两个coformer组合成无效共晶。在没有实验数据的情况下,这种计算方法被认为是一种很好的替代方法。然而,加上实验报告的一些负样本,数据集依然不平衡。不平衡数据集上的ML很容易偏向过拟合。然而,在现实世界中,数据表示不均匀的问题经常出现。此外,从数据挖掘的角度来看,少数类更重要,因为它可能携带重要和有用的知识来确定界限。

此外,表征样本的特征也是关键,特别是对于不平衡数据。如果两个高度不均衡的类都可以用非重叠分布很好地表示,则基于ML的分类器仍然可以获得很好的准确率。传统的机器学习算法通常涉及特征选择或优化以提高模型性能。而像gnn这样的现代深度学习方法通常遵循端到端策略,该策略强调最小的先验表征和计算假设。然而,在许多领域,可用的数据往往是有限的,这很难支持深度学习足够的知识表征。在这种情况下,应该提倡一种方法可以考虑先验知识和端到端学习的互补优势。

在上述挑战的激励下,作者在这项工作中重建了一个由7871个样本组成的可靠共晶数据集,其中1052个负样本全部来自实验报告,以尽量减少假阴性,6819个正样本仍然来自CSD。为了从有限的和不平衡的数据集中更完整地捕捉到共晶的main driving force,作者提出了一种互补策略,通过将分子图和来自先验知识的12个分子描述符结合起来表示共晶的coformer,这些描述符对共晶的形成有重要贡献。在学习特征表示方面,作者探索了一种灵活的基于GNN的深度学习框架,该框架有效地将先验知识整合到分子图的端到端学习中,可以通过迁移学习应用于与训练数据集差异显著的CCs。作者将其命名为共晶图网络CCGNet。

方法

数据收集和增强

为了获得一个可靠的数据集,作者构建了一个包含7871个样本的大数据集(CC数据集),其中6819个正样本和1052个负样本。正样本来自CSD。如图1a所示,CCs是根据以下条件从CSD筛选出来的:

  • 只含有两种化学上不同的多原子单位;
  • 具有3D结构,没有无序原子,避免低质量结构;
  • 不含任何一组常见溶剂或小分子;
  • 只含C、H、O、N、P、S、Cl、Br、I、F、Si等元素,不含金属元素;
  • 考虑到大多数有机CCs一般都是小分子,各组分的分子量<700;
  • 排除多态性去除重复样品,考虑到当结晶条件改变时,两种相同的分子组合可以形成不同的晶体结构。

负样本来自186篇文献报告,与通过计算模拟的负样本相比,这可以减少假阴性样本的存在。负样本的coformer结构来自PubChem。

这7871个样本可以为深度学习训练提供支持,也为今后研究CCs的其他性质提供了数据资源。此外,在使用数据集训练机器学习模型时,作者采用了数据增强策略,以增强模型的鲁棒性。由于共晶的输入涉及一对coformer,作者交换它们的输入顺序以使样本数量增加一倍,从而扩大数据集。

样本的表示

样本表示对于ML拟合分子结构与其性质之间的关系至关重要。与传统的仅以分子图表征样本的GNN不同,作者提出了一种将先验知识和分子图上的学习相结合的互补特征表示,以便从有限的数据集中更完整地捕获共晶的main driving force。

表1列出了使用的分子图的原子和共价键特征。选择12个分子描述符代表先验知识,因为相关研究表明它们与共晶高度相关。表2显示了12个选定的分子描述符,涉及分子的形状、大小、极性、柔韧性和氢键倾向,这些描述符可以快速计算,以便于高通量筛选。如图1b所示,将这些来自专家知识的分子描述符作为全局状态 u u u,嵌入到一个2×12矩阵中。分子图中的共价键信息由一个邻接张量 A A A表示。每个切片 A l A_{l} Al是一个邻接矩阵,表示一种键类型,通过这个邻接矩阵,共价键以外的其他特征也可以作为额外的切片嵌入到 A A A中。最后,将分子图中的原子能级特征转换为顶点矩阵。

CCGNet概述

在提出互补特征的基础上,作者构建了基于图神经网络的共晶预测模型CCGNet。作者通过引入消息传递范式的相关概念来形式化CCGNet框架。如图1c所示,CCGNet主要由两个阶段组成,即消息传递阶段和 read out 阶段。消息传递将顶点嵌入传播到相邻节点并更新嵌入。如图1d所示,消息传递阶段可以由N个CCGBlock(论文中为4个ccgblock)组成。CCGBlock包含两个可学习函数 Φ u \Phi_{u} Φu Φ v \Phi_{v} Φv Φ u \Phi_{u} Φu被定义为全局状态函数,由单层前馈神经网络构建,该网络计算与12个手工选择的分子描述符相关的全局状态的隐藏表示。 Φ v \Phi_{v} Φv为GNN,使用edge的邻接张量在分子图的节点之间传播和更新信息。 ρ u → v \rho^{u\rightarrow v} ρuv为concat操作,用于将 u u u的latent表示嵌入到每个coformer的节点向量中。

在 read out 阶段,还进行了concat操作,进一步融合多层特征,并在 read out 函数中引入全局注意力机制,从分子图中计算特征向量,采用原子向量的加权求和,而不是简单求和,如图1e所示。为了稳定自注意力的学习过程,进一步优化隐藏嵌入,作者构建了多头注意框架,该框架并行计算每个原子的 k k k个独立注意力系数,产生 k k k个独立的嵌入,然后将它们concat到向量上作为整个样本的表示。在全局注意力之后,将全局状态的隐藏表示 U ′ U' U与图嵌入连接起来,进一步丰富信息。

最后,将顺序的Dense层应用于共晶形成的最终预测,如图1c中的灰色块所示。

fig1

  • 图1:CCGNet的整体框架。

tab1

  • 表1:CCGNet使用的原子和键属性。

tab2

  • 表2:用于编码全局状态的分子描述符。

实验

消融实验

fig2

  • 图2:消融实验结果。

作者对特征表示和模型框架进行了一些消融研究,以探讨它们是否对模型性能至关重要。在12个分子描述符中,有7个与三维构象相关,如S、S_L、M_L、S_M、Globularity、FrTPSA和Dipole_Moment,它们被标记为三维描述符。其余五个描述符可以由二维结构决定,因此标记为二维描述符。作者分别从全局状态中去除2D描述符、3D描述符和所有12个分子描述符,然后测试剩余特征的影响。图2a显示了在十倍交叉验证集上的预测性能,其中仅使用分子图的模型准确率最低(BACC的93.90%,balanced accuracy)。在加入二维描述符后,预测性能略有提高,达到94.16%。然而,通过单独将7个3D描述符嵌入到分子图中,获得了实质性的改进(97.68%)。当12个分子描述符全部融合到分子图中时,预测准确率进一步提高到98.54%。结果表明,GNN在有限数据集的分子图上的学习很难掌握足够的结构信息,特别是与三维构象相关的特征。在这种情况下,特征互补将减轻限制。

此外,分子间氢键(Hbond)和π -π相互作用(π -π)被认为主导了共晶的识别过程。因此,作者还研究了通过将两种分子间相互作用作为两种新的edge特征添加到分子图的邻接张量中,是否可以进一步提高预测精度,如图2b所示。出乎意料的是,模型的性能不但没有提高,反而有所下降,如图2c所示。实际上,这12个分子描述符涉及芳香原子和氢键,与分子间的氢键和π -π相互作用有关。

此外,CCGNet模型还在读出阶段引入了注意机制,进一步优化了特征空间。由图2d可以看出,共晶结构中的一对coformers表现为-O5-H··N2、-O4-H··O3和-O6-H··O1氢键以及苯环和恶二唑环之间的π -π相互作用,而注意力权值只捕获了涉及这两种分子间相互作用的基团。因此,两个边缘特征的额外添加反而增加了特征的冗余,使模型学习更加困难,从而降低了预测精度。

图2e代表了t-SNE可视化。可以看出,CCGNet学习的共晶嵌入即使在数据分布不平衡的情况下也能很好地分离正、负样本,这得益于互补特征和合理的模型框架。

药物共晶的独立检测

在药物共晶的独立测试中,通常需要对共晶的物理化学性质和药理学性质进行测试。作者收集了四种潜在API(活性药物成分)作为研究案例,包括Nicotinamide、Carbamazepine、Indomethacin和Paracetamol。这些API被用于测试模型在药物共晶方面的泛化能力。具体而言,需要对这些API与不同coformer形成的共晶进行测试,并评估其物理化学性质和药理学性质是否得到了保留。结果见图3b。


药物共晶可以改善潜在原药的物理化学性质,同时保持其药理性质,因此在制药工业中发挥着重要作用。为了检验模型在药理学共晶中的泛化能力,作者收集了烟酰胺、卡马西平、吲哚美辛和扑热息痛四种原药作为研究案例。烟酰胺是一种无害且应用广泛的食品添加剂,常被用作共晶的coformer。卡马西平用于治疗癫痫和神经性疼痛。由于卡马西平的生物利用度有限,如溶解度低,通常需要使用更高的剂量才能达到预期的治疗效果,而共晶是提高其溶解度的有效方法。此外,在以前开发的方法中,对吲哚美辛和扑热息痛的共晶预测表现不佳。


π–π共晶的独立检测

在有机功能材料领域,共晶已成为构建新型功能材料的一种很有前途的方法,范围从光子材料到光学和电子材料。具有丰富π轨道的多环芳烃PAHs通过分子间π -π相互作用使电子迁移,因此是形成具有多种电学和光学性质的共晶的有希望的组分。然而,与H键或卤素键等强相互作用相比,π -π相互作用相对较弱,导致共晶合成和结构确定的难度较大。因此,准确预测π -π共晶体系是非常必要的。芘是一种重要的多环芳烃。结果见图3c

高能共晶ECCs的应用与实验验证

高能材料(炸药、推进剂和烟花)在军事和民用领域发挥着重要作用。然而,炸药的威力和灵敏度之间的矛盾一直是一个众所周知的具有挑战性的问题,例如,高能炸药通常具有较低的安全性,反之亦然。共晶工程在提高稳定性、灵敏度和氧平衡等性能方面显示出巨大的潜力。然而,高能分子往往含有丰富的硝基,缺乏对传统有机CCs有重要贡献的官能团,导致合成预测难度较大。因此,有效预测高能共晶形成的模型将成为实验研究的重要工具。结果见图3d和e。

fig3

  • 图3a:3种独立测试集的样本(药物共晶的对象包括烟酰胺,卡马西平,吲哚美辛,对乙酰氨基酚)。
  • 图3b:四种原料药的平衡精度。
  • 图3c:对芘共晶的预测性能。TPR、TNR和BACC分别表示真阳性率、真阴性率和平衡准确率。
  • 图3d:迁移学习和不迁移学习(预训练)对TNT的预测性能。
  • 图3e:迁移学习和不迁移学习(预训练)对CL-20的预测性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/14756.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java项目上线之云服务器环境篇(二)——Tomcat的安装与配置

Java项目上线之云服务器环境篇&#xff08;二&#xff09;——Tomcat的安装与配置 Tomcat的选择&#xff1a; 云服务器tomcat的选择最好与本机项目运行的tomcat版本号一致&#xff0c;避免一些不必要的问题。 配置步骤&#xff1a; 1、首先进入云服务器创建好放置tomcat的文件…

重大剧透:你不用ChatGPT,它砸你饭碗

早晨看到路透社报道&#xff0c;盖茨说&#xff0c;与其争论技术的未来&#xff0c;不如专注于如何更好地利用人工智能。 这可能是他对马斯克他们呼吁暂停AI研发6个月的一种回应吧。 有种古语说&#xff1a;天下大势&#xff0c;浩浩汤汤&#xff0c;顺之者昌&#xff0c;逆之者…

2023年Q1天猫空调品牌销量排行榜

如今&#xff0c;空调的普及水平较高&#xff0c;空调行业进入存量换新为主的发展阶段。 根据鲸参谋数据分析平台的相关数据显示&#xff0c;2023年Q1在天猫平台上&#xff0c;空调的销量将近100万件&#xff0c;销售额将近30亿&#xff0c;同时&#xff0c;空调产品的产品均价…

免费gpt-4-国内使用gpt-4

如何用上gpt-4 GPT-4尚未正式发布和公开&#xff0c;因此我们无法提供对GPT-4的具体使用方法。但是&#xff0c;可以从GPT-4的前一代——GPT-3的使用经验和GPT-4的预期功能来看&#xff0c;建议如下&#xff1a; 了解GPT-4的语言处理能力和适用场景&#xff1a;GPT-4预计将进一…

vue---组件逻辑复用方法:Mixin/HOC/Renderless组件

目录 1、Mixin 2、HOC 3、Renderless组件 下文通过表单校验来分别讲解Mixin/HOC/Renderless组件这三种方式。 1、Mixin 通过mixin将一个公用的validate函数同步到每一个组件中去 mixin使用详细介绍见&#xff1a;vue---mixin混入_maidu_xbd的博客-CSDN博客一个混入对象可…

SpringBoot实战(十六) 集成Hystrix

目录 一、简介1.Hystrix 的定义&#xff1f;2.Hystrix 的用处&#xff1f;3.Hystrix 的三种状态&#xff1f;4.Hystrix 解决什么问题&#xff1f;5.Hystrix 的设计原理&#xff1f;6.Hystrix 的实现原理&#xff1f; 二、集成 Hystrix1.Maven 依赖2.application.yml简易版&…

AutoGPT 安装指南,使用避坑要点

最近&#xff0c; AIGC 中最火的可能就当属于 AutoGPT 了吧&#xff0c;首先简单介绍一下AutoGPT 背景 AutoGPT 是基于 ChatGPT API 接口开发&#xff0c;项目首推 GPT-4 模型&#xff0c;但 OpenAI 账号 API 只有 gpt-3.5-turo 权限同样也可以使用。 项目在 github 上获取的…

【服务器数据恢复】重装系统导致分区无法访问的数据恢复案例

服务器数据恢复环境&#xff1a; 磁盘柜raid卡15块磁盘组建一组raid5磁盘阵列&#xff0c;划分2个lun&#xff1b; 上层操作系统划分若干分区&#xff0c;通过LVM扩容方式将其中一个分区加入到了root_lv中&#xff0c;其他分区格式化为XFS文件系统。 服务器故障&#xff1a; 为…

DFMEA 在车用燃料电池空压机设计中的应用

摘要&#xff1a; DFMEA在空压机研发中的应用 氢气具有资源丰富、热值高和无污染等特点&#xff0c;因而是燃料电池汽车最理想的二次能源。空压机作为燃料电池汽车的关键总成&#xff0c;掌握其核心部件的设计和制造技术非常必要。应用传统的设计方法进行相关零部件如空气轴承…

Reid之损失函数理论学习讲解

基于深度学习的Reid主要流程为输入图像-->CNN(提取特征)-->Global average pooling-->特征向量&#xff0c;将用这些特征来衡量图像的相似情况。并用这些特征进行检索&#xff0c;返回分类情况。 在训练网络的时候需要涉及损失函数&#xff0c;因此就引出了表征学习和…

2023年淮阴工学院五年一贯制专转本应用文写作考试大纲

2023年淮阴工学院五年一贯制专转本应用文写作考试大纲 一、考核对象 本课程的考核对象是五年一贯制高职专转本秘书学专业普通在校生考生。 二、考核目的 通过课堂教学&#xff0c;学生应当能够识记、理解和应用有关应用文写作的基本理论和基本技能。其中&#xff0c;识记指…

优秀简历的HR视角:怎样打造一份称心如意的简历?

简历的排版应该简洁工整&#xff0c;注重细节。需要注意对齐和标点符号的使用&#xff0c;因为在排版上的细节需要下很大功夫。除此之外&#xff0c;下面重点讲述几点简历内容需要注意的地方。 要点1&#xff1a;不相关的不要写。 尤其是与应聘岗位毫不相关的实习经历&#x…

默认成员函数之构造函数,构造函数的特点,创建,调用与对象创建的一语双关,默认构造函数等

内置类型与自定义类型 C当中的类型的话分为两类&#xff1a;一种就是内置类型/基本类型&#xff0c;就是c语言自带的那些类型基本类型&#xff0c;如int, char, double, 指针&#xff08;任何类型的指针&#xff0c;因为指针就是地址嘛&#xff09;等等&#xff1b;还有就是自…

docker和k8s基础介绍

一 Docker介绍 1.1 docker是什么 Docker 是一个开源项目&#xff0c; 诞生于 2013 年初&#xff0c;最初是 dotCloud 公司内部的一个业余项目。它基于 Google 公司推出的 Go 语言实现。 项目后来加入了 Linux 基金会&#xff0c;遵从了 Apache 2.0协议&#xff0c; 项目代码在…

FFmpeg PCM 编码 AAC

1. 概要说明与流程图 1.1 概要: 1) FFmpeg 已经废弃了 AV_SAMPLE_FMT_S16 格式 PCM 编码 AAC,也就是说如果使用 FFmpeg 自带的 AAC 编码器,必须做音频的重采样(重采样为:AV_SAMPLE_FMT_FLTP),否则AAC编码是失败的。 2) 传输 PCM 数据时,采取截取缓存机制,解决接收数据包…

【无人机】回波状态网络(ESN)在固定翼无人机非线性控制中的应用(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

ChatGPT情商很高,但并不适合当搜索引擎

微软和谷歌正急于使用大型语言模型技术来强化搜索引擎。但有充分的理由认为&#xff0c;相比于提供事实性信息&#xff0c;这项技术更适合作为人们情感上的伴侣。 美媒评论称&#xff0c;目前基于大型语言模型的人工智能工具&#xff0c;例如ChatGPT&#xff0c;更擅长共情而不…

城市“一网统管”平台—智慧平安小区的场景应用

随着城市建设进程的不断加快&#xff0c;关于城市的智能化治理需求也随之增多。在国家发布的“十四五”规划中&#xff0c;已经明确指出&#xff0c;推进新型城市建设&#xff0c;推行城市运行一网统管。作为推动城市治理体系和治理能力现代化的重要探索&#xff0c;“一网统管…

Word中截取部分内容并保存为jpg图片的方法

private void button1_Click(object sender, EventArgs e) { var appWord new Microsoft.Office.Interop.Word.Application(); var doc new Microsoft.Office.Interop.Word.Document(); object oMissing System.Reflection.Missing.Value;//这个是什么东西&#xff0c;我始终…

基于云计算技术的B/S架构云HIS 云HIS 云HIS系统

传统的HIS经历了20多年的建设&#xff0c;已经从单机版发展到局域网的版本&#xff0c;更被深入应用到医院的各项业务活动&#xff0c;成为医院必不可缺的基础设施平台&#xff0c;724小时不间断地支撑医院运行。因此医院都十分重视信息化建设。随着医改的不断推进和医疗行业的…