共晶工程(cocrystal engineering)在制药,化学和材料领域有广泛应用。然而,如何有效选择coformer一直是一个挑战性课题。因此,作者开发了一个基于GNN的深度学习框架用于快速预测共晶的形成。为了从现有报告的6819个正样本和1052个负样本中捕获结晶(crystallization)的main driving force,作者探索了一种可行的GNN框架,将重要的先验知识整合到分子图的端到端学习中。CCGNet在7个竞争方法和3个具有挑战性的独立测试集(pharmaceutical cocrystals,π–π cocrystals和energetic cocrystals)上进行了验证,结果表明,CCGNet具有鲁棒性和泛化性。
来自:Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materials
coformer是指在共晶工程中与活性成分一起形成共晶的分子。在共晶工程中,选择合适的coformer非常重要,因为只有某些特定的分子才能与活性成分形成共晶。
目录
- 背景概述
- 方法
- 数据收集和增强
- 样本的表示
- CCGNet概述
- 实验
- 消融实验
- 药物共晶的独立检测
- π–π共晶的独立检测
- 高能共晶ECCs的应用与实验验证
背景概述
共晶体(co-crystals,CCs)是由两个或两个以上的中性分子按一定的化学计量比通过非共价力组合而成的一种单相结晶材料,它既不是溶剂化物,也不是简单的盐。这种共结晶可以通过低成本、结构灵活的非共价键合成来实现功能分子的新特性。因此,共晶工程已成为制药、化学和材料领域的一种有效的设计策略。例如,CCs被用作处理物理化学、生物制药的手段,并扩大活性药物成分(APIs,Activate Pharmaceutical Ingredients)的固体形态多样性。对于有机功能材料来说,CCs具有先进的光学、电学新功能。同时,共晶是提高炸药性能以实现低灵敏度高能量的有效杠杆。
尽管前景诱人,但如何选择coformer是共晶工程的关键,因为共晶只发生在某些特定的分子之间。新共晶的实验测定通常涉及大范围coformer的系统筛选,因此在时间、精力和实验资源上都是昂贵的。为了解决这一问题,一些计算方法被提出并用于预测可能形成CCs的coformer,例如,使用CSD(Cambridge Structural Database)的实验数据进行结构分析、基于网络的共晶设计链接预测、共晶形成的热力学特性研究、分子动力学模拟、分子间位点配对能(ISPE,intermolecular site pairing energy)研究。以上这些方法大致遵循了基于知识的和基于物理的范式,它们确实为实验设计提供了有用的指导。然而,它们在非共价相互作用和分子化学结构多样性的推广方面受到限制。因此,迫切需要开发更通用、计算成本更低的策略。
一些研究已经利用ML方法对共晶预测进行了有意义的尝试,包括支持向量机、多元自适应回归、随机森林和深度神经网络。然而,这些ML方法与分子描述符或指纹相结合,仅表现出中等的共晶预测精度。随着数据的快速积累和图形处理单元GPU的蓬勃发展,深度学习在许多研究领域已经远远超出了传统的机器学习方法。特别是图神经网络GNN,作为深度学习的一个子集,由于图的强大表达能力而受到越来越多的关注。对于GNN,在分子图上的端到端学习取代了传统的特征工程。据报道,一项基于GNN的共晶筛选工作在验证集达到了97%的准确率,但是在独立测试集仅达到80%的准确率。尽管GNN提高了验证集上的性能,但反映ML模型对未知样本的鲁棒性和泛化的独立测试集上的预测精度仍然适中。然而,提高泛化能力一直被认为是机器学习面临的最大挑战之一。
机器学习主要依赖于大量的高质量数据。CSD(Cambridge Structural Database)含有丰富的共晶结构,但仅限于正样本(cocrystals),而缺乏无效的共晶组合(即负样本)。为了构建平衡的负样本,Devogelaer和Wang借助一些计算方法,如基于网络的链接预测和基于分子相似性的方法,将两个coformer组合成无效共晶。在没有实验数据的情况下,这种计算方法被认为是一种很好的替代方法。然而,加上实验报告的一些负样本,数据集依然不平衡。不平衡数据集上的ML很容易偏向过拟合。然而,在现实世界中,数据表示不均匀的问题经常出现。此外,从数据挖掘的角度来看,少数类更重要,因为它可能携带重要和有用的知识来确定界限。
此外,表征样本的特征也是关键,特别是对于不平衡数据。如果两个高度不均衡的类都可以用非重叠分布很好地表示,则基于ML的分类器仍然可以获得很好的准确率。传统的机器学习算法通常涉及特征选择或优化以提高模型性能。而像gnn这样的现代深度学习方法通常遵循端到端策略,该策略强调最小的先验表征和计算假设。然而,在许多领域,可用的数据往往是有限的,这很难支持深度学习足够的知识表征。在这种情况下,应该提倡一种方法可以考虑先验知识和端到端学习的互补优势。
在上述挑战的激励下,作者在这项工作中重建了一个由7871个样本组成的可靠共晶数据集,其中1052个负样本全部来自实验报告,以尽量减少假阴性,6819个正样本仍然来自CSD。为了从有限的和不平衡的数据集中更完整地捕捉到共晶的main driving force,作者提出了一种互补策略,通过将分子图和来自先验知识的12个分子描述符结合起来表示共晶的coformer,这些描述符对共晶的形成有重要贡献。在学习特征表示方面,作者探索了一种灵活的基于GNN的深度学习框架,该框架有效地将先验知识整合到分子图的端到端学习中,可以通过迁移学习应用于与训练数据集差异显著的CCs。作者将其命名为共晶图网络CCGNet。
方法
数据收集和增强
为了获得一个可靠的数据集,作者构建了一个包含7871个样本的大数据集(CC数据集),其中6819个正样本和1052个负样本。正样本来自CSD。如图1a所示,CCs是根据以下条件从CSD筛选出来的:
- 只含有两种化学上不同的多原子单位;
- 具有3D结构,没有无序原子,避免低质量结构;
- 不含任何一组常见溶剂或小分子;
- 只含C、H、O、N、P、S、Cl、Br、I、F、Si等元素,不含金属元素;
- 考虑到大多数有机CCs一般都是小分子,各组分的分子量<700;
- 排除多态性去除重复样品,考虑到当结晶条件改变时,两种相同的分子组合可以形成不同的晶体结构。
负样本来自186篇文献报告,与通过计算模拟的负样本相比,这可以减少假阴性样本的存在。负样本的coformer结构来自PubChem。
这7871个样本可以为深度学习训练提供支持,也为今后研究CCs的其他性质提供了数据资源。此外,在使用数据集训练机器学习模型时,作者采用了数据增强策略,以增强模型的鲁棒性。由于共晶的输入涉及一对coformer,作者交换它们的输入顺序以使样本数量增加一倍,从而扩大数据集。
样本的表示
样本表示对于ML拟合分子结构与其性质之间的关系至关重要。与传统的仅以分子图表征样本的GNN不同,作者提出了一种将先验知识和分子图上的学习相结合的互补特征表示,以便从有限的数据集中更完整地捕获共晶的main driving force。
表1列出了使用的分子图的原子和共价键特征。选择12个分子描述符代表先验知识,因为相关研究表明它们与共晶高度相关。表2显示了12个选定的分子描述符,涉及分子的形状、大小、极性、柔韧性和氢键倾向,这些描述符可以快速计算,以便于高通量筛选。如图1b所示,将这些来自专家知识的分子描述符作为全局状态 u u u,嵌入到一个2×12矩阵中。分子图中的共价键信息由一个邻接张量 A A A表示。每个切片 A l A_{l} Al是一个邻接矩阵,表示一种键类型,通过这个邻接矩阵,共价键以外的其他特征也可以作为额外的切片嵌入到 A A A中。最后,将分子图中的原子能级特征转换为顶点矩阵。
CCGNet概述
在提出互补特征的基础上,作者构建了基于图神经网络的共晶预测模型CCGNet。作者通过引入消息传递范式的相关概念来形式化CCGNet框架。如图1c所示,CCGNet主要由两个阶段组成,即消息传递阶段和 read out 阶段。消息传递将顶点嵌入传播到相邻节点并更新嵌入。如图1d所示,消息传递阶段可以由N个CCGBlock(论文中为4个ccgblock)组成。CCGBlock包含两个可学习函数 Φ u \Phi_{u} Φu和 Φ v \Phi_{v} Φv。 Φ u \Phi_{u} Φu被定义为全局状态函数,由单层前馈神经网络构建,该网络计算与12个手工选择的分子描述符相关的全局状态的隐藏表示。 Φ v \Phi_{v} Φv为GNN,使用edge的邻接张量在分子图的节点之间传播和更新信息。 ρ u → v \rho^{u\rightarrow v} ρu→v为concat操作,用于将 u u u的latent表示嵌入到每个coformer的节点向量中。
在 read out 阶段,还进行了concat操作,进一步融合多层特征,并在 read out 函数中引入全局注意力机制,从分子图中计算特征向量,采用原子向量的加权求和,而不是简单求和,如图1e所示。为了稳定自注意力的学习过程,进一步优化隐藏嵌入,作者构建了多头注意框架,该框架并行计算每个原子的 k k k个独立注意力系数,产生 k k k个独立的嵌入,然后将它们concat到向量上作为整个样本的表示。在全局注意力之后,将全局状态的隐藏表示 U ′ U' U′与图嵌入连接起来,进一步丰富信息。
最后,将顺序的Dense层应用于共晶形成的最终预测,如图1c中的灰色块所示。
- 图1:CCGNet的整体框架。
- 表1:CCGNet使用的原子和键属性。
- 表2:用于编码全局状态的分子描述符。
实验
消融实验
- 图2:消融实验结果。
作者对特征表示和模型框架进行了一些消融研究,以探讨它们是否对模型性能至关重要。在12个分子描述符中,有7个与三维构象相关,如S、S_L、M_L、S_M、Globularity、FrTPSA和Dipole_Moment,它们被标记为三维描述符。其余五个描述符可以由二维结构决定,因此标记为二维描述符。作者分别从全局状态中去除2D描述符、3D描述符和所有12个分子描述符,然后测试剩余特征的影响。图2a显示了在十倍交叉验证集上的预测性能,其中仅使用分子图的模型准确率最低(BACC的93.90%,balanced accuracy)。在加入二维描述符后,预测性能略有提高,达到94.16%。然而,通过单独将7个3D描述符嵌入到分子图中,获得了实质性的改进(97.68%)。当12个分子描述符全部融合到分子图中时,预测准确率进一步提高到98.54%。结果表明,GNN在有限数据集的分子图上的学习很难掌握足够的结构信息,特别是与三维构象相关的特征。在这种情况下,特征互补将减轻限制。
此外,分子间氢键(Hbond)和π -π相互作用(π -π)被认为主导了共晶的识别过程。因此,作者还研究了通过将两种分子间相互作用作为两种新的edge特征添加到分子图的邻接张量中,是否可以进一步提高预测精度,如图2b所示。出乎意料的是,模型的性能不但没有提高,反而有所下降,如图2c所示。实际上,这12个分子描述符涉及芳香原子和氢键,与分子间的氢键和π -π相互作用有关。
此外,CCGNet模型还在读出阶段引入了注意机制,进一步优化了特征空间。由图2d可以看出,共晶结构中的一对coformers表现为-O5-H··N2、-O4-H··O3和-O6-H··O1氢键以及苯环和恶二唑环之间的π -π相互作用,而注意力权值只捕获了涉及这两种分子间相互作用的基团。因此,两个边缘特征的额外添加反而增加了特征的冗余,使模型学习更加困难,从而降低了预测精度。
图2e代表了t-SNE可视化。可以看出,CCGNet学习的共晶嵌入即使在数据分布不平衡的情况下也能很好地分离正、负样本,这得益于互补特征和合理的模型框架。
药物共晶的独立检测
在药物共晶的独立测试中,通常需要对共晶的物理化学性质和药理学性质进行测试。作者收集了四种潜在API(活性药物成分)作为研究案例,包括Nicotinamide、Carbamazepine、Indomethacin和Paracetamol。这些API被用于测试模型在药物共晶方面的泛化能力。具体而言,需要对这些API与不同coformer形成的共晶进行测试,并评估其物理化学性质和药理学性质是否得到了保留。结果见图3b。
药物共晶可以改善潜在原药的物理化学性质,同时保持其药理性质,因此在制药工业中发挥着重要作用。为了检验模型在药理学共晶中的泛化能力,作者收集了烟酰胺、卡马西平、吲哚美辛和扑热息痛四种原药作为研究案例。烟酰胺是一种无害且应用广泛的食品添加剂,常被用作共晶的coformer。卡马西平用于治疗癫痫和神经性疼痛。由于卡马西平的生物利用度有限,如溶解度低,通常需要使用更高的剂量才能达到预期的治疗效果,而共晶是提高其溶解度的有效方法。此外,在以前开发的方法中,对吲哚美辛和扑热息痛的共晶预测表现不佳。
π–π共晶的独立检测
在有机功能材料领域,共晶已成为构建新型功能材料的一种很有前途的方法,范围从光子材料到光学和电子材料。具有丰富π轨道的多环芳烃PAHs通过分子间π -π相互作用使电子迁移,因此是形成具有多种电学和光学性质的共晶的有希望的组分。然而,与H键或卤素键等强相互作用相比,π -π相互作用相对较弱,导致共晶合成和结构确定的难度较大。因此,准确预测π -π共晶体系是非常必要的。芘是一种重要的多环芳烃。结果见图3c
高能共晶ECCs的应用与实验验证
高能材料(炸药、推进剂和烟花)在军事和民用领域发挥着重要作用。然而,炸药的威力和灵敏度之间的矛盾一直是一个众所周知的具有挑战性的问题,例如,高能炸药通常具有较低的安全性,反之亦然。共晶工程在提高稳定性、灵敏度和氧平衡等性能方面显示出巨大的潜力。然而,高能分子往往含有丰富的硝基,缺乏对传统有机CCs有重要贡献的官能团,导致合成预测难度较大。因此,有效预测高能共晶形成的模型将成为实验研究的重要工具。结果见图3d和e。
- 图3a:3种独立测试集的样本(药物共晶的对象包括烟酰胺,卡马西平,吲哚美辛,对乙酰氨基酚)。
- 图3b:四种原料药的平衡精度。
- 图3c:对芘共晶的预测性能。TPR、TNR和BACC分别表示真阳性率、真阴性率和平衡准确率。
- 图3d:迁移学习和不迁移学习(预训练)对TNT的预测性能。
- 图3e:迁移学习和不迁移学习(预训练)对CL-20的预测性能。