中山大学李华山、王彪课题组开发 SEN 机器学习模型,高精度预测材料性能

内容一览:了解全局晶体对称性并分析等变信息,对于预测材料性能至关重要,但现有的、基于卷积网络的算法尚且无法完全实现这些需求。针对于此,中山大学的李华山、王彪课题组,开发了一款名为 SEN 的机器学习模型,准确感知了固有晶体对称性和材料结构团簇之间的相互作用。
关键词:材料性能预测 深度学习 MP 数据库

作者 | 李宝珠

编辑 | 三羊

晶体对称性对于研究材料的物理性质、理解晶体结构、设计新材料以及进行 X 射线衍射等实验具有关键作用。了解晶体对称性有助于简化分析,更好地理解材料属性,并提高材料性能的计算效率。更重要的是,晶体对称性还可以直接影响材料的电荷分布、光学性质、磁性质等物理特性。

近年来,基于统计机制的机器学习已经得到了广泛应用,而从机器学习的角度来看,晶体对称性可以看作是材料的不变性与等变形,但目前现有的、基于高级图网络的晶体材料机器学习算法很难编码复杂的材料不变性和等变性。

此外,堆叠式胶囊自编码器 (Stacked Capsule Autoencoder,SCAE) 虽然也可以直接从原始数据中提取空间对称性特征,但传统的胶囊模型仍无法分析复杂材料系统结构-性能之间的关系。

针对以上挑战,中山大学李华山、王彪课题组开发了一套名为 SEN(symmetry-enhanced equivariance network,对称增强等变网络 )的机器学习模型,克服了基于卷积的算法在高对称空间群中性能不佳的问题,并在所有空间群中实现了高精度的材料性能预测。目前,相关成果已经发表于「Nature Communications」。

相关成果已经发表于「Nature Communications」

获取论文:

https://www.nature.com/articles/s41467-023-40756-2

01 数据集:MP 数据库中的 6,027 个晶体材料

研究人员基于化学环境的概念和图模型的表示方法提取了晶体材料的特征,以目标原子截断半径内的周围原子和键来定义其化学环境,并从用于材料分析的开源 Python 数据库——Materials Project 中提取了每个原子周围的原子类型、原子连接性和键长。

据悉,本研究中用于预测带隙和形成能的数据集来自 Materials Project 数据库,带隙和形成能的数据集分别包含 6,027 (按 8:1:1 的比例分为训练集、验证集和测试集)和 30,000 种材料。这两个数据集由 64 个元素组成,涵盖了周期表内除惰性气体组、镧系元素、锕系元素和放射性元素外的元素。

研究人员通过密度泛函理论(DFT)计算,对 Materials Project 数据库中的 6,027 个晶体材料组成的数据集进行了预测,并基于预测结论对 SEN 模型的性能进行了检验。

本研究中使用的晶体对称性和化学环境数据可从 Zenodo 数据库中获取。

访问链接:

https://doi.org/10.5281/zenodo.8142678

02 模型架构:3 个模块统一训练

如下图所示,SEN 模型采用了复杂的深度学习架构,包含特征提取 (FE)、对称性感知 (SP) 和属性预测 (PP) 模块。

SEN 架构由特征提取、对称感知和属性预测模块组成

在本次研究中,研究团队通过对 3 个模块的统一训练,实现了对多种材料特性的准确预测,并通过 SEN 模型描述了原子之间的相互作用。

首先,特征提取模块感知输入的原子和化学键数据,输入数据包括了靶材料原始单元中 N 原子和 M 键的信息。最后,通过高通量筛选过程,构建了包括化学计量、晶体结构、原子信息和键信息的材料数据集。

以材料数据集作为 SEN 模型的唯一输入数据,研究人员基于结构数据和化学计量数据,同时计算出了原子化学环境向量 VmA,以及元素权重向量 VmE。

经多层感知器激活后,元素权重向量被转换为相应原子的概率向量。研究人员进而通过原子化学环境向量和元素权重向量之间的 element-wise operation,更新了所有原子级别的相关性,从而能通过 LSTM-attention 层获得了材料的化学环境矩阵。

其次,该研究创新性地将胶囊机制 (capsule mechanism) 应用于材料属性预测,通过基于胶囊机制设计的对称性感知模块,将材料化学环境转换为由对称算子、卷积材料化学环境和存在值组成的材料胶囊,以感知并保留晶体对称性。进而,通过在材料的化学环境矩阵上进行对称运算,可以将不同的对称图案推广到晶体胶囊中。

最后,在属性预测方面,SEN 模型通过基于 MLP 的映射函数预测目标材料性质。

03 SEN 模型高精度预测材料属性

结论一:SEN 模型准确感知原子相互作用信息

为了验证特征提取模块的有效性,研究人员训练了 SEN 预测晶体材料带隙的能力,直到平均绝对误差 (MAE) 低于 0.15 eV,然后分析了特征提取模块产生的化学环境中间数据。

基于原子的化学环境相关性分析

具体而言,研究人员提取了 Y4Cu2O7 的原胞中每个原子的化学环境矩阵。计算了原子矩阵之间的 Pearson 系数,生成了上图所示的相关性分析图。与不同元素组的原子相比,同一元素组内的原子之间的 Pearson 系数要大得多,因此可以清楚地区分出 Y4Cu2O7 中的 3 个元素组。

通过 SEN 模型学习了六种材料的原子相关性

如上图所示,SEN 模型已经学习并编码了原子相互作用信息,并成功地检测到了杂化现象,这对于电子性质的预测具有重要意义。

结论二:SEN 模型预测性能优于 MegNet

为了研究在 SEN 模型中从化学环境到材料性质的映射,研究人员从 MP 数据库中选择了五种材料——Be(6)Ni(2)、 Sr(4)Ge(2)S(8)、 Li(2)V(2)F(12)、 CsAsF(6)、 BaB(2)F(8),其带隙分别为 0 eV、 3.25 eV、 4.86 eV、 7.24 eV 及 10.12 eV。

观察得知,带隙与材料化学环境的 PDF(概率密度函数)之间存在强相关性,即随着带隙的增大,PDF 逐渐扩散。整个数据集从材料化学环境到带隙的投影如下图所示,6,027 个晶体材料均匀分布在主特征空间,而带隙的变化在整个空间上是连续、单调的。

6027 种材料的 2D t-SNE 图,圆的颜色表示带隙值

为了验证机器学习模型所学习的特征-属性关系符合基本物理原理,研究人员生成了 Ca-O-X 材料的化学环境 2D t-SNE 图,并调查了各种材料特征(成分、点群、自旋极化等),最终发现,材料带隙取决于复杂的材料特征,不能简单地由任一关键因素来预测。

尽管如此,SEN 模型在带隙预测方面还是取得了显著的提升。在对测试数据集中的材料带隙进行预测时,SEN 模型的均方误差 (MAE) 为 0.25 eV,与具有 MLP、DenseNet、TFN、SE(3) 和 EGNN 模块的模型在测试数据集上获得的 MAE 相比,有显著改进。

不同对称度晶体材料性能的预测

如上图 d 所示,研究人员对比检验了 SEN 模型和 MegNet21 模型(通用材料网络模型)对不同晶体系统的预测质量,进一步揭示了对称感知对材料性能预测的显著影响。从误差分布图来看,SEN 模型的预测性能在所有晶体系统中均优于 MegNet。

此外,SEN 模型通过感知全晶体对称性,大幅降低了有效特征维数。这一特征清除过程减轻了过拟合问题,并加强了从材料特征到属性的映射。

论文显示,SEN 模型预测带隙和形成能的平均绝对误差分别比常见机器学习模型低约 22.9% 和 38.3%。

04 AI 推动材料产业变革发展

长久以来,新材料的设计、研发以及材料性能的改革是牵引科技进步的拉力之一,在电子、能源、医疗、航空航天等诸多领域发挥着重要作用。但传统的材料研发过程往往需要大量实验来不断修正性能,提高可行性,这一过程漫长且需要耗费极大的人力、财力。

而随着 AI 的加速应用,AI for Science 得到了越来越多的关注,其与材料的结合也成为了越来越多学者、企业的探索新方向。一方面,AI 可以分析大量数据,并进行模拟预测,从而加速新材料的发现与性能优化;另一方面,材料学科也成为了机器学习、自然语言处理、高性能计算等 AI 关键技术的重要落脚点。

可以说,AI 正在润物细无声地改变着新材料的设计与应用。未来,随着更强大的 AI 模型持续迭代,加之数据共享之下材料数据库的更新扩充,AI 势必将进一步推动新材料的诞生。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/226752.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

史上最强 Charles 抓包

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

Python中如何判断List中是否包含某个元素

更多资料获取 📚 个人网站:ipengtao.com 在Python中,判断一个列表(List)是否包含某个特定元素是常见的任务之一。在本文中,将深入探讨多种判断List成员包含性的方法,并提供丰富的示例代码&…

嵌入式工程师校招经验与学习路线总结

前言:不知不觉2023年秋招已经结束,作者本人侥幸于秋招中斩获数十份大差不差的OFFER,包含:Top级的AIGC,工控龙头,国产MCU原厂,医疗器械,新能源车企等。总而言之,秋招总体情…

量子纠缠通讯:未来信息技术的革新者

量子纠缠通讯:未来信息技术的革新者 引言 在科技日新月异的今天,我们正逐步走进一个全新的科技时代——量子时代。量子纠缠通讯作为量子技术的重要分支,以其独特的优势和巨大的潜力,成为了当今世界研究的热点。本文将带您深入探讨量子纠缠通讯的奥秘,了解其原理、优势、…

架构师-3.用户体系

系统提供了 2 种类型的用户,分别满足对应的管理后台、用户 App 场景。 1.AdminUser 管理员用户,前端访问 s-ui-admin-vue3管理后台,后端访问 /admin-api/** RESTful API 接口。 2.MemberUser 会员用户,前端访问 s-ui-user用户 App,后端访问 /app-api/** RESTful API 接口。…

Java中lambda表达式的使用

💕"我不要麻木的死去"💕 作者:Mylvzi 文章主要内容:Java中lambda表达式的使用 一.背景 lambda表达式是Java SE 8中一个重要的新特性,允许你使用一个表达式来代替功能接口。lambda表达式可以看作一个没有返…

基于SpringBoot+Vue实现的小区物业管理系统

文章目录 系统介绍技术选型成果展示账号地址及其他说明 系统介绍 基于SpringBootVue实现的小区物业管理系统是为物业管理打造的一款在线管理平台,它可以实时完成信息处理,对小区信息、住户等进行在线管理,使其系统化和规范化。 系统功能说明…

架构师一1.功能权限

1. RBAC 权限模型 系统采用 RBAC 权限模型&#xff0c;全称是 Role-Based Access Control 基于角色的访问控制。 简单来说&#xff0c;每个用户拥有多个角色&#xff0c;每个角色拥有多个菜单&#xff0c;菜单中存在菜单权限、按钮权限。这样&#xff0c;就形成了 “用户<-…

画好一张规范的原理图,这些点你可要注意了!

不光是代码有可读性的说法&#xff0c;原理图也有。很多时候原理图不仅仅是给自己看的&#xff0c;也会给其它人看&#xff0c;如果可读性差&#xff0c;会带来一系列沟通问题。所以&#xff0c;要养成良好习惯&#xff0c;做个规范的原理图。此外&#xff0c;一个优秀的原理图…

msvcp140_ATOMIC_WAIT.dll丢失的相关解决方法分享

在计算机使用过程中&#xff0c;我们可能会遇到一些错误提示&#xff0c;其中之一就是msvcp140_CODECVT_IDS.dll丢失。这个错误通常会导致某些应用程序无法正常运行&#xff0c;给用户带来困扰。本文将详细介绍msvcp140_CODECVT_IDS.dll的作用和影响&#xff0c;并提供5个解决办…

【C语言】函数递归--输出n的k次方

题目描述&#xff1a; 递归实现n的k次方 代码如下&#xff1a; #include<stdio.h> int nk(int n, int k) {if (k > 0)return n * nk(n, k - 1); } int main() {int ret 0;int n 0;int k 0;scanf("%d", &n);scanf("%d", &k);ret nk(n…

基于springboot + vue的社区医院信息系统

qq&#xff08;2829419543&#xff09;获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;springboot 前端&#xff1a;采用vue技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xf…

C:算术移位和逻辑移位傻傻分不清楚

1. 算术移位与逻辑移位概念 算术移位指令对带符号数进行移位。 逻辑移位指令对无符号数进行移位。 算术左移、右移&#xff0c;逻辑左移、右移 如图所示 &#xff1a; 这里有一个进位位C&#xff0c;它就是标志寄存器 &#xff08;即状态寄存器&#xff0c;亦称程序状态字寄…

ESP32-Web-Server编程-通过 Base64 编码在网页中插入图片

ESP32-Web-Server编程-通过 Base64 编码在网页中插入图片 概述 不同于上节 ESP32-Web-Server编程-在网页中通过 src 直接插入图片&#xff0c;本节引入 Base64 编码来显示图片。 Base64 是一种用64个字符来编码表示任意二进制数据的方法。任何符号都可以转换成 Base64 字符集…

实例分割 Mask-RCNN

参考文章 使用LabelMe标注目标检测数据集并转换为COCO2017格式_labelme转coco-CSDN博客 数据集选择 voc 这次不选择voc&#xff0c;因为文件组织太难了 voc2012文件夹组织 COCO COCO介绍 MC COCO2017年主要包含以下四个任务&#xff1a;目标检测与分割、图像描述、人体关…

想要精通GO语言?这些网站是你的最佳选择!

介绍&#xff1a;Go&#xff08;又称 Golang&#xff09;是由 Google 的 Robert Griesemer&#xff0c;Rob PGo&#xff08;又称 Golang&#xff09;是由 Google 的 Robert Griesemer&#xff0c;Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译型语言。它在2009年11月10…

全网最新最牛的Java代码接口自动化测试 REST Assured接口测试 HTTPClient接口测试

近几年接口自动化变得越来越热门&#xff0c;相对比于UI自动化&#xff0c;接口自动化有一些优势 1.运行比UI更稳定&#xff0c;让BUG更容易定位 2.UI自动化维护成本太高&#xff0c;接口相对低一些 接口测试其实有很多方式&#xff0c;主要有两种&#xff0c;一个是工具&am…

有效解决wordpress的502 Bad Gateway错误提示

摘要&#xff1a;最近有客户反映使用阿里云虚拟云主机&#xff0c;wordpress常提示502 Bad Gateway错误&#xff0c;网关错误是网站上遇到的常... wordpress的502 Bad Gateway错误如何修复&#xff1f; 第1步&#xff1a;偶发错误可尝试重新加载网站 偶尔出现流量突发爆增或是服…

el-pagination 纯前端分页

需求&#xff1a;后端把所有数据都返给前端&#xff0c;前端进行分页渲染。 实现思路&#xff1a;先把数据存储到一个大数组中&#xff0c;然后调用方法进行切割。主要使用数组的slice方法 所有代码&#xff1a; html <template><div style"padding: 20px&qu…

创建第一个 Flink 项目

一、运行环境介绍 Flink执行环境主要分为本地环境和集群环境&#xff0c;本地环境主要为了方便用户编写和调试代码使用&#xff0c;而集群环境则被用于正式环境中&#xff0c;可以借助Hadoop Yarn、k8s或Mesos等不同的资源管理器部署自己的应用。 环境依赖&#xff1a; 【1】…