论文解读 | NeurIPS'24 Lambda:学习匹配先验以处理无标记垂悬问题场景下的实体对齐任务...

点击蓝字

55c5daea1f2c94ece29baadd46cab632.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

f6d44814c3a29354f6142daf983d9fff.png

点击 阅读原文 观看作者讲解回放!

作者简介

尹航,上海交通大学博士生

内容简介

我们研究了带有无标记悬挂问题的实体对齐(EA)任务,即部分实体在另一个知识图谱(KG)中没有对应实体,而这类实体尚未被标记。当待匹配的源图和目标图的规模不同时,这个问题就会出现,而且标记可匹配实体相比悬挂实体要容易得多。为了应对这一挑战,我们提出了一个名为Lambda的框架,用于悬挂检测和实体对齐。Lambda采用了一个基于图神经网络(GNN)的编码器KEESA,并结合了谱对比学习损失用于EA,以及一个名为iPULE的正无标记学习算法用于悬挂检测。iPULE具备无偏性、一致偏差界限和收敛性方面的理论保证。实验结果表明,Lambda的每个组件都有助于整体性能的提高,其性能优于基线方法,即使基线方法额外利用了30%的悬挂实体用作训练标记。

论文地址:https://arxiv.org/abs/2403.10978

Task Definition

本文研究的问题叫做实体对齐任务,这是一个在数据库领域中已经存在很长时间的任务。这个任务的主要目的是在不同的知识图谱中寻找等价的实体。

在算法上,我们可以将其直接建模为一个图匹配任务,只不过是针对节点的匹配任务。随着深度学习的发展,许多方法在实体对齐相关的数据集上已经取得了较好的性能。然而,这些方法普遍基于知识图谱之间的一对一假设,即假设图谱中的节点数量相等并具有一对一的对应关系。实际问题中,这种假设太过严格,会限制实体对齐方法在实际领域中的应用。

e7053bc67ebf8028492d6113d12a7f43.png

在实际应用中,有一部分实体被称之为Dangling实体(dangling entity),它们在另一个图谱中没有对应可匹配的实体节点。在此视角下,将图谱中的实体分为两类——可匹配实体和Dangling实体——可匹配实体的标记是更为直接且简单的,只需确定一组配对即可。然而,Dangling实体需要穷尽所有匹配可能性才能判定某个节点属于Dangling实体,因此这一类实体在实际任务中往往处于无法被标记的状态。

除了基于一对一假设的实体对齐方法之外,还有一些方法针对Dangling问题进行了研究,如右图所示。这些工作也存在两方面问题:一方面,它们过度依赖一些附加信息(如隐私敏感的节点名字或属性信息);另一方面,它们引入了一些不合理的假设,如认为Dangling实体应该可以被标记。实际上则恰恰相反。

Motivation

在上述背景下,作者进一步进行了实验探索。通过向已有的实体对齐方法的推理阶段中加入了更多的dangling 实体来进一步验证作者的观察。通过蓝色部分的数据可以看到,随着dangling 实体的引入,这些方法的性能出现了显著的下降。可以发现,dangling实体问题对实体对齐方法的性能影响非常严重。这进一步说明了该问题是值得探究的。

基于这些动机,本文希望在不依赖附加信息和dangling标签的条件下来实现更鲁棒的对齐方法,提升其实用性和应用效果。

0d70c285d5af5c27b8d9356f0bfabff9.png

Framework

在之前工作的基础上,本文提出了一个新的处理架构。由于需要面对无标记的问题,作者直觉上采用了PU学习(Positive-Unlabeled learning)方法。PU学习方法简单来说,是在只有正样本有标签的情况下进行预分类的方法。

之前的工作通常沿用左图所示的流程:将一些预对齐的种子节点和Dangling标签作为输入,同时进行实体对齐模型和Dangling实体检测组成的分类模型的学习。在推理阶段,才会将Dangling实体从推理集合中移除,以规避Dangling实体带来的推理代价。然而,这些方法忽略了在学习阶段Dangling实体对模型造成的额外学习代价。

f7bbc7cebb08ce9dcef3c313b86f7eb7.png

因此,本文采用PU学习的方法,将问题进一步转化为右图所示的框架。新的处理架构中,仍然需要将一部分种子点作为输入,但不同的是将Dangling检测任务调整到实体对齐任务之前。此外,在Dangling检测中会额外输出一些值,这些值代表剩余实体中具有潜在对应关系的实体比例。如果这个比例过低,则实体对齐任务会提前停止,无需进行额外的对齐学习和推理过程。但如果发现剩余实体节点中有相当数量的实体是可以对齐的,则我们可以选择在Dangling检测后将检测出的Dangling实体进行移除,从而继续在剩余实体中进行实体对齐。

本文所提框架相比之前的方法有一个显著优点:在进行最终的实体对齐任务之前,该框架为下游任务提供了更多的选择,从而可以规避一些不必要的训练和推理代价。在此基础上,作者对问题进行了进一步的正则化定义。也就是说,给定一些预对齐的可匹配实体节点作为正样本,需要预测正样本的比例并同时识别它们。

Iterative Positive-Unlabeled Learning for Dangling Detection

在原有PU学习方法的基础上,作者做出进一步的改进,提出了一种迭代式的PU学习方法来处理Dangling检测问题。

PU学习方法通常沿袭如下思路:首先推导出一个无偏的风险估计函数,这个函数是对损失函数的抽象,这个函数的基本结构可以分解为类先验比例乘以对应的风险函数。本文的方法建立在对类先验比例信息进行更为细致划分的基础上。

定理1首先推导出无偏风险估计的基础形式,基于此无偏估计,作者在定理2中证明了所提方法相较于经典的非负风险估计(Non-negative Risk Estimator)具有更紧的一致方差界。这表明该方法不仅在概率上是无偏的,同时也具备一致性。通过定理1和定理2,作者将寻找Dangling实体的问题转化为估计这一类实体的类先验比例的问题。定理3表明这种迭代方法能够收敛到一个较为准确的类先验比例值。

ed187ef13236158d76460748b401581c.png

Loss Function

具体而言,损失函数设计如图所示。PU学习的损失函数整体上由两部分构成:第一部分是正样本的损失函数,因为只有正样本有标签;第二部分是对负样本损失函数的近似。为了防止梯度消失问题,需要确保负样本的损失大于零,因此在计算中引入了max函数操作。在忽略max函数之后,剩余的项实际上由三部分构成:正样本被正确标记为正样本的损失、未标记样本被标记为负样本的损失以及正样本被误标记为负样本的损失。每一部分分别乘以相应的类先验比例,最终构成整体的损失函数。

类先验比例在本文的问题场景中是需要预先估计的,而在二分类的场景中,类先验比例之间存在较强的依赖关系。通过简单的算术运算,可以通过已知的一个类先验比例推导出其他所有的比例值。简化之后,作者发现只需要找到正类的先验比例估计,就可以完成整个损失函数的计算。

因此,图中展示了三种情况下的损失计算方法:正样本被正确标记为正样本乘以对数正类先验比例,未标记样本被标记为负样本乘以未标记对数类先验比例,以及正样本被误标记为负样本乘以未标记的正类对数先验比例。本研究的最终目的就是找到正类先验比例的最优估计,以便完善损失函数的计算。

82c8d99a9a9ccbe3a4eda6d4b08cf5c5.png

Algorithm

作者提出了一种迭代式的PU学习方法,该方法具有估计类先验比例的能力。具体过程如下:首先,将训练集中已标记的可对齐实体的比例设定为初始化值,然后固定该比例来构造损失函数。通过对该固定损失函数进行若干轮数的训练,可以将模型参数优化到相对合理的区间。

算法通过迭代地进行E step和M step。在E step中,通过推理预测出类先验比例的值;在M step中,固定E step中推理出的值来构造新的损失函数,并根据此损失函数反向更新模型。这个过程类似于经典的EM算法,文中的证明思路也是将其作为EM算法的特例来证明其收敛性。由于该收敛性证明具有较强的条件限制,文中还通过实验进行了进一步验证了,并展示了其对于类先验比例估计的正确性。

如图所示,算法1描述了这一迭代式PU学习方法的具体流程。初始化阶段后,进入迭代训练,通过E step和M step交替进行,持续优化模型参数,直到模型收敛或者类先验比例达到预期。实验结果进一步验证了该算法在不同数据集上的性能和稳定性。

647adb577e8317e7086724b9a168c9c3.png

Selective Aggregation with Spectral Contrastive Learning

在上述基础上,需要注意以下几点。首先,PU学习方法并不是对所有二分类问题都有效。PU学习能发挥作用的前提是这两类在特征空间上已经有较为明显的区分度,即所谓的分类判别条件(Classification Discriminative)。其次,本研究的最终目标是实体对齐任务,它更依赖于一个理想的一对一嵌入空间。

为了同时满足这两点需求,本文提出了一种方法。对于第一个需求,由于在无标签的场景下进行计算,它可以通过一种经典的谱聚类方法来解决。对于第二个需求,可以通过一种经典的对比学习方法实现,即通过训练让正样本互相靠近、负样本互相远离来达到目的。最近的研究已经证明,对比学习和谱聚类之间存在等价性。因此,作者提出了一个新损失函数,可以同时发挥谱聚类和对比学习两方面的作用,同时满足了上述两种需求。

在文章中,该方法被命名为谱对比学习方法。这种方法能够在无标签的情况下实现分类判别,同时构建一个理想的实体对齐嵌入空间。新损失函数如图所示,它结合了谱聚类和对比学习的优点,实现了正样本和负样本在特征空间上的合理分布。

55c4ce03856060985a26c56c627c597f.png

KEESA (KG Entity Encoder with Selective Aggregation)

上述内容得以实现的基础是本文中提出的一种神经网络架构——图学习编码器KEESA。KEESA主要由两部分组成,其中a模块用于建模图谱内的表征,b模块用于建模图谱间的学习表征。

在图谱内表征的建模部分,作者引入了一个动态调节的Dangling Indicator指示器,它代表当前实体作为dangling节点的概率。通过该模块,可以在邻域聚合中选择性地筛选掉一些dangling实体的特征,从而避免这些节点的特征对其邻居的影响,保证可匹配节点的特征不受污染,确保匹配精度。这是Dangling指示器的重要作用。

此外,作者设计了一个关系正交投影注意力机制,它能够针对不同关系的实体将其投射到不同的向量空间局部域中,从而实现更好的实体一对一对齐。a模块最终将网络的每一层表征拼接起来,得到最终的图谱内表征。

接着,b模块对图谱内表征和跨图谱表征进行学习。作者采用了一种在之前工作中提出的代理匹配向量法进行跨图谱表征计算(Dual-AMN方法中提出)。

最终的节点表征是通过对图谱内和跨图谱间的表征进行加权聚合,同时将之前提到的自适应Dangling Indicator作为额外的表征拼接起来。基于这些表征,计算损失函数并反向更新编码器,从而完成表征的更新和优化。

8006f5a8b8366a5c6aa4abd30b9d19de.png

The Framework contains all above modules

本文最终的架构结合了上述提到的架构和对应损失函数,下图展示了本文所提框架的所有流程。

4a67c0d1f946eb7ed4eb0f7c182ebd3f.png

Experiments

本文首先在类先验比例估计方面进行了详细的实验,同时将所提方法与现有的实体对齐方法进行了比较。比较分为两类:第一类是与没有针对dangling问题进行额外设计的传统方法进行比较;第二类是与针对dangling问题设计的基线方法进行比较。在这两种比较中,该方法都达到了领先的性能。

首先,通过类先验的估计实验,展示了所提方法的准确性和收敛性。实验证明,本方法在不同数据集和预对齐比例下都表现出色,准确估计出类先验比例。如图1所示,不同预对齐比例下的类先验估计结果在迭代中逐渐收敛到真实先验比例。

6e600d5c0b785f0f352bf7bab1c677dd.png

其次,本文进行了基于dangling问题的比较。其中,一个是针对没有设计dangling检测的传统方法的比较,另一个是针对设计了dangling检测的方法进行的比较。在表2中,本方法在多个指标上均超过了基线方法,展示了其在处理dangling实体问题上的优势。

本文还通过消融实验验证了各模块的有效性。如图所示,作者分离并测试了不同模块,对比整体方法,验证了每个模块对最终性能的贡献。消融实验结果表明,每个模块在提高方法性能方面都发挥了关键作用。

在方法收敛性方面,文章进行了详细实验。如图5所示,本文方法在不同的数据集上均表现了良好的收敛性,理论证明以及实验结果均支持算法的稳定性和有效性。

最后,文章对方法的效率进行了验证,包括推理时间、训练时间和计算资源消耗。从表中可以看出,本文方法在CPU和GPU内存消耗方面表现较为经济,同时在推理和训练时间上也比其他方法更为高效。

b23a47519e56265b8a37e1a658131c2c.png

本期文章由陈研整理

往期精彩文章推荐

cf27ff5fec23fac1d3592009b0fc12e9.png

EMNLP'24 最佳论文解读 | 大语言模型的预训练数据检测:基于散度的校准方法

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 83b038d2c5390937bcf9ed7d7cb7656f.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

0b8cd9ea3cbd34dda8c9c97734016ad6.gif

点击 阅读原文 观看作者讲解回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/944925.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Midjourney技术浅析(五):图像细节处理

Midjourney 作核心目标之一是生成高质量、高分辨率且细节丰富的图像。为了实现这一目标,Midjourney 采用了超分辨率(Super-Resolution)和细节增强(Detail Enhancement)技术。本文将深入探讨 Midjourney 的超分辨率与细…

留学生交流互动系统|Java|SSM|VUE| 前后端分离

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、VUE、jquery,html 5⃣️数据库可…

C++第五六单元测试

1【单选题】在公有派生类的成员函数不能直接访问基类中继承来的某个成员,则该成员一定是基类中的( C )。(2.0分) A、公有成员B、保护成员C、私有成员D、保护成员或私有成员 注意从类外访问与从派生类中访问 2【单…

vscode实用插件(持续更新)

目录 Git History Diff Git Graph Error Lens Git History Diff 用于将当前分支的某个文件夹与远程分支的相同文件夹做对比,方便代码评审!解决了为了一个问题而多次commit,导致代码不好评审,即不晓得和远程分支相比&#xff0…

MySQL第二弹----CRUD

笔上得来终觉浅,绝知此事要躬行 🔥 个人主页:星云爱编程 🔥 所属专栏:MySQL 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 ​ 一、修改表 使用ALTER …

Java中以某字符串开头且忽略大小写字母如何实现【正则表达式(Regex)】

第一种思路是先将它们都转换为小写或大写,再使用String类的startsWith()方法实现: 例如,如下的二个示例: "Session".toLowerCase().startsWith("sEsSi".toLowerCase()); //例子之一//例子之二String str "Hello Wo…

WPF 绘制过顶点的圆滑曲线 (样条,贝塞尔)

在一个WPF项目中要用到样条曲线,必须过顶点,圆滑后还不能太走样,捣鼓一番,发现里面颇有玄机,于是把我多方抄来改造的方法发出来,方便新手: 如上图,看代码吧: ----------…

SpringCloudAlibaba实战入门之路由网关Gateway断言(十二)

上一节课中我们初步讲解了网关的基本概念、基本功能,并且带大家实战体验了一下网关的初步效果,这节课我们继续学习关于网关的一些更高级有用功能,比如本篇文章的断言。 一、网关主要组成部分 上图中是核心的流程图,最主要的就是Route、Predicates 和 Filters 作用于特定路…

【Linux进程】进程信号(信号的保存与处理)

目录 前言 1. 信号的默认行为 2. 信号的保存 信号集操作函数 sigprocmask sigpending 3. 信号的处理 信号的处理过程 思考 4. sigaction 5. SIGCHLD信号 6. 可重入函数 7. volatile 总结 前言 上文介绍了信号,以及信号的产生,本文继续来聊一…

论文阅读 - 《Large Language Models Are Zero-Shot Time Series Forecasters》

Abstract 通过将时间序列编码为数字组成的字符串,我们可以将时间序列预测当做文本中下一个 token预测的框架。通过开发这种方法,我们发现像GPT-3和LLaMA-2这样的大语言模型在下游任务上可以有零样本时间序列外推能力上持平或者超过专门设计的时间序列训…

Llama系列关键知识总结

系列文章目录 第一章:LoRA微调系列笔记 第二章:Llama系列关键知识总结 文章目录 系列文章目录Llama: Open and Efficient Foundation Language Models关键要点LLaMa模型架构:Llama2分组查询注意力 (GQA) Llama3关键信息 引用: Ll…

项目实践-贪吃蛇小游戏

目录 声明 1、前言 2、实现目标 3、技术要点 4、Win32API介绍 4.1、Win32API 4.2、控制台程序 4.3、控制台屏幕上的坐标COORD 4.4、GetStdHandle 4.5、GetConsoleCursorInfo 4.6、SetConsoleCursorInfo 4.7、SetConsoleCursorPosition 4.8、GetAsyncKeyState 5、…

Java编程题_面向对象和常用API01_B级

Java编程题_面向对象和常用API01_B级 第1题 面向对象、异常、集合、IO 题干: 请编写程序,完成键盘录入学生信息,并计算总分将学生信息与总分一同写入文本文件 需求:键盘录入3个学生信息(姓名,语文成绩,数学成绩) 求出每个学生的总分 ,并…

Jmeter自学【8】- 使用JMeter模拟设备通过MQTT发送数据

今天使用jmeter推送数据到MQTT,给大家分享一下操作流程。 一、安装JMeter 参考文档:Jmeter自学【1】- Jmeter安装、配置 二、安装MQTT插件 1、下载插件 我的Jmeter版本是5.6.3,用到的插件是:mqtt-xmeter-2.0.2-jar-with-depe…

Uniapp跨域请求

1.什么是跨域 是指当一个请求的URL的协议、域名或端口与当前页面的URL不同时,该请求被视为跨域请求。跨域是一种安全策略,用于限制一个域的网页如何与另一个域的资源进行交互。就比如我们进行前端向后端进行发送请求的时候,如果是开发前后端…

基于Resnet、LSTM、Shufflenet及CNN网络的Daily_and_Sports_Activities数据集仿真

在深度学习领域,不同的网络结构设计用于解决特定的问题。本文将详细分析四种主流网络结构:卷积神经网络(CNN)、残差网络(ResNet)、长短期记忆网络(LSTM)和洗牌网络(Shuff…

算法进阶:贪心算法

贪心算法是一种简单而直观的算法思想,它在每一步选择中都采取在当前状态下最优的选择,以期望最终得到全局最优解。贪心算法通常适用于一些具有最优子结构的问题,即问题的最优解可以通过一系列局部最优解的选择得到。 贪心算法的基本思路是&a…

139.《python中的正则详解》

文章目录 什么是正则正则表达式语法正则demo1.匹配模式2.finditer3.正则分组4.非捕获组5.分组的引用6. 正则替换7.正则切割7.正则「或」7.枚举取反 面试题 前言: 拉开差距的不是上班的8小时,而是下班后的16小时,同志们,加油,卷起!!! 什么是正则 1.正则表达式是一种高级文本处理…

从安全角度看 SEH 和 VEH

从安全角度看 SEH 和 VEH 异常处理程序是处理程序中不可预见的错误的基本方法之一 https://learn.microsoft.com/en-us/dotnet/csharp/fundamentals/exceptions/ SEH——结构化异常处理程序 就其工作方式而言,异常处理程序与其他处理程序相比相当基础&#xff0…

ESP-IDF学习记录(3)ESP-IDF组件管理

既然官方把这个组件管理按钮放置的这么明显,就一定有他的用心良苦,今天学习一下这个组件管理。 Componments manager 1.给当前项目安装组件 IDF Component Manager and ESP Component Registry Documentation — IDF Component Management documenta…