RDGCN翻译

RDGCN翻译

Relation-Aware Entity Alignment for Heterogeneous Knowledge Graphs

面向异质知识图谱的关系感知实体对齐

阅读时间:2024.03.24
领域:知识图谱,知识对齐
作者:Yuting Wu等人 PKU
出处:IJCAI

Abstract

实体对齐是从不同的知识图(KGs)中链接具有相同真实世界实体的任务,最近被基于嵌入的方法所主导。这种方法通过学习KG表示来工作,以便可以通过测量实体嵌入之间的相似性来执行实体对齐。虽然有希望,但该领域的现有工作往往不能很好地捕获多关系KGs中常见的复杂关系信息,留下了很大的改进空间。本文提出了一种新的关系感知双图卷积网络(RDGCN),通过知识图与其对偶关系副本之间的密切交互来融合关系信息,并进一步捕获邻域结构以学习更好的实体表示。在三个真实的跨语言数据集上的实验表明,我们的方法通过学习更好的KG表示,比最先进的对齐方法提供了更好和更健壮的结果。

1 Introduction

知识图谱(KGs)是各种自然语言处理应用的构建块,如问答[Zhang等,2018]、文本分类[Wang等,2016]、推荐系统[Zhang等,2016]等。KGs中的知识通常被组织成 ⟨ h e a d e n t i t y , r e l a t i o n , t a i l e n t i t y ⟩ \langle head entity, relation, tail entity \rangle headentity,relation,tailentity的三元组。在为实体和关系构建分布式表示的知识表示学习方面已经有了相当多的工作。典型的作品是所谓的跨家族方法,如TransE[Bordes等人,2013],TransH[Wang等人,2014]和PTransE[Lin等人,2015],它们将关系解释为对其头部实体和尾部实体的嵌入进行翻译操作。

然而,KG通常是不完整的,不同的KG往往是相辅相成的。这使得设计一种可以在不同KG之间整合不同知识的技术成为一个令人信服的案例。实现这一点的有效方法是实体对齐。已有致力于嵌入不同KG以实现实体对齐的现有努力。其中大多数,如JE[Hao等人,2016]、MTransE[Chen等人,2017]、JAPE[Sun等人,2017]、IPTransE[朱等人,2017]和BooTea[Sun等人,2018],都依赖跨家族模型根据一组先前的比对来学习实体表示。最近的工作[Wang等人,2018]采取了一种不同的方法,利用图卷积网络(GCNs)[Kipf和Well,2017]联合表示多个KG实体,为实体对齐显示了一个新的、有前途的方向。

与传统的基于特征的方法[Sarasua等人,2012;Mahdisoltani等人,2013]相比,基于嵌入的方法具有需要更少的人参与特征构建的优势,并且可以扩展到大KG。然而,仍然有几个障碍阻碍了更广泛地采用基于嵌入的方法。首先,如上所述,现有的大多数方法都使用跨家族模型作为嵌入KG的主干,这些KG受假设 h e a d + r e l a t i o n ≈ t a i l head + relation \approx tail head+relationtail的约束。这种强假设使得该模型不能有效地捕捉多关系图中更复杂的关系信息。

作为激励示例,图1显示了 D B P 15 K Z H − E N DBP15K_{ZH−EN} DBP15KZHEN[Sun等人,2017]数据集的真实示例。先前的研究[Li等人,2018b]表明,跨家族方法不能捕捉图中描述的三角形结构。例如,对于图1(a)的结构,TransE需要三个公式 v 1 + r a ≈ v 2 v_1+r_a\approx v_2 v1+rav2 v 2 + r a ≈ v 3 v_2+r_a\approx v_3 v2+rav3 v 1 + r a ≈ v 3 v_1+r_a\approx v_3 v1+rav3同时成立。然而,为了满足前两个方程,我们将得到 v 1 + 2 r a ≈ v 3 v_1+2r_a\approx v_3 v1+2rav3,这与第三个方程 v 1 + r a ≈ v 3 v_1+r_a\approx v_3 v1+rav3相矛盾。因此,如果使用跨家族学习KG表示,则对齐性能将不可避免地受到影响,因为更复杂的结构,如三角形结构,经常出现在多关系图中。

Image

基于GCN的模型[Wang等人,2018]代表了基于嵌入的实体对齐的飞跃。然而,这种方法也无法正确地对关系信息进行建模。由于普通GCN是在无向和无标号图上操作的,因此基于GCN的模型会忽略KG的有用关系信息。尽管关系图卷积网络(R-GCN)[Schlichtkrull等人,2018]可以用于对多关系图进行建模,R-GCN仅为每个关系使用一个权重矩阵,并且对于通常包含数千个关系的真实世界KG需要过多的参数集。这个缺点使得学习有效的R-GCN模型变得困难。Dual-Primal Graph CNN(DPGCNN)[Monti等人,2018]为解决这个问题提供了一个新的解决方案。DPGCNN在图及其对偶图上交替进行卷积操作,其顶点对应于原始图的边缘,并迭代地应用图注意力机制来使用其对偶图增强原始边缘表示。与GCN和R-GCN相比,DPGCNN可以更好地探索复杂的边缘结构,并产生更好的KG表示。

受DPGCNN的启发,在本文中,我们提出了一种新的具有感知能力的双图卷积网络(RDGCN),以解决正确捕获和集成关系信息的挑战。虽然DPGCNN是一个很好的起点,但将其应用于学习KG表示并不简单。这样做需要我们找到一种方法来更好地近似关系表示,并描述不同KG关系之间的关系。我们通过扩展DPGCNN来开发一个加权模型来解决这个问题,并探索用实体名称初始化的头/尾表示作为代理来捕获关系信息,而无需过多的模型参数,这些参数通常很难训练。

与GCN和R-GCN不同的是,我们的RDGCN方法通过与原始实体图和对偶关系图之间的多轮交互,有效地将更复杂的关系信息融入实体表示。为了进一步融合邻域结构信息,我们还扩展了带有高速公路门控的GCN。

我们在三个真实世界的数据集上评估我们的RDGCN。实验结果表明,RDGCN可以有效地解决上述挑战,并显着优于最近提出的6种方法在所有数据集上。这项工作的主要贡献是一种新的DPGCNN为基础的模型学习强大的KG表示。我们的工作是第一个扩展DPGCNN进行实体对齐的工作,这比最先进的替代方案产生了更好的性能。

2 Related Work

2.1 Graph Convolutional Networks

最近,人们对扩展神经网络来处理图形越来越感兴趣。已经有许多令人鼓舞的工作,这些工作通常被归类为光谱方法[Bruna等人,2014; Defferrard等人,2016; Kipf和Welling,2017]和空间方法[Atwood和Towsley,2016;汉密尔顿等人,2017年; Velickovic等人,2018年]。GCN [Kipf和Welling,2017]最近已经成为许多NLP任务的强大的基于深度学习的方法,如半监督节点分类[Kipf和Welling,2017],语义角色标记[Marcheggiani和Titov,2017]和神经机器翻译[Bastings等人,2017年]。此外,作为GCN的扩展,R-GCN [Schlichtkrull等人,2018]最近被提出来对关系数据进行建模,并已成功地用于链接预测和实体分类。最近,图形注意力网络(GATs)[Velickovic et al.,2018年]已经提出并实现了最先进的性能。DPGCNN [Monti等人,2018]在第1节中讨论了GAT模型的推广,并在顶点分类,链接预测和图引导矩阵完成任务方面取得了更好的性能。

受DPGCNN确定邻域感知边缘特征的能力的启发,我们提出了第一个用于实体对齐的关系感知多图学习框架。

2.2 Entity Alignment

以前的实体对齐方法通常需要大量的专家参与[Sarasua等人,2012]来设计模型特征[Mahdisoltani等人,2013]或由其他用户贡献的外部来源[Wang等人,2017年]。最近,基于嵌入的方法[Hao等人,2016年; Chen等人,2017年; Sun等人,2017年; Zhu等人,2017年; Sun等人,2018; Wang等人,2018]已提出解决这一问题。此外,NTAM [Li等人,2018 a]是一种非平移方法,其利用概率模型进行对准任务。KDCoE [Chen等人,2018]是一种半监督学习方法,用于共同训练多语言KG嵌入和实体描述的嵌入。

作为一个偏离以前的工作,我们的方法直接建模的关系信息,通过构建对偶关系图。正如我们将在后面的文章中展示的那样,这样做可以改进学习到的实体嵌入,从而导致更准确的对齐。

3 Problem Formulation

形式上,KG表示为 G = ( E , R , T ) G =(E, R, T) G=(E,R,T),其中 E , R , T E,R,T E,R,T分别是实体,关系和三元组的集合。设 G 1 = ( E 1 , R 1 , T 1 ) G_1 =(E_1,R_1,T_1) G1=(E1,R1,T1) G 2 = ( E 2 , R 2 , T 2 ) G_2 =(E_2,R_2,T_2) G2=(E2,R2,T2)是待对准的两个异质KG。也就是说, G 1 G_1 G1中的实体可能在 G 2 G_2 G2中有不同语言或不同表面名称的对应物。作为起点,我们可以收集 G 1 G_1 G1 G 2 G_2 G2之间的少量等价实体对作为比对种子 L = { ( e i 1 , e i 2 ) ∣ e i 1 ∈ E 1 , e i 2 ∈ E 2 } \mathbb L = \{(e_{i1},e_{i2})|e_{i1}\in E_1,e_{i2}\in E_2\} L={(ei1,ei2)ei1E1,ei2E2}。我们将实体对齐任务定义为使用对齐种子自动查找更多等效实体。这些已知的对齐实体对可以用作训练数据。

4 Our Approach: RDGCN

为了更好地将关系信息合并到实体表示,给定输入KG(即原始图),首先构造其对偶关系图,其顶点表示原始图中的关系,然后利用图注意机制来鼓励对偶关系图与原始图之间的交互.然后将原始图中的结果顶点表示馈送到具有高速公路门控的GCN [Kipf和Welling,2017]层,以捕获相邻的结构信息。最终的实体表示将用于确定两个实体是否应对齐。图2提供了我们模型的总体架构。

Image

4.1 Constructing the Dual Relation Graph

不失一般性,我们将 G 1 G_1 G1 G 2 G_2 G2放在一起作为原始图 G e = ( V e , E e ) \mathcal G^e =(\mathcal V^e, \mathcal E^e) Ge=(Ve,Ee),其中顶点集 V e = E 1 ∪ E 2 \mathcal V^e = E_1 \cup E_2 Ve=E1E2 G 1 G_1 G1 G 2 G_2 G2中所有顶点的并集,边集 E e = T 1 ∪ T 2 \mathcal E^e = T_1 \cup T_2 Ee=T1T2 G 1 G_1 G1 G 2 G_2 G2中所有边/三元组的并集。注意,我们没有连接 G e \mathcal G^e Ge中的对准种子,因此 G 1 G_1 G1 G 2 G_2 G2 G e \mathcal G^e Ge中是断开的。

给定原始图 G e \mathcal G^e Ge,其对偶关系图 G r = ( V r , E r ) \mathcal G^r =(\mathcal V^r,\mathcal E^r) Gr=(Vr,Er构造如下:1)对于 G e \mathcal G^e Ge中的每种类型的关系 r r r V r \mathcal V^r Vr中将存在顶点 v r v^r vr,因此 V r = R 1 ∪ R 2 \mathcal V^r = R_1 \cup R_2 Vr=R1R2;2)如果两个关系 r i r_i ri r j r_j rj G e \mathcal G^e Ge中共享相同的头或尾实体,则我们在 G r \mathcal G^r Gr中创建连接 v i r v_i^r vir v j r v^r_j vjr的边 u i j r u^r_{ij} uijr

与最初设计的对偶图不同,这里我们期望对偶关系图能够更好地表达 G e \mathcal G^e Ge中不同 v r v_r vr之间的关系。因此,我们根据两个关系 v i r v^r_i vir v j r v^r_j vjr G e \mathcal G^e Ge中共享类似头部或尾部的可能性,用权重 w i j r w^r_{ij} wijr G r \mathcal G^r Gr中的每条边 u i j r u^r_{ij} uijr进行加权,计算如下:

w i j r = H ( r i , r j ) + T ( r i , r j ) w_{ij}^r=H(r_i,r_j)+T(r_i,r_j) wijr=H(ri,rj)+T(ri,rj)

H ( r i , r j ) = H i ∩ H j H i ∪ H j , T ( r i , r j ) = T i ∩ T j T i ∪ T j H(r_i,r_j)=\frac{H_i\cap H_j}{H_i\cup H_j},T(r_i,r_j)=\frac{T_i\cap T_j}{T_i\cup T_j} H(ri,rj)=HiHjHiHj,T(ri,rj)=TiTjTiTj

其中 H i H_i Hi T i T_i Ti分别是 G e \mathcal G^e Ge中关系 r i r_i ri的头和尾实体的集合。这里,构造对偶图的开销与原始图中的关系类型的数量成比例。在我们的案例中,为每个评估数据集构建图表只需要不到两分钟的时间。

4.2 Interactions between Dual and Primal Graphs

我们引入对偶关系图的目的是更好地将关系信息融入到原始图表示中。为此,我们建议应用图注意机制(GAT)迭代地获得对偶关系图和原始图的顶点表示,其中注意机制有助于提示两个图之间的交互。每一个双原始交互包含两个层,双注意层和原始注意层。请注意,我们可以在两个图上堆叠多个交互以进行相互改进。

Dual Attention Layer(双重注意层)

X r ∈ R m × 2 d \mathbf{X}^r \in \mathbb R^{m\times 2d} XrRm×2d表示输入对偶顶点表示矩阵,其中每行对应于对偶关系图 G r \mathcal G^r Gr中的一个顶点。不同于普通的GAT[Veli Rickovic等人,2018],我们使用原始顶点特征来计算双重注意力分数 X ^ e \hat{\mathbf{X}}^e X^e(由等式8)由来自先前交互模块的原始注意力层产生:

x ~ i r = σ r ( ∑ j ∈ N i r α i j r x j r ) , \tilde{\mathbf{x}}_{i}^{r}=\sigma^{r}(\sum_{j\in N_{i}^{r}}\alpha_{ij}^{r}\mathbf{x}_{j}^{r}), x~ir=σr(jNirαijrxjr),

α i j r = e x p ( η ( w i j r a r [ c i ∥ c j ] ) ) ∑ k ∈ N i r e x p ( η ( w i k r a r [ c i ∥ c k ] ) ) , \alpha_{ij}^{r}=\frac{exp(\eta(w_{ij}^{r}a^{r}[\mathbf{c}_{i}\|\mathbf{c}_{j}]))}{\sum_{k\in N_{i}^{r}}exp(\eta(w_{ik}^{r}a^{r}[\mathbf{c}_{i}\|\mathbf{c}_{k}]))}, αijr=kNirexp(η(wikrar[cick]))exp(η(wijrar[cicj])),

其中, x ~ i r \tilde{\mathbf{x}}_i^r x~ir表示在对偶顶点 v i r v^r_i vir处的 d ′ d' d维输出表示(对应于关系 r i ∈ G e r_i \in \mathcal G^e riGe); x ~ j r \tilde{\mathbf{x}}_j^r x~jr表示顶点 v j r v^r_j vjr的对偶表示; N i r N^r_i Nir v i r v^r_i vir的邻居索引的集合; α i j r \alpha^r_{ij} αijr是对偶注意力分数; a r a^r ar是将 2 d ′ 2d' 2d维输入映射到标量中的全连接层; σ r \sigma_r σr是激活函数ReLU; η \eta η是修正线性单元(Leaky ReLU); c i \mathbf c_i ci是从先前的原始注意力层获得的 G e \mathcal G^e Ge中的关系 r i r_i ri的关系表示。

请注意,在我们基于图嵌入的框架中,由于训练数据有限,我们无法直接提供关系表示。因此,我们通过连接 G e \mathcal G^e Ge中的平均头部和尾部实体表示来近似 r i r_i ri的关系表示:

c i = [ ∑ k ∈ H i x ^ k e ∣ H i ∣ ∥ ∑ l ∈ T i x ^ l e ∣ T i ∣ ] , \mathbf{c}_{i}=[\frac{\sum_{k\in H_{i}}\hat{\mathbf{x}}_{k}^{e}}{|H_{i}|}\|\frac{\sum_{l\in T_{i}}\hat{\mathbf{x}}_{l}^{e}}{|T_{i}|}], ci=[HikHix^keTilTix^le],

其中, x ^ k e \hat{\mathbf{x}}_{k}^{e} x^ke x ^ l e \hat{\mathbf{x}}_{l}^{e} x^le是来自先前的主要关注层的关系 r i r_i ri的第 k k k个头实体和第 l l l个尾实体的输出表示。

一个特殊的情况是,当当前的双重注意力层是我们模型的第一层时,我们在等式3中没有 x j r \mathbf x^r_j xjr。因此,由先前的双注意力层产生的初始双顶点表示使用由等式5产生的初始双顶点表示。初始原始顶点表示为 X e _ i n i t \mathbf{X}^{e\_init} Xe_init。类似地, c i \mathbf c_i ci也将通过初始的 X e _ i n i t \mathbf{X}^{e\_init} Xe_init来获得。

Primal Attention Layer(原始注意力层)

在这一层中,当在原始图上应用GAT时,我们可以使用 G r \mathcal G^r Gr中的对偶顶点表示来计算原始注意力分数,这些对偶顶点表示实际上对应于原始图 G e \mathcal G^e Ge中的关系。通过这种方式,我们能够使用由双注意层产生的关系表示来影响原始顶点嵌入。

具体地,我们使用 X e ∈ R n × d \mathbf{X}^e \in \mathbb R^{n\times d} XeRn×d来表示输入原始顶点表示矩阵。对于原始图 G e \mathcal G^e Ge中的实体 e q e_q eq,其表示 x ^ q e \hat{\mathbf{x}}_{q}^{e} x^qe可以通过下式计算:

x ~ q e = σ e ( ∑ t ∈ N q e α q t e x t e ) , \tilde{\mathbf{x}}_{q}^{e}=\sigma^{e}(\sum_{t\in N_{q}^{e}}\alpha_{qt}^{e}\mathbf{x}_{t}^{e}), x~qe=σe(tNqeαqtexte),

α q t e = e x p ( η ( a e ( x ~ q t r ) ) ) ∑ k ∈ N q e e x p ( η ( a e ( x ~ q k r ) ) ) , \alpha_{qt}^{e}=\frac{exp(\eta(a^{e}(\tilde{\mathbf{x}}_{qt}^{r})))}{\sum_{k\in N_{q}^{e}}exp(\eta(a^{e}(\tilde{\mathbf{x}}_{qk}^{r})))}, αqte=kNqeexp(η(ae(x~qkr)))exp(η(ae(x~qtr))),

其中, x ~ q t r \tilde{\mathbf{x}}_{qt}^{r} x~qtr表示从 G r \mathcal G^r Gr获得的 r q t r_{qt} rqt(实体 e q e_q eq e t e_t et之间的关系)的对偶表示; α q t e \alpha^e_{qt} αqte是原始注意力分数; N q e N^e_q Nqe G e \mathcal G^e Ge中实体 e q e_q eq的邻居索引的集合; a e a^e ae是将 d ′ d' d维输入映射到标量的全连接层, σ e \sigma^e σe是原始层激活函数。

在我们的模型中,原始顶点的初始表示矩阵 X e _ i n i t \mathbf{X}^{e\_init} Xe_init,可以使用实体名称初始化,这为实体对齐提供了重要的证据。因此,我们通过将初始表示与原始注意力层的输出混合来显式地保留证据:

x ^ q e = β s ∗ x ~ q e + x q e _ i n i t , \hat{\mathbf{x}}_{q}^{e}=\beta_{s}*\tilde{\mathbf{x}}_{q}^{e}+\mathbf{x}_{q}^{e\_init}, x^qe=βsx~qe+xqe_init,

其中, x ~ q e \tilde{\mathbf{x}}_{q}^{e} x~qe表示 G e \mathcal G^e Ge中实体 e q e_q eq的交互模块的最终输出表示; β s \beta_s βs是第 s s s个主要注意力层的加权参数。

4.3 Incorporating Structural Information

在对偶关系图和原始图之间的多轮交互之后,我们能够从原始图中收集关系感知实体表示。接下来,我们将带有高速公路门控的双层GCN[Kipf和Welling,2017]应用于生成的原始图,以进一步纳入来自其相邻结构的证据。

在具有实体表示 X ( l ) X^{(l)} X(l)作为输入的每个GCN层 l l l中,输出表示 X ( l + 1 ) X^{(l+1)} X(l+1)可以被计算为:

X ( l + 1 ) = ξ ( D ~ − 1 2 A ~ D ~ − 1 2 X ( l ) W ( l ) ) , X^{(l+1)}=\xi(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}X^{(l)}W^{(l)}), X(l+1)=ξ(D~21A~D~21X(l)W(l)),

其中, A ~ = A + I \tilde A = A+I A~=A+I是添加了自连接的原始图 G e \mathcal G^e Ge的邻接矩阵, I I I是单位矩阵; D ~ j j = ∑ k A ~ j k \tilde D_{jj} = \sum_k\tilde A_{jk} D~jj=kA~jk W ( l ) ∈ R d ( l ) × d ( l + 1 ) W^{(l)}\in \mathbb R^{d(l)}\times d^{(l+1)} W(l)Rd(l)×d(l+1)是层特定的可训练权重矩阵; ξ \xi ξ是激活函数ReLU。在构造 A A A时,我们将 G e \mathcal G^e Ge视为无向图,以允许信息在两个方向上流动。

此外,为了控制跨层累积的噪声并保留从交互中学习到的有用的关系信息,我们在GCN层之间引入逐层门,这在精神上类似于高速公路网络[Srivastava等人,2015年]:

T ( X ( l ) ) = σ ( X ( l ) W T ( l ) + b T ( l ) ) , T(X^{(l)})=\sigma(X^{(l)}W_{T}^{(l)}+b_{T}^{(l)}), T(X(l))=σ(X(l)WT(l)+bT(l)),

X ( l + 1 ) = T ( X ( l ) ) ⋅ X ( l + 1 ) + ( 1 − T ( X ( l ) ) ) ⋅ X ( l ) , X^{(l+1)}=T(X^{(l)})\cdot X^{(l+1)}+(1-T(X^{(l)}))\cdot X^{(l)}, X(l+1)=T(X(l))X(l+1)+(1T(X(l)))X(l),

其中 X ( l ) X^{(l)} X(l)是层 l + 1 l+1 l+1的输入; σ \sigma σ是sigmoid函数; ⋅ \cdot 是逐元素乘法; X T ( l ) X^{(l)}_T XT(l) b T ( l ) b^{(l)}_T bT(l)是变换门 T ( X ( l ) ) T(X^{(l)}) T(X(l))的权重矩阵和偏置向量。

**对齐。**通过从GCN层的输出中收集的最终实体表示X ',可以通过简单地测量两个实体之间的距离来执行实体对齐。具体地,两个实体之间的距离d(e1,e2),e1与G1之间的距离和e2与G2之间的距离可以计算为:

d ( e 1 , e 2 ) = ∥ x ˉ e 1 − x ˉ e 2 ∥ L 1 . d(e_1,e_2)=\|\bar{x}_{e_1}-\bar{x}_{e_2}\|_{L_1}. d(e1,e2)=xˉe1xˉe2L1.

4.4 Training

对于训练,我们期望对齐实体对之间的距离尽可能近,而否定实体对之间的距离尽可能远。因此,我们使用基于边缘的评分函数作为训练目标:

L = ∑ ( p , q ) ∈ L ∑ ( p ′ , q ′ ) ∈ L ′ max ⁡ { 0 , d ( p , q ) − d ( p ′ , q ′ ) + γ } , L=\sum_{(p,q)\in\mathbb{L}}\sum_{(p',q')\in\mathbb{L}'}\max\{0,d(p,q)-d(p',q')+\gamma\}, L=(p,q)L(p,q)Lmax{0,d(p,q)d(p,q)+γ},

其中 γ > 0 \gamma > 0 γ>0是一个边缘超参数; L \mathbb L L是我们的比对种子, L ′ \mathbb L' L是负实例的集合。

我们不是随机抽样,而是寻找具有挑战性的负样本来训练我们的模型。给定一个正对齐对 ( p , q ) (p, q) (p,q),我们根据等式12选择 p ( o r   q ) p(or\ q) p(or q) K \mathcal K K-最近实体。12在嵌入空间中替换 q ( o r   p ) q(or\ p) q(or p)作为负实例。

5 Experimental Setup

**数据集。**我们在来自 D B P 15 K DBP15K DBP15K的三个大规模跨语言数据集上评估了我们的方法[Sun等人,2017年]。这些数据集基于DBpedia的中文、英文、日文和法文版本。每个数据集包含来自不同语言的两个KG的数据,并提供15K预对齐的实体对。表1给出了数据集的统计数据。我们使用与以前的作品相同的训练/测试分割[Sun等人,2018],30%用于训练,70%用于测试。

Image

**比较模型。**我们将我们的方法与我们在第1节中提到的6种最近的比对方法进行比较:JE [Hao等人,2016],MTransE [Chen等人,2017],日本[Sun等人,2017],IPTransE [Zhu等人,2017],BootEA [Sun等人,2018]和GCN [Wang等人,2018],其中BootEA在DBP15K上实现了最佳性能。

**模型变体。**为了评估我们模型的不同组件,我们提供了用于消融研究的RDGCN的四种实现变体,包括(1)GCN-s:具有实体名称初始化但没有高速公路门的双层GCN;(2)R-GCN-s:双层R-GCN [Schlichtkrull等人,(3)HGCN-s:具有实体名称初始化和高速公路门的两层GCN;(4)RD:两个双原始交互模块的实现,但没有后续的GCN层。

**实施细节。**我们使用的组态是: β 1 = 0.1 , β 2 = 0.3 , γ = 1.0 \beta_1 = 0.1, \beta_2 = 0.3, \gamma = 1.0 β1=0.1,β2=0.3,γ=1.0。在双重注意力层和原始注意力层中,隐藏表征的维度分别为 d = 300 、 d ′ = 600 和 d ~ = 300 d = 300、d' = 600和\tilde d = 300 d=300d=600d~=300。GCN层中隐藏表示的所有维度都是300。学习率设置为0.001,每10个epoch采样 K = 125 \mathcal K = 125 K=125个负对。为了更好地利用不同KG中的实体名称进行初始化,我们使用Google翻译将中文,日文和法文实体名称翻译成英文,然后使用预训练的英文单词向量 g l o v e . 840 B . 300 d glove.840B.300d glove.840B.300d来构建原始图的输入实体表示。请注意,Google翻译无法保证在没有任何上下文的情况下准确翻译命名实体。我们手动检查了100个日文/中文实体名称的英文翻译,发现大约20%的英文翻译不正确,这对我们的模型构成了进一步的挑战。

**指标。**我们使用 H i t s @ k Hits@k Hits@k,一种广泛使用的度量[Sun等人,2018; Wang等人,2018年,在我们的实验中。 H i t s @ k Hits@k Hits@k得分(越高越好)通过测量排在前 k k k个列表中的正确对齐的实体的比例来计算。

6 Results and Discussion

6.1 Main Results

表2显示了所有比较方法在评价数据集上的性能。通过使用自举过程来迭代地探索许多未标记的数据,BootEA在 D B P 15 K Z H − E N DBP15K_{ZH-EN} DBP15KZHEN上给出了最好的 H i t s @ 10 Hits@10 Hits@10分数,并且明显优于GCN和其他基于自举的模型。毫不奇怪,GCN优于大多数基于解释的模型,即,JE、MTransE、JAPE和IPtransE。通过在实体的邻居上执行图卷积,GCN能够捕获知识图的更多结构特征,特别是当使用更多GCN层时,而基于解释的模型中的翻译假设更多地关注头,尾和关系之间的关系。

Image

我们观察到RDGCN在所有指标和数据集上都提供了最佳性能,除了在 D B P 15 K Z H − E N DBP15K_{ZH-EN} DBP15KZHEN上的 H i t s @ 10 Hits@10 Hits@10,RDGCN的性能仅次于BootEA,得分略低(84.55 vs 84.75)。虽然BootEA通过展示利用许多未标记数据可以实现的目标来提供强大的基线,但我们的RDGCN具有需要较少的先验比对数据来学习更好的表示的优势。我们相信,一个自学习过程可以进一步提高RDGCN的性能,我们把这个留给未来的工作。稍后在第6.3节中,我们展示了RDGCN保持一致的性能,并且在训练数据集大小减少时显著优于BootEA。RDGCN的良好性能在很大程度上归功于其学习关系感知嵌入的能力。

6.2 Ablation Studies

**GCN-s与GCN。**如表2所示,GCN-s在所有数据集中显著改善了GCN,导致 D B P 15 K F R − E N DBP15K_{FR −EN} DBP15KFREN上的 H i t s @ 1 Hits@1 Hits@1 增加了17.2%。如第5节所述,三个跨语言数据集要求我们通过粗略的机器翻译来处理跨语言数据,这可能会引入大量噪音(在我们的试点研究中,准确率约为80%)。但我们对GCN的改进表明,虽然本质上有噪声,但这些粗略的翻译仍然可以提供有用的证据来捕获,因此不应该被忽视。

**GCN-s与R-GCN-s。**R-GCN是GCN的扩展,通过显式地建模KG关系,但在我们的实验中,我们观察到GCN-s在所有数据集上都比RGCN-s实现了更好的性能。如第1节所述,R-GCN通常需要更多的训练数据来学习有效的模型,因为它的参数数量很大,我们评估中可用的训练数据可能不足以完全释放R-GCN的潜力。

**HGCN-s与GCN-s。**将HGCN-s与GCN-s进行比较,我们可以看到,HGCN-s在采用分层公路门之后,大大提高了GCN-s的性能,例如,在 D B P 15 K F R − E N DBP15K_{FR −EN} DBP15KFREN上, H i t s @ 1 Hits@1 Hits@1提高了30%以上。这主要是由于它们能够防止噪声顶点驱动KG表示。

**HGCN-s与RDGCN。**当比较HGCN-s和RDGCN时,我们可以看到双原始交互模块对性能至关重要:去除双注意层和原始注意力层会导致 D B P 15 K Z H − E N DBP15K_{ZH −EN} DBP15KZHEN H i t s @ 1 Hits@1 Hits@1 H i t s @ 10 Hits@10 Hits@10分别下降1.1%和2.02%。交互模块通过引入近似关系信息来挖掘知识库的关系特征,并通过对偶关系图与原始图的多次交互,将关系和实体信息充分融合。结果表明,有效的建模和关系信息的使用是有益的实体对齐。

**RD与RDGCN。**将RD与RDGCN进行比较,当从我们的模型中删除GCN层时,性能会显著下降,例如,RD和RDGCN的 H i t s @ 1 Hits@1 Hits@1 D B P 15 K Z H − E N DBP15K_{ZH−EN} DBP15KZHEN上相差8.94%。这并不奇怪,因为双原始图交互被设计为集成KG关系信息,而GCN层可以有效地捕获KG的相邻结构信息。这两个关键组件在某种程度上是互补的,应该结合在一起学习更好的关系感知表示。

6.3 Analysis

三角形结构。图3(d)显示了RDGCN和BootEA(最先进的对齐模型)在具有三角形结构的测试实例上的性能。我们可以看到,在所有三个数据集上,我们的RDGCN对于具有三角结构的实体的对齐准确率都明显高于BootEA,这表明RDGCN可以更好地处理复杂的关系信息。

**可用的先前对齐的影响。**我们进一步比较我们的RDGCN与BootEA,通过改变预对齐实体的比例从10%到40%,步长为10%。正如预期的那样,两种模型在所有三个数据集上的结果随着先验比对信息量的增加而逐渐改善。根据图3(a-c),我们的RDGCN始终优于BootEA,并且似乎对先前比对的比例不敏感。当仅使用10%的预对齐实体对作为训练数据时,RDGCN仍然取得了令人满意的结果。例如,RDGCN使用10%的先验比对在 D B P 15 K F R − E N DBP15K_{FR −EN} DBP15KFREN上实现了86.35%的 H i t s @ 1 Hits@1 Hits@1。当BootEA使用40%的先前比对时,该结果转化为比BootEA高17.79%的 H i t s @ 1 Hits@1 Hits@1得分。这些结果进一步证实了我们的模型的鲁棒性,特别是有限的先验比对。

Image

**案例研究。**图4显示了 D B P 15 K Z H − E N DBP15K_{ZH−EN} DBP15KZHEN中的一个示例,目标实体对 ( v Z H 和 v E N ) (v_{ZH}和v_{EN}) (vZHvEN)不应该对齐。基于竞争翻译的模型,包括BootEA,给予较低的距离分数 ( v Z H 和 v E N ) (v_{ZH}和v_{EN}) (vZHvEN),这表明这两个实体应该对齐。这是因为那些模型未能解决与三个对齐的相邻实体相关联的特定关系信息。对于这个例子, v 1 v_1 v1 v 5 v_5 v5都表示蒋经国,但是 v 1 v_1 v1具有与 v Z H v_{ZH} vZH p a r e n t s parents parents关系,而 v 2 v_2 v2具有与 v E N v_{EN} vEN c h i l d r e n children children关系。利用这样的信息,更好的比对模型应该为两个实体产生更大的距离分数,尽管它们具有相似的邻居。通过仔细考虑双原始交互过程中的关系信息,我们的RDGCN给出了更大的距离分数,从而得到正确的比对结果。

Image

7 Conclusions

本文提出了一种新的异构KG上的实体对齐感知的双图卷积网络。我们的方法旨在探索复杂的关系信息,通常存在于多关系KG。通过对原始图和对偶关系图之间的密切交互进行建模,我们的模型能够通过门控GCN层将关系信息与相邻结构信息结合起来,并学习更好的实体表示以进行对齐。与最先进的方法相比,我们的模型使用更少的训练数据,但在三个真实世界的数据集上实现了最佳的对齐性能。

机器学习小白,知识图谱方向,欢迎一起学习交流,如有错误欢迎指出!
向各位大佬请教一下文中的bootstrapping和highway gates该怎么翻译?

论文原文:

https://www.ijcai.org/proceedings/2019/0733.pdf

GitHub代码:

https://github.com/StephanieWyt/RDGCN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/484336.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯 2023 省A 颜色平衡树

树上启发式合并是一个巧妙的方法。 dsu on tree,可以称为树上启发式合并,是一种巧妙的暴力。用一个全局数组存储结果,对于每棵子树,有以下操作: 先遍历轻儿子,处理完轻儿子后将数组清零(要再…

小目标检测篇 | YOLOv8改进之增加小目标检测层(针对Neck网络为AFPN)

前言:Hello大家好,我是小哥谈。小目标检测是计算机视觉领域中的一个研究方向,旨在从图像或视频中准确地检测和定位尺寸较小的目标物体。相比于常规目标检测任务,小目标检测更具挑战性,因为小目标通常具有低分辨率、低对比度和模糊等特点,容易被背景干扰或遮挡。本篇文章就…

stm32启动文件里面的__main和主函数main()

一、__main和main()之间的关系 先来对stm32启动过程简单学习 启动文件里面的Reset_Handler: 调用过程: stm32在启动后先进入重启中断函数Reset_Handler,其中会先后调用SystemInit和__main函数, __main函数属于c库函数&…

[Java基础揉碎]final关键字

目录 介绍 在某些情况下,程序员可能有以下需求,就会使用到final final注意事项和讨论细节 1) final修饰的属性又叫常量,一般用XX_XX_XX来命名 2) final修饰的属性在定义时,必须赋初值,并且以后不能再修改&#…

chatgpt和 github copilot chat哪个更强

chatgpt大家应该都不陌生 ChatGPT 是由 OpenAI 开发的一种基于 GPT(生成式预训练模型)的聊天机器人。它可以生成语言上下文相关的响应,从而进行自然语言对话。ChatGPT 利用大规模的语言数据进行预训练,并通过微调或在线学习来适应…

【】(综合练习)博客系统

在之前的学些中,我们掌握了Spring框架和MyBatis的基本使用,接下来 我们就要结合之前我们所学的知识,做出一个项目出来 1.前期准备 当我们接触到一个项目时,我们需要对其作出准备,那么正规的准备是怎么样的呢 1.了解需求…

vue3项目初始化

初始化项目newsapp VSCode 打开终端,newsapp项目目录,可自定义 vue create newsapp 有提示“因为在此系统上禁止运行脚本”的话,请执行 set-ExecutionPolicy RemoteSigned 执行后再重复执行vue create newsapp 注意选择Vue 3版本 测试项…

【案例分析】入职第一天,如何让同事对我刮目相看

背景 在办理入职的第一天,遇到测试同事无奈且慌张的报出一个问题:拷机过程中,stTsp进程重启了。可能因为大家都比较忙,也可能因为面试过程中,我说自己比较喜欢解决问题。领导就让我帮忙一起看看。 呃,此时…

配置java8和java11以及输入version命令没反应问题

电脑重置重新安装java8和java11记录一下供自己观看 安装过程掠过我自己能看懂就行 需要记录一下 因为JDK11以后Oracle把JRE集成到了JDK中,在安装JDK11及更高版本的JDK时,默认是不会自动安装JRE的。在jdk11的安装目录下打开命令行窗口或者shift鼠标右键…

异步处理 (vue async和await)

出现这种情况可以是加载顺序的问题,加载没有完成就是显示数据了 试试 async和await async beforeOpen(done, type) {if (["edit", "view"].includes(type)) {await getDetail(this.form.id).then((res) > {this.form res.data.data;conso…

了解Spring:Java开发的利器

Spring是一款开源的轻量级Java开发框架,旨在提高开发人员的效率和系统的可维护性。本文将介绍Spring的基本概念、使用优势、设计模式以及与Spring MVC和Spring Boot的关联。 什么是Spring? Spring是一款开源的轻量级Java开发框架,它由多个模…

购买腾讯云服务器需要多少钱?价格表查询

腾讯云服务器多少钱一年?61元一年起。2024年最新腾讯云服务器优惠价格表,腾讯云轻量2核2G3M服务器61元一年、2核2G4M服务器99元一年可买三年、2核4G5M服务器165元一年、3年756元、轻量4核8M12M服务器646元15个月、4核16G10M配置32元1个月、312元一年、8核…

APP信息收集思路总结(反代理,反虚拟机,反证书校验思路整理)

前言 本文是我在学习过程中的总结,希望可以被指导提议指正。 APP概况 app跟一个网站很像。 网站分为前端后端。 app就好像网站的前端一样,app不需要浏览器,而前端需要浏览器。 他们都需要服务器,也就是说,进行we…

bevformer转模型经验(需要时序tranformer所有模型都可以参考)

先上bevformer的网络结构图 不难发现,他有两个输入。当前的环视图和历史bev。历史bev是通过历史环视图生成的。也就是说在生成bev特征提取模型这部分被使用了两次。在装模型时候,需要作以下工作: 1 bev特征提取模型单独提出来,转…

win多开微信

有时候需要在win下多开微信,但是微信又不支持这个功能。 正常情况下,当微信弹出登录对话框时,再次点击微信exe,此时不会再弹出一个新的微信对话框,估计微信是做了只弹一个窗的判断。但是,有时点击微信时&a…

哪本书最了解孩子?跟《米小圈上学记》一起做孩子的“引路人”!

孩子是发展中的人,需要家长的陪伴,孩子的身心发展是有规侓的,是处于发展过程中的人。我们要学会尊重孩子的发展,从兴趣出发,关注孩子的成长。但是,家长不可能无时无刻都能陪在孩子身边,他需要一…

es bulk批量操作简单实例

(1)定义 bulk允许在单个步骤中进行多次create、index、update或delete请求。 bulk与其他的请求体格式稍有不同,如下所示: { action: { metadata }}\n { request body }\n { action: { metadata }}\n { request body …

element-plus中el-table利用复选框删除当前行

思路:1.利用复选框的selection-change事件来监听复选框发生的变化,触发该事件 2.给删除添加点击事件,定义一个空数组,通过forEach()方法遍历tableData数据,使用filter()方法来过滤掉未选中行数,将过滤出来的…

java-基于springboot+vue实现的旅游信息管理系统功能介绍

开发工具:IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架:ssm、Springboot 前端:Vue、ElementUI 关键技术:springboot、SSM、vue、MYSQL、MAVEN 数据库工具:Navicat、SQLyog 项目关键技术 1、JSP技术 JSP(Java…

苍穹外卖笔记

苍穹外卖 DAY01nginx反向代理MD5加密yapi进行接口导入Swagger介绍 DAY02新增员工需求分析和设计写相关代码测试(1. 后端文档测试 2. 前后端联调代码完善 员工分页查询DAY01 02涉及到的知识 DAY01 nginx反向代理 MD5加密 拓展:spring security jwt 提供了更强大灵…