基于邻域聚合的实体对齐方法

引用本文

谭元珍, 李晓楠, 李冠宇. 基于邻域聚合的实体对齐方法[J]. 计算机工程, 2022, 48(6), 65-72. DOI: 10.19678/j.issn.1000-3428.0061589.

TAN Yuanzhen, LI Xiaonan, LI Guanyu. Entity Alignment Method Based on Neighborhood Aggregation[J]. Computer Engineering, 2022, 48(6), 65-72. DOI: 10.19678/j.issn.1000-3428.0061589.

基金项目

国家自然科学基金（61976032，62002039）

通信作者

李冠宇（通信作者），教授、博士

作者简介

谭元珍（1996—），女，硕士研究生，主研方向为智能信息处理;
李晓楠，博士研究生

文章历史

收稿日期：2021-05-10
修回日期：2021-07-13

Contents Abstract Full text Figures/Tables PDF

基于邻域聚合的实体对齐方法

谭元珍 , 李晓楠 , 李冠宇

大连海事大学信息科学技术学院, 辽宁大连 116026

收稿日期：2021-05-10；修回日期：2021-07-13

基金项目：国家自然科学基金（61976032，62002039）

作者简介：谭元珍（1996—），女，硕士研究生，主研方向为智能信息处理; 李晓楠，博士研究生.

通信作者：李冠宇（通信作者），教授、博士.

E-mail: rabitlee@163.com

摘要：实体对齐旨在判断来自不同知识图谱的实体是否为指向真实世界的同一个对象。然而，知识图谱间的结构异质性往往会影响实体对齐的准确性。提出一种基于邻域聚合匹配网络（NAMN）模型的实体对齐方法。根据每跳邻居对中心实体重要性不同的特点，采用分层的思想区别处理每跳邻域信息，通过门控机制进行聚合以学习图结构的表征。在此基础上，为每个实体构建邻域局部子图进行跨图邻域匹配，并将匹配阶段的输出与通过门控机制所学习到的图结构表征进行联合编码，生成最终面向匹配的表征。采用DBP15K数据集进行实验，结果显示，Hits@1的所有值均在75%以上，Hits@10的所有值均在85%以上，最高可达到97%，平均倒数排名均高于80%，表明NAMN模型能够有效提高实体的匹配准确度。

Entity Alignment Method Based on Neighborhood Aggregation

TAN Yuanzhen , LI Xiaonan , LI Guanyu

College of Information Science and Technology, Dalian Maritime University, Dalian, Liaoning 116026, China

Abstract: Entity Alignment(EA) aims to judge whether entities from different Knowledge Graph(KG) are the same object pointing to the real world. However, the structural heterogeneity between KG often affects the accuracy of EA. Hence, an EA method based on a Neighborhood Aggregation Matching Network(NAMN) model is proposed. Based on the different importance of each hop neighbor to the central entity, a hierarchical idea is applied to process the neighborhood information of each hop differently, and the gating mechanism is used to perform aggregation to learn the representation of a graph structure. Subsequently, a neighborhood local subgraph is constructed for each entity for cross graph neighborhood matching, and the output of the matching stage is jointly encoded with the graph structure representation learned through the gating mechanism to generate the final matching oriented representation. The experiment is performed using the DBP15K dataset. The experimental results show that all values of Hits@1 exceed 75%, all values of Hits@10 are between 85% and 97%, and the Mean Reciprocal Rank(MMR) exceeds 80%, indicating that the NAMN model can effectively improve the matching accuracy of entities.

开放科学（资源服务）标志码（OSID）：

0 概述

随着智能信息服务应用的不断发展，知识图谱（Knowledge Graph，KG）已被广泛应用于智能问答^[1]、智能信息处理^[2-3]、个性化推荐^[4]等领域。近年来，越来越多的知识图谱被构造以提供针对不同领域的知识，如DBpedia^[5]、YAGO^[6]、ConceptNet^[7]、NELL^[8]。研究人员发现，这些知识图谱通常不完整，相互之间包含着互补的事实，需要将不同的知识图谱整合到统一的知识图谱中，为不同的应用提供结构知识。然而，将来自不同知识图谱的实体链接到相同的真实世界知识并非易事，因为不同的知识图谱基于不同的数据源所构造，所以同一实体在不同的知识库中也有着不同的表述。

在多语言知识图谱中查找等效实体，对于集成多源知识图谱起到重要的作用。实体对齐（Entity Alignment，EA）旨在从来自多个来源构成的知识图谱中找到表示真实世界知识的同一实体。目前，比较流行的实体对齐方法是基于知识图谱嵌入的方法，此方法主要是利用知识图谱的表示学习，克服了依靠人工创建规则或特征^[9]的问题。该类方法假定基于不同数据源构造的知识图谱具有相似的结构，在向量空间中具有相对相似位置的实体为对齐实体，使用TransE等一系列模型^[10-15]表示每个知识图谱中的实体和关系，然后将预对齐的实体投影至统一的向量空间。然而，基于知识图谱嵌入的实体对齐需要足够数量的种子序列，并且受不同知识图谱间不完整性和异质性的影响，对齐精确度往往不高。

图神经网络（Graph Neural Network，GNN）是学习图结构化数据的矢量表示和解决图上各种监督预测问题的强大模型^[16-18]。GNN遵循递归邻域聚合方法，每个节点聚合其邻居的特征向量以计算新的特征向量^{[16, 18]}。在聚合k次迭代之后，节点由其变换后的特征向量表示，该特征向量可以捕获节点多跳邻居附近的结构信息，然后通过合并来获得整个图的表示^[19]。文献[20]证明，GNN在识别同构子图方面具有与Weisfeiler-Leman（WL）检测^[21]相同的表达能力。相似实体通常具有相似的邻域，这是GNN实现不同知识图谱之间实体对齐的理论基础。

然而，现有基于GNN的实体对齐模型依然面临着一个关键问题：由于不同的知识图谱具有结构异质性^[22]，因此对应实体通常具有不同的邻域结构。解决此问题的关键在于要减小不同知识图谱实体邻域结构的异质性。本文提出一种邻域聚合匹配网络（Neighborhood Aggregation Matching Network，NAMN）模型，旨在从实体邻域角度对图结构信息进行编码以实现实体对齐，缓解结构异质性带来的影响。

1 相关工作 1.1 基于知识图谱嵌入的实体对齐

近年来，知识图谱嵌入学习已成功应用于实体对齐领域。当前的处理方法是将不同的知识图谱表示为嵌入，投影至同一向量空间，然后通过测量嵌入之间的相似性来进行实体对齐。MTransE^[10]是基于嵌入的多语言实体对齐模型，其使用TransE模型学习两个知识图谱中实体的嵌入，然后学习连接两个嵌入空间之间的映射函数，以实现实体对齐。IPTransE^[11]和BootEA^[12]是通过联合嵌入进行迭代的自我训练方法，其使用预对齐的实体种子对来进行计算，并将迭代过程中新发现的实体对添加到训练数据集中，优化对齐效果。JAPE^[13]使用Skip-Gram方法，利用种子对齐方式将两个知识图谱的实体嵌入到统一的向量空间中，将结构嵌入和属性嵌入结合在一起找到相似实体。文献[14]提出了一种RSN方法，结合递归神经网络（Recurrent Neural Network，RNN）和残差学习，以有效地捕获知识图谱内部和知识图谱之间的长期关系依赖性，优化实体对齐效果。MultiKE^[15]分别从名称、属性和结构视图中学习实体的表示形式，集成3个特定的视图嵌入组合策略以提高实体对齐性能，并使用预先训练好的词嵌入来完善属性值的学习。但是，以上方法需要足够数量的种子对，成本较高，并且不同知识图谱的结构异质性对知识图谱的嵌入质量也产生了很大的负面影响，导致对齐效果变差。

1.2 基于GNN的实体对齐

与上述基于知识图谱嵌入的方法不同，图神经网络（GNN）使用图结构和节点特征来学习节点或整个图的表示向量，遵循邻域聚合策略，在图学习方面取得了显著进步。因此，一些工作试图将GNN应用在实体对齐方面以取得更好的对齐性能。GCN-Align^[16]是一种基于GCN的实体对齐模型，其利用GCN将每个知识图谱的实体嵌入统一的向量空间，传播来自邻居的信息，通过结构知识进行实体对齐。然而，GCN-Align在训练过程中仅考虑实体之间的等效关系，没有在知识图谱中使用丰富的关系来区分共享邻居的实体。R-GCN^[17]模型考虑到节点之间的关系，解决了GCN处理图结构中关系对节点的影响，其通过为每个关系设置转换矩阵来进一步合并关系类型信息，提高对齐效果。RDGCN^[18]是一种新的关系感知双图卷积网络，其通过构建用于嵌入学习的对偶关系图，使用门控机制捕获邻域结构，缓解知识图之间的异构性，以学习更好的实体表示。R-GCN模型和RDGCN模型将预先对齐的实体和关系作为训练数据，这可能会导致昂贵的开销。AliNet^[23]模型将门控机制和注意力机制结合在一起，以聚合多跳邻域来整合GCN，从而减少图异构性对实体对齐的影响，达到更好的对齐效果。然而，AliNet在汇总信息时将实体的所有一跳邻居同等对待，在没有仔细选择的情况下引入了噪声，影响了实体对齐性能。

2 NAMN模型设计 2.1 基础知识 2.1.1 知识图谱的实体对齐

本文将知识图谱形式表示为$ {G}_{i}=({E}_{i}, {R}_{i}, {T}_{i}) $，其中，$ {E}_{i} $、$ {R}_{i} $、$ {T}_{i} $分别表示为$ {G}_{i} $中实体、关系和三元组的集合。$ {N}_{e}=\left\{e{{'}}\;\right|\;(e, r, e{{'}})\in T\}\bigcup \{e{{'}}\;\left|\;\right(e{{'}}, r, e)\in T\} $是$ {G}_{i} $中实体$ e $的邻居集。对齐的实体对形式化表示为$ A=\left\{\right({e}_{1}, {e}_{2})\in {E}_{1}\times {E}_{2}|{e}_{1}\leftrightarrow {e}_{2}\} $，其中，$ \leftrightarrow $表示等价关系，即$ {e}_{1} $和$ {e}_{2} $所表示的为真实世界中相同的实体。实体对齐的任务就是找到$ {G}_{1} $和$ {G}_{2} $之间的等效实体对。为方便起见，本文将$ {G}_{1} $和$ {G}_{2} $放到一个大图中，即$ G={G}_{1}+{G}_{2} $，$ R={R}_{1}\bigcup R{}_{2} $，$ T={T}_{1}\bigcup T{}_{2} $，实体的总个数$ n=\left|{E}_{1}\right|+\left|{E}_{2}\right| $。

2.1.2 图神经网络

GNN通过递归聚合其邻居的特征向量来学习节点表示，不同的聚合策略产生了GNN的不同变体，其中的一种变体vanilla GCN^[24]在第l（l≥1）层处的节点i的隐藏表示为$ {h}_{i}^{\left(l\right)} $，如式（1）所示：

$ {h}_{i}^{\left(l\right)}=\sigma \left(\sum\limits_{a\in N\left(i\right)\bigcup \left\{i\right\}}\frac{1}{{\varepsilon }_{i}}{W}_{1}^{\left(l\right)}{h}_{a}^{(l-1)}\right) $

(1)

其中：$ \{{h}_{1}^{\left(l\right)}, {h}_{2}^{\left(l\right)}, \cdots , {h}_{n}^{\left(l\right)}|{h}_{i}^{\left(l\right)}\in {\mathbb{R}}^{{d}^{\left(l\right)}}\} $代表第l个GCN层的输出节点特征；$ N\left(i\right) $代表实体i的邻居集合；$ {\varepsilon }_{i} $代表归一化常数；$ {W}_{1}^{\left(l\right)}\in {\mathbb{R}}^{{d}^{\left(l\right)}\times {d}^{(l-1)}} $代表第l层可训练权重矩阵元素；$ \sigma (\cdot ) $代表激活函数，通常采用$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}(\cdot ) $作为激活函数。Vanilla GCN是将节点编码为其邻居和最后一层自身表示的平均池（mean pooling）操作，第一层的输入表示为$ {h}_{i}^{\left(0\right)} $。

2.1.3 远距离邻居选择

为了减少邻域信息所带来的非同构影响，本文方法引入远距离邻居。如图 1所示，两个中心实体对（a，A）的一跳邻居不同，只包含对等实体对（b，B）和（c，C），而a的一跳邻居d和A的远距离邻居D对应，A的一跳邻居E和F与a的远距离邻居e和f对应。如果可以将远距离邻居e和f包含在a的邻域聚合中，并且也将A的远距离邻居D考虑在内，那么GNN将会学习到更多关于a和A的相似表示。但是，并非所有的远距离邻居都有积极贡献，因此，本文引入注意力机制，旨在找到对中心实体有积极贡献的远距离邻域。

	Download: JPG larger image
图 1 远距离邻居选择示例 Fig. 1 Example of selecting long-distance neighbors

2.1.4 图匹配

通过图的结构信息来度量两个图的相似性，进而估计$ {G}_{1} $和$ {G}_{2} $描述的为同一实体的可能性。在近期研究中，图匹配网络（GMN）^[25]引入跨图关注机制对图进行联合推理，以区分跨图的节点并识别差异，计算两个图之间的相似度得分。受GMN模型的启发，本文也采用一跨图邻域匹配模块来识别两个实体邻域节点之间的差异。

2.1.5 距离函数

对于不同实体之间的相似性，通常采用计算实体之间的距离来度量，而计算距离的方法会直接关系到对齐的效果。表 1中列举了一些常见的距离函数。

下载CSV 表 1 常见的距离函数 Table 1 Common distance functions

2.2 NAMN模型框架

为了缓解邻域异质性对实体对齐产生的影响，NAMN模型利用GNN对图结构信息进行建模，采用分层的思想对邻域信息进行区别处理。首先，对于一跳邻居进行全部采样，对于二跳及以上邻居，采用注意力机制进行局部采样；然后，引入门控机制对实体的k-hop邻居信息进行聚合，以挖掘图结构的隐藏信息；在此基础上，考虑到实体一跳邻居结构异质性的影响，为每个实体提取一个可区分的邻域，构建邻域局部子图进行跨图邻域匹配，将匹配阶段的输出与通过门控机制所学习的图结构表示进行联合编码，以生成面向匹配的实体表示；最后，对于面向匹配的实体表示，使用距离函数进行实体的对齐预测。NAMN模型框架如图 2所示，在不失一般性的情况下，该图展示了一跳和二跳邻居信息的情况。NAMN遵循3个阶段的处理流程，即门控邻域聚合、邻域匹配和对齐预测。

	Download: JPG larger image
图 2 NAMN模型框架 Fig. 2 NAMN model framework

2.3 门控邻域聚合

按照每跳邻居对中心实体的重要性可知，实体的一跳邻居是最重要的邻域。本文使用vanilla GCN聚合实体的邻居信息，学习知识图谱结构嵌入。首先，使用预训练的词嵌入^[26]来初始化GCN的方法。将两个知识图谱$ {G}_{1}=({E}_{1}, {R}_{1}, {T}_{1}) $和$ {G}_{2}=({E}_{2}, {R}_{2}, {T}_{2}) $作为NAMN模型的输入，使用式（1）来更新节点表示。为控制噪声的影响，还引入highway networks^[27]方法，以避免噪声在GNN层之间传播。

对于二跳邻居，若再直接采用GNN层来聚合，会导致更多的噪声信息。为找到对中心实体有积极贡献的远距离邻域，本文引入注意力机制^[23]来计算实体$ {e}_{i} $的二跳邻居信息（表示为$ {h}_{i-2}^{\left(l\right)} $），如式（2）所示：

$ {h}_{i-2}^{\left(l\right)}=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(\sum\limits_{a\in {N}_{2}\left(i\right)\bigcup \left\{i\right\}}{\beta }_{ia}^{}{\mathit{\boldsymbol{W}}}_{2}{h}_{a}^{(l-1)}\right) $

(2)

其中：$ {N}_{2}(\cdot ) $代表的是实体的二跳邻居集合；$ {\mathit{\boldsymbol{W}}}_{2}^{} $是可训练的权重矩阵；$ {\beta }_{ia}^{} $是中心实体i与邻居a的一个可学习的注意力权重。

为进一步聚合邻域信息，使用门控机制将邻域信息结合在一起，以挖掘实体$ {e}_{i} $的隐藏表示：

$ g\left({h}_{i}^{\left(l\right)}\right)=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}(\mathit{\boldsymbol{M}}{h}_{i}^{\left(l\right)}+\mathit{\boldsymbol{b}}) $

(3)

$ {h}_{i}^{\left(l\right)}=g\left({h}_{i-2}^{\left(l\right)}\right)\cdot {h}_{i-1}^{\left(l\right)}+\left(1-g\left({h}_{i-2}^{\left(l\right)}\right)\right)\cdot {h}_{i-2}^{\left(l\right)} $

(4)

其中：$ g\left({h}_{i}^{\left(l\right)}\right) $为控制一跳和二跳邻居组合的门；“$ \cdot $”表示逐元素乘法；M和b分别为权重矩阵和偏差向量。

对于two-hop邻域聚合，本文引入注意力权重$ {\beta }_{ia}^{} $以突出重要邻居。图注意力网络（Graph Attention Network，GAT）^[28]是在实体中采用共享的线性变换，但是却忽略了中心实体和邻居之间可能完全不同，这种共享的转换会导致无法正确区分。为此，本文分别使用两个矩阵$ {\mathit{\boldsymbol{M}}}_{1} $和$ {\mathit{\boldsymbol{M}}}_{2} $对中心实体和邻居进行线性变换^[23]。形式上，中心实体i和邻居a之间的注意力权重计算方法如式（5）所示：

$ \begin{array}{l}{c}_{ia}^{}=\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{n}({\mathit{\boldsymbol{M}}}_{1}{h}_{i}^{\left(l\right)}, {\mathit{\boldsymbol{M}}}_{2}{h}_{a}^{\left(l\right)})=\\ \;\;\;\; {}_{}{}_{}{}_{}{}_{}{}_{}\mathrm{L}\mathrm{e}\mathrm{a}\mathrm{k}\mathrm{y}\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(p\right[{\mathit{\boldsymbol{M}}}_{1}{h}_{i}^{\left(l\right)}\left|\right|{\mathit{\boldsymbol{M}}}_{2}{h}_{a}^{\left(l\right)}\left]\right)\end{array} $

(5)

其中：p、$ {\mathit{\boldsymbol{M}}}_{1} $和$ {\mathit{\boldsymbol{M}}}_{2} $为可训练的参数；$ \left|\right| $表示级联；$ {c}_{ia}^{} $是衡量$ {e}_{i} $和$ {e}_{a} $重要性的注意力权重；$ \mathrm{a}\mathrm{t}\mathrm{t}\mathrm{n}(\cdot ) $是注意力函数。在此基础上，使用$ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}(\cdot ) $函数进行标准化处理，以使其在不同实体之间具有可比性，从而有效地编码实体名称的语义信息：

$ {\beta }_{ia}^{}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({c}_{ia}^{}\right)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({c}_{ia}^{}\right)}{\sum\limits_{k\in {N}_{2}\left(i\right)\bigcup \left\{i\right\}}\mathrm{e}\mathrm{x}\mathrm{p}\left({c}_{ik}^{}\right)} $

(6)

将两个知识图谱$ {G}_{1}=\left({E}_{1}{R}_{1}{T}_{1}\right) $和$ {G}_{2}=\left({E}_{2}{R}_{2}{T}_{2}\right) $作为NAMN模型的输入，使用式（1）来更新节点表示。为控制噪声的影响，还引入highway networks^[27]方法，以避免噪声GNN层之间传播。

2.4 邻域匹配 2.4.1 邻域局部子图构建

实体的一跳邻居是决定该实体与其他实体是否对齐的关键，但是并非所有的一跳邻居都对实体对齐有着积极的影响。为此，本文引入局部子图，应用向下采样过程（down-sampling process），旨在选择对中心实体信息量最大的一跳邻居。对于每个实体对$ ({e}_{i}, {e}_{j}) $，如果$ {e}_{i} $和$ {e}_{j} $有关系（例如r）直接连接，在局部子图中为其对应节点添加一有向边，但只保留r的方向。

为了选择合适的邻居，采用邻里采样策略^[29]。给定实体$ {e}_{i} $，对其一跳邻居$ {e}_{i\_1} $进行采样的概率如式（7）所示：

$ p\left({h}_{i\_1}\right|{h}_{i})=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({h}_{i}{\mathit{\boldsymbol{W}}}_{3}{h}_{i\_1}^{\mathrm{T}}\right)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({h}_{i}{\mathit{\boldsymbol{W}}}_{3}{h}_{i\_1}^{\mathrm{T}}\right)}{\sum\limits_{n\in {N}_{i}}\mathrm{e}\mathrm{x}\mathrm{p}\left({h}_{i}{\mathit{\boldsymbol{W}}}_{3}{h}_{i\_n}^{\mathrm{T}}\right)} $

(7)

其中：$ {\mathit{\boldsymbol{W}}}_{3} $是共享的权重矩阵；$ {N}_{i} $是中心实体$ {e}_{i} $的一跳邻居集；$ {h}_{i} $和$ {h}_{i\_1} $分别是中心实体$ {e}_{i} $和一跳邻居$ {e}_{i\_1} $通过式（1）计算的学习嵌入表示。

2.4.2 跨图邻域匹配

确定对中心实体应考虑的邻居之后，也即产生了邻域局部子图。在跨图邻域匹配过程中，为减少匹配开销，首先进行的为候选人的选择。计算$ {G}_{1} $中的实体$ {e}_{i} $与$ {G}_{2} $中的所有实体$ \left\{{e}_{2}\right\} $在其表示空间中的相似性，找到$ {G}_{2} $在嵌入空间中最接近$ {e}_{i} $的实体，作为候选者$ {D}_{i}=\{{D}_{{i}_{1}}, {D}_{{i}_{2}}, \cdots , {D}_{{i}_{t}}|{D}_{{i}_{k}}\in {E}_{2}\} $，计算公式如式（8）~式（9）所示：

$ {\alpha }_{ij}={s}_{h}({h}_{i}, {h}_{j}), \;j\in \{\mathrm{1, 2}, \cdots , |{E}_{2}\left|\right\} $

(8)

$ p\left({h}_{i}\right|{h}_{j})=\frac{\sum\limits_{j=1}^{\left|{E}_{2}\right|}{\alpha }_{ij}\cdot {h}_{j}}{\sum\limits_{j=1}^{\left|{E}_{2}\right|}{\alpha }_{ij}} $

(9)

其中：$ {s}_{h} $是向量空间相似性度量，如Euclidean或cosine；$ {\alpha }_{ij} $是注意力权重；$ p\left({h}_{j}\right|{h}_{i}) $为$ {G}_{2} $中的实体$ {e}_{j} $被采样为$ {e}_{i} $候选者的概率。

在邻域匹配模块中，$ {G}_{1} $和$ {G}_{2} $叠加在一起作为一个大的输入图，引入一匹配向量来计算$ {G}_{1} $中的实体邻域和$ {G}_{2} $中所有实体的匹配程度^[25]。形式上，令$ ({e}_{i}, {D}_{{i}_{k}}) $为要测量的实体对，其中$ {e}_{i}\in {E}_{1} $，而$ {D}_{{i}_{k}}\in {E}_{2} $为候选者之一，设定x和y分别是$ {e}_{i} $和$ {D}_{{i}_{k}} $的两个邻居，得到邻居x的匹配向量$ {\mathit{\boldsymbol{m}}}_{x} $：

$ {\alpha }_{xy}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}({h}_{x}\cdot {h}_{y})}{\sum\limits_{y{{'}}\in {N}_{{i}_{k}}^{s}}\mathrm{e}\mathrm{x}\mathrm{p}({h}_{x}\cdot {h}_{y{{'}}})} $

(10)

$ {\mathit{\boldsymbol{m}}}_{x}=\sum\limits_{y\in {N}_{{i}_{k}}^{s}}{\alpha }_{xy}({h}_{x}-{h}_{y})={h}_{x}-\sum\limits_{y\in {N}_{{i}_{k}}^{s}}{h}_{y} $

(11)

其中：$ {N}_{{i}_{k}}^{s} $是$ {D}_{{i}_{k}} $的采样邻居集；$ {h}_{x} $和$ {h}_{y} $是邻居x和y通过式（1）计算的GCN输出嵌入表示。

然后，将邻居x的输出嵌入与匹配向量相结合：

$ {\widehat{h}}_{x}=\left[{h}_{x}\right||{m}_{x}\cdot \tau ] $

(12)

其中：$ \tau $是超参。此处，匹配向量$ {\mathit{\boldsymbol{m}}}_{x} $可以区分两个邻居之间的差异。当两个邻居表示相似时，$ {\mathit{\boldsymbol{m}}}_{x} $趋向于零向量；当邻居表示不同时，匹配向量$ {\mathit{\boldsymbol{m}}}_{x} $将会变大。

最后，汇总其采样的邻居表示集为$ \left\{{\widehat{h}}_{x}\right\} $，并使用式（13）的聚合方法^[30]计算中心实体的$ {e}_{i} $的one-hop的邻域表示：

$ {g}_{i\_1}=\left(\sum\limits_{x\in {N}_{i}^{s}}\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left({\widehat{h}}_{x}{\mathit{\boldsymbol{W}}}_{\mathrm{g}\mathrm{a}\mathrm{t}\mathrm{e}}\right)\cdot {\widehat{h}}_{x}\right){\mathit{\boldsymbol{W}}}_{N} $

(13)

其中：$ {\mathit{\boldsymbol{W}}}_{\mathrm{g}\mathrm{a}\mathrm{t}\mathrm{e}} $和$ {\mathit{\boldsymbol{W}}}_{N} $分别是可学习的门控制矩阵和共享矩阵；$ {N}_{i}^{s} $是采样的邻居集。

在此基础上，将式（4）所计算的实体的隐藏表示$ {h}_{i}^{\left(l\right)} $及其一跳邻居表示连接起来，生成最终的面向匹配的表示：

$ {h}_{i}^{\mathrm{m}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}}=\left[{\mathrm{g}}_{i\_1}\right|\left|{h}_{i}^{\left(l\right)}\right] $

(14)

2.5 对齐预测

对于最终生成的面向匹配的实体表示$ {h}^{\mathrm{m}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}} $，可以简单地通过测量两个实体之间的距离来判定两个实体是否应该对齐：

$ d({e}_{i}, {e}_{j})=\pi ({e}_{i}, {e}_{j})={||{h}_{i}^{\mathrm{m}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}}-{h}_{j}^{\mathrm{m}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}}||}_{1} $

(15)

其中：$ \left|\right|\cdot |{|}_{1} $表示$ {L}_{1} $范数。将基于边际的排名损失函数作为NAMN模型的目标：

$ O=\sum\limits_{(c, v)\in Z}d(c, v)+\sum\limits_{(c{'}, v\left.{'}\right)\in R}\alpha [\lambda -d(c{'}, v{'}\left)\right] $

(16)

其中：c和v、$ {D}_{c} $和$ {D}_{v} $组成负样本的候选集$ R=\left\{\right(c{{'}}, v{{'}}\left)\right| $ $ (c{{'}}=c\bigcap v{{'}}\in {D}_{c})\bigcup (v{{'}}=v\bigcap c{{'}}\in {D}_{v})\} $；Z是候选的种子集；$ \alpha $是平衡的超参数。本文目标是使对齐的实体具有很小的距离，未对齐实体表示具有较大的距离，即负样本的距离应该大于$ \lambda $，也即$ d(c{{'}}, v{{'}}) > \lambda $。

此外，使用Adam优化器^[31]对目标进行优化，通过Xavier初始化^[11]对所有可学习的参数（包括实体的输入特征向量）进行初始化。

3 实验 3.1 数据集

为了评估NAMN模型性能，参考最近的研究^{[12, 32]}，本文使用大型数据集DBpedia^[33]下的子集DBP15K作为实验数据进行验证。这些数据集包括3个跨语言数据集，分别是英语、中文、日语和法语的不同语言版本，即DBP15K_ZH-EN（中文-英语）、DBP15K_JA-EN（日语-英语）、DBP15K_FR-EN（法语-英语），每个数据集由15 000个对齐的实体对和约40万个三元组组成。3个数据集的详细信息如表 2所示。

下载CSV 表 2 数据集统计 Table 2 Data set statistics

3.2 评估指标与参数设置

按照惯例，将数据集的30%作为训练数据，剩下的70%用作测试数据。在以下超参数中进行搜索：学习率$ {R}_{\mathrm{l}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{n}\mathrm{i}\mathrm{n}\mathrm{g}\_\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{e}}=\left\{\mathrm{0.001, 0.005, 0.01}\right\} $，$ \tau =\{\mathrm{0.1, 0.2}, \cdots , 0.5\} $，$ \alpha =\{\mathrm{0.01, 0.05}, \cdots , \mathrm{0.1, 0.2}\} $，$ \lambda =\{\mathrm{1.5, 1.4}, \;\cdots , 1.0\} $，每层的隐藏层层数$ L=\{\mathrm{1, 2}, \mathrm{3, 4}\} $，维度为$ \{\mathrm{100, 200, 300, 400}, $ 5$ 00\} $，最终实验设置如表 3所示。此外，本文设置候选人的大小为20个，并为每个预先对齐的实体对抽取10个负样本，以简化训练。

下载CSV 表 3 参数设置 Table 3 Parameters setting

对于评估指标，使用Hits@K和平均倒数排名（Mean Reciprocal Rank，MMR）评估对齐性能。Hits@K通过排名在前K个的正确对齐实体的比例来进行计算，MRR是指所有正确实体的平均倒数排名。这两个指标值越高，表明实体对齐模型效果越好。

3.3 对比方法与实验结果

本文将NAMN模型与最近提出的基于嵌入的实体对齐模型进行比较，并将其分为2类：1）基于嵌入的模型，如MTransE、IPTransE、JAPE、BootEA和RSN；2）基于图的模型，如GCN-Align和RDGCN。同时，引入近期考虑到知识图谱邻域异质性的两个最新成果进行比较，即MuGNN和AliNet模型。

表 4列出了在DBP15K数据集上所有方法的实体对齐性能。实验结果表明，NAMN明显优于3个数据集上的所有基线模型。NAMN模型可以实现Hits@1的所有值均高于75%，Hits@10的所有值均高于85%，MRR的所有值均不低于80%，这进一步证实了本文方法的有效性。具体来说，在基于嵌入模型中，BootEA模型表现最佳，通过引导过程可以从更多训练实例中受益。对于仅考虑结构信息的基于GNN的模型，RDGCN明显优于其他模型，这是因为RDGCN模型考虑从邻域结构入手，缓解了结构异质性所带来的影响，体现出解决结构异质性的重要性。

下载CSV 表 4 不同实体对齐方法性能比较 Table 4 Performance comparison of different entity alignment methods

为进一步证明NAMN模型的有效性，在DBP15K的另外3个数据集上进行对比实验。这3个数据集分别是DBP15K_EN-ZH（英语-中文），DBP15K_EN-JA（英语-日语），DBP15K_EN-FR（英语-法语），实体对齐的结果比对如表 5所示。可以看出，所有模型的性能都有所下降，但NAMN模型明显优于另外3个模型，NAMN模型的Hits@1的值要高于另外3个模型约30%以上，其中，在DBP15K_EN-FR数据集中Hits@1达到了最高，充分证明了NAMN模型的有效性和鲁棒性。

下载CSV 表 5 实体对齐结果比较 Table 5 Comparison of entity alignment results

为更直观地表现NAMN模型的性能，在DBP15K数据集上，采用Hits@1到Hits@50以10为步长的多个基准进行比较，选择JAPE、GCN-Align和AliNet作为对比模型，具体如图 3所示，其中横坐标为Hits@K。可以看出：NAMN模型的Hits@K值均高于其他模型，在DBP15K_JA-EN和DBP15K_FR-EN上都取得了最高的得分；AliNet模型的Hits@K值在K取20之后，得分接近NAMN模型，说明缓解实体邻域结构的异质性有利于实体对齐，但AliNet模型的Hits@1明显低于NAMN模型，说明NAMN模型具有更好的对齐性能。

	Download: JPG larger image
图 3 DBP15K数据集上Hits@K得分结果比较 Fig. 3 Comparison of Hits@K score results on DBP15K dataset

3.4 结果分析

NAMN模型使用门控机制和邻域采样策略来实现实体对齐，因此，分别对这两个策略进行分析。

将NAMN模型在DBP15K数据集上采用随机采样策略来进行比较，具体结果如图 4所示。可以看出，NAMN模型可以提供更好的结果，本文的采样策略可以有效地选择信息量更大的邻居。对DBP15K数据集，两个模型均可达到性能平稳状态，当采样大小为3时，两个模型的性能更高。但随着采样大小的增大，性能会有所下降，说明较大的采样会引入更多的噪声。

	Download: JPG larger image
图 4 DBP15K数据集上邻域抽样策略与随机采样策略的结果比较 Fig. 4 Result comparison of neighborhood sampling strategy and random sampling strategy on DBP15K dataset

在聚合多跳邻居方面，本文使用不同的策略来设计NAMA的不同变体。变体1（NAMN-1）将实体的一跳和二跳邻居平等对待，使用GNN层直接聚合邻居信息；变体2（NAMN-2）用加法运算符替换门控机制；变体3（NAMN-3）用GAT来替换本文所用的注意力机制。由表 6可以看出：NAMN-1的实验结果很差，这表明使用GNN层来直接聚合二跳邻居会引入很多的噪声信息，严重影响对齐性能；NAMN-2的实验结果较差，这表明加法机制只是简单的将邻居信息结合，并不会像门控机制那样选择性地组合各个维度上的邻居信息表示；NAMN-3的实验结果比NAMN略差，这表明本文所用注意力机制能够优化对齐效果。因此，对于远距离邻居选择，门控机制和注意力机制至关重要。

下载CSV 表 6 NAMN不同变体对齐结果比较 Table 6 Comparison of alignment results of different variants of NAMN

在DBP15K数据集上1~4层的AliNet实验结果如图 5所示，其中横坐标为AliNet的层数。可以看出：当AliNet的层数为2时，所有指标达到了最佳性能；当AliNet具有更多层时，其性能也会下降。

	Download: JPG larger image
图 5 DBP15K数据集上不同AliNet层数的实验结果比较 Fig. 5 Experimental result comparison of different AliNet layers on DBP15K dataset

4 结束语

为提高实体对齐的准确性，本文提出邻域聚合匹配网络（NAMN）模型。从实体邻域角度出发，通过门控邻域聚合、邻域匹配和对齐预测3个阶段判定实体是否对齐，解决知识图谱间普遍存在的结构异质性问题。实验结果表明，在DBP15K数据集上，该模型的Hits@K指标达到75%以上。后续将利用实体的语义信息和关系的映射属性提高实体对齐的准确度，并进一步改进邻域的匹配策略，降低模型的复杂度，从而扩大模型的应用范围。

参考文献

[1]	孟明明, 张坤, 论兵, 等. 一种面向知识图谱问答的语义查询扩展方法[J]. 计算机工程, 2019, 45(9): 276-283, 290. MENG M M, ZHANG K, LUN B, et al. A semantic query expansion method for question answering based on knowledge graph[J]. Computer Engineering, 2019, 45(9): 276-283, 290. (in Chinese)
[2]	王辉, 郁波, 洪宇, 等. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124. WANG H, YU B, HONG Y, et al. Web information extraction system based on knowledge graph[J]. Computer Engineering, 2017, 43(6): 118-124. (in Chinese)
[3]	CAO Y X, HOU L, LI J Z, et al. Joint representation learning of cross-lingual words and entities via attentive distant supervision[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2018: 1-11.
[4]	CAO Y X, WANG X, HE X N, et al. Unifying knowledge graph learning and recommendation: towards a better understanding of user preferences[C]//Proceedings of World Wide Web Conference. Washington D. C., USA: IEEE Press, 2019: 151-161.
[5]	BIZER C, LEHMANN J, KOBILAROV G, et al. DBpedia—a crystallization point for the Web of data[J]. Journal of Web Semantics, 2009, 7(3): 154-165. DOI:10.1016/j.websem.2009.07.002
[6]	SUCHANEK F M, KASNECI G, WEIKUM G. YAGO: a large ontology from Wikipedia and WordNet[J]. Journal of Web Semantics, 2008, 6(3): 203-217. DOI:10.1016/j.websem.2008.06.001
[7]	SPEER R, CHIN J, HAVASI C. ConceptNet 5.5: an open multilingual graph of general knowledge[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. [S. l.]: AAAI, 2017: 4444-4451.
[8]	CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward an arcHitsecture for never-ending language learning[C]//Proceedings of AAAI Conference on Artificial Intelligence. [S. l.]: AAAI, 2010: 1-10.
[9]	MAHDISOLTANI F, BIEGA J, SUCHANEK F. YAGO3: a knowledge base from multilingual Wikipedias[C]//Proceedings of the 7th Biennial Conference on Innovative Data Systems Research. Asilomar, USA: [s. n.], 2014: 4-7.
[10]	CHEN M H, TIAN Y T, YANG M H, et al. Multi-lingual knowledge graph embeddings for cross-lingual knowledge alignment[EB/OL]. [2021-05-05]. https://arxiv.org/abs/1611.03954.
[11]	GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. [S. l.]: JMLR, 2010: 249-256.
[12]	SUN Z, HU W, ZHANG Q, et al. Bootstrapping entity alignment with knowledge graph embedding[C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. Washington D. C., USA: IEEE Press, 2018: 4396-4402.
[13]	SUN Z, HU W, LI C. Cross-lingual entity alignment via joint attribute-preserving embedding[C]//Proceedings of International Semantic Web Conference. Berlin, Germany: Springer, 2017: 628-644.
[14]	GUO L, SUN Z, HU W. Learning to exploit long-term relational dependencies in knowledge graphs[C]//Proceedings of International Conference on Machine Learning. [S. l.]: PMLR, 2019: 2505-2514.
[15]	ZHANG Q H, SUN Z Q, HU W, et al. Multi-view knowledge graph embedding for entity alignment[EB/OL]. [2021-05-05]. https://arxiv.org/abs/1906.02390.
[16]	WANG Z C, LV Q S, LAN X H, et al. Cross-lingual knowledge graph alignment via graph convolutional networks[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2018: 349-357.
[17]	SCHLICHTKRULL M, KIPF T N, BLOEM P, et al. Modeling relational data with graph convolutional networks[C]//Proceedings of European Semantic Web Conference. Berlin, Germany: Springer, 2018: 593-607.
[18]	WU Y, LIU X, FENG Y, et al. Relation-aware entity alignment for heterogeneous knowledge graphs[EB/OL]. [2021-04-10]. https://arxiv.org/abs/1908.08210.
[19]	YING R, YOU J, MORRIS C, et al. Hierarchical graph representation learning with differentiable pooling[EB/OL]. [2021-05-05]. https://proceedings.neurips.cc/paper/2018/hash/e77dbaf6759253c7c6d0efc5690369c7-Abstract.html.
[20]	MORRIS C, RITZERT M, FEY M, et al. Weisfeiler and leman go neural: higher-order graph neural networks[C]//Proceedings of 2019 AAAI Conference on Artificial Intelligence. [S. l.]: AAAI, 2019: 4602-4609.
[21]	LEMAN A A, WEISFEILER B. A reduction of a graph to a canonical form and an algebra arising during this reduction[J]. Nauchno-Technicheskaya Informatsiya, 1968, 2(9): 12-16.
[22]	PUJARA J, MIAO H, GETOOR L, et al. Knowledge graph identification[C]//Proceedings of International Semantic Web Conference. Berlin, Germany: Springer, 2013: 542-557.
[23]	SUN Z, WANG C, HU W, et al. Knowledge graph alignment network with gated multi-hop neighborhood aggregation[C]//Proceedings of 2020 AAAI Conference on Artificial Intelligence. [S. l.]: AAAI, 2020: 222-229.
[24]	KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. [2021-05-05]. https://arxiv.53yu.com/abs/1609.02907.
[25]	LI Y, GU C, DULLIEN T, et al. Graph matching networks for learning the similarity of graph structured objects[C]//Proceedings of International Conference on Machine Learning. [S. l.]: PMLR, 2019: 3835-3845.
[26]	XU K, WANG L, YU M, et al. Cross-lingual knowledge graph alignment via graph matching neural network[EB/OL]. [2021-05-05]. https://arxiv.53yu.com/abs/1905.11605.
[27]	SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks[EB/OL]. [2021-05-05]. https://arxiv.53yu.com/abs/1505.00387.
[28]	VELIČKOVIĆ P, CUCURULL G, CASANOVA A, et al. Graph attention networks[EB/OL]. [2021-05-05]. https://arxiv.53yu.com/abs/1710.10903.
[29]	WU Y, LIU X, FENG Y, et al. Neighborhood matching network for entity alignment[EB/OL]. [2021-05-05]. https://arxiv.53yu.com/abs/2005.05607.
[30]	LI Y J, TARLOW D, BROCKSCHMIDT M, et al. Gated graph sequence neural networks[EB/OL]. [2021-05-05]. https://arxiv.org/abs/1511.05493.
[31]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-05-05]. https://arxiv.53yu.com/abs/1412.6980.
[32]	CAO Y, LIU Z, LI C, et al. Multi-channel graph neural network for entity alignment[EB/OL]. [2021-05-05]. https://arxiv.org/abs/1905.11605.
[33]	LEHMANN J, ISELE R, JAKOB M, et al. DBpedia-a large-scale, multilingual knowledge base extracted from Wikipedia[J]. Semantic Web, 2015, 6(2): 167-195. DOI:10.3233/SW-140134