开放科学(资源服务)标志码(OSID):
知识图谱将非结构化知识转化为结构化的三元组知识,广泛应用于机器阅读[1]、机器翻译[2]、推荐系统[3]、问答系统[4]等自然语言处理(Natural Language Processing,NLP)任务。随着知识图谱基础工程技术的完善和进步,人们已经建立了越来越多的单语言知识图谱,例如DBpedia[5]、YAGO[6-7]和BabelNet[8],它们通常将现实世界的知识表示为一种特定结构的知识图谱。不同的知识图谱的创建目的不同,侧重点不同,通常会包含许多互补信息。将这些知识图谱整合在一起会大幅提高知识的利用效率,但是同一实体在不同的知识图谱中有不同的表现形式。如何在不同的知识图谱之间集成异构知识成为一个迫切需要解决的问题,实体对齐就是解决该问题的有效方法。
早期的实体对齐方法主要依赖于定义各种独立于语言的特征或者机器翻译技术来发现跨语言的连接。近年来,基于嵌入的实体对齐方法将知识图谱嵌入到低维向量空间中进行运算,显著提升了实体对齐效果。基于嵌入的实体对齐方法主要分为基于翻译模型[9]和基于图神经网络[10]两类。翻译模型利用头尾实体和关系在空间中的平移不变性计算知识图谱实体和关系的嵌入表示。在应用于实体对齐时,首先通过翻译模型学习实体和关系在不同知识图谱中的嵌入,然后利用已有的实体对齐种子作为纽带将它们对齐到统一的向量空间。该方法不仅可以保留知识图谱的结构,而且可以隐式地利用现有知识中缺失的连接补全知识图谱。基于图神经网络的实体对齐方法[11]利用图卷积网络(Graph Convolutional Network,GCN)[12]增强实体与其邻居信息的嵌入,可以更好地利用实体对齐种子来传播相似信息到整个图,仅需少量对齐种子便能达到较好的效果。为了实现对关系的编码,研究人员进行大量研究并取得了一系列重要成果。SCHLICHTKRULL等[13]提出关系图卷积网络(Relational Graph Convolutional Network,R-GCN)模型,该模型通过为每种关系分配一个权重矩阵来建模多关系图。WU等[14]提出高速门图卷积网络模型(HGCN-JE),该模型利用少量的对齐实体种子学习的实体嵌入来近似关系表示。通过近似关系表示和初步实体嵌入相结合得到实体联合表示,进一步训练模型,取得了不错的实体对齐效果。
除了关系信息以外,属性信息同样重要,知识图谱中存在大量属性信息,对实体对齐效果产生重要影响。同时,现有的大部分基于图神经网络的实体对齐方法并不重视预测阶段的处理,通常仅计算单个方向的实体相似度排行矩阵,利用单一矩阵进行对齐预测,导致预测结果出现偏差。针对以上问题,借鉴在HGCN-JE模型中联合生成实体和关系向量的思想,并加入属性信息与双向对齐机制,本文提出一种融合属性信息的双向对齐图卷积网络模型(Bidirectional alignment Graph Convolutional Network with Attribution information,BiGCN-A)进行实体对齐,将属性信息融入到实体对齐中,并且在对齐预测阶段进行双向实体对齐以获得更高的对齐准确率。
1 相关工作 1.1 图神经网络近年来,由于图结构的强大表现力,利用机器学习方法分析图的研究越来越受到重视。图神经网络(Graph Neural Network,GNN)[10]是一类基于深度学习的图域信息处理方法,因较好的性能和可解释性,已成为一种被广泛应用的图分析方法。GCN是GNN的变体,是一种基于图操作的神经网络,它能高效地结合实体邻接节点信息,学习知识图谱的结构信息,对知识图谱进行编码。GCN对节点分类、关系抽取、语义角色标注等NLP问题均具有较好的应用效果。针对GCN无法编码关系信息的问题,研究人员进一步提出R-GCN,通过赋予每类关系一个权重矩阵编码关系信息,生成关系向量。图注意力(Graph Attention,GAT)网络[15]通过使用注意力机制对邻近节点特征加权求和,邻近节点特征的权重完全取决于节点特征,独立于图结构,在节点分类问题上取得了较好的效果。
1.2 跨语言实体对齐一些研究人员使用字符串相似性作为主要对齐方法,例如NGOMO等[16]使用三角不等式来计算实体相似性的近似值,通过计算相似度高的实体对的实际相似度,返回实际字符串相似度最高的实体对。随着知识表示学习技术的发展,众多翻译模型被应用于实体对齐。由于TransE的简单性和有效性,因此大量的实体对齐工作使用TransE模型完成。联合嵌入方法(JE)[17]将翻译模型应用在实体对齐中,通过学习不同知识图谱在统一向量空间中的嵌入,在该空间中执行实体对齐。多语言知识图谱嵌入方法(MTransE)[18]将两个知识图谱嵌入到独立的低维向量空间,通过对齐实体种子产生映射矩阵实现实体对齐。联合属性保持嵌入方法(JAPE)[19]将结构嵌入和属性嵌入相结合,匹配不同知识图谱中的实体,结构嵌入使用TransE模型,属性嵌入使用Skip-gram[20]模型。自举法(BootEA)[21]通过迭代增加实体对齐种子方法学习知识图谱的嵌入。多视图嵌入法(MultiKE)[22]将单个知识图谱分成名称、属性、关系3个视图,分别训练实体向量并将3个视图的实体向量相结合进行对齐。多映射关系法(MMR)[23]提出一种新的知识表示方法,通过重新定义能量函数弥补了TransE在编码复杂关系问题上的劣势,提高了实体对齐性能。虽然基于TransE的实体对齐方法在三元组层面的表示上具有不错的效果,但是全局结构表示不理想。随着图神经网络的发展,研究的主要方向转到利用图卷积网络进行实体对齐。图卷积法(GCN-Align)[11]通过图卷积网络编码实体和属性进行实体对齐。对偶关系图卷积法(RDGCN)[24]通过构建一个对偶关系图,与原始知识图谱之间相互交互,使编码关系信息进入实体。门控多阶邻居信息法(Alinet)[25]使用图卷积网络结合实体的一阶邻域,利用图注意力网络结合二阶邻域使实体的嵌入更有表达力,从而提升对齐效果。混合多角度信息法(HMAN)[26]通过多语言BERT模型计算实体的描述信息相似度并将其与实体的结构嵌入相结合,在对齐阶段取得了不错的效果。上述方法均采用了图卷积网络对知识图谱进行编码,为本文方法提供了可参考的思路,因此本文方法在HGCN-JE的基础上融入了属性信息。
2 融合属性信息的双向对齐图卷积网络模型在多语言知识图谱G中,使用L表示G所包含的语言的集合,使用
BiGCN-A模型整体框架如图 1所示。给定知识图谱
![]() |
Download:
|
图 1 BiGCN-A模型的整体框架 Fig. 1 Overall framework of the BiGCN-A model |
如图 1所示,将
$ {\boldsymbol{H}}^{\left(l+1\right)}=\phi \left({\tilde{\boldsymbol{D}}}^{-\frac{1}{2}}\tilde{\boldsymbol{A}}{\tilde{\boldsymbol{D}}}^{-\frac{1}{2}}{\boldsymbol{H}}^{\left(\mathrm{l}\right)}{\boldsymbol{W}}^{\left(\mathrm{l}\right)}\right) $ | (1) |
其中:
为控制跨层积累的噪声并保存从交互中学习到的有用的关系信息,按照RAHIMI等[28]提出的方法,在GCN层之间引入高速网络机制,具体如下:
$ \boldsymbol{T}\left({\boldsymbol{H}}^{\left(l\right)}\right)=\sigma \left({\boldsymbol{H}}^{\left(l\right)}{\boldsymbol{W}}_{\boldsymbol{T}}^{\left(l\right)}+{\boldsymbol{b}}_{\boldsymbol{T}}^{\left(l\right)}\right) $ | (2) |
$ {\boldsymbol{H}}^{\left(l+1\right)}=\boldsymbol{T}\left({\boldsymbol{H}}^{\left(l\right)}\right)\cdot {\boldsymbol{H}}^{\left(l+1\right)}+{\boldsymbol{H}}^{\left(l\right)}\cdot (1-\boldsymbol{T}({\boldsymbol{H}}^{\left(l\right)}\left)\right) $ | (3) |
式(1)为基本的GCN网络层结构。为了融入属性信息,将实体属性作为词袋特征进行显式建模。类似于One-Hot向量,构造基于计数的N-Hot向量
$ {\boldsymbol{S}}_{a}=\phi \left({\boldsymbol{W}}_{a}^{\left(1\right)}{\boldsymbol{X}}_{a}+{\boldsymbol{b}}_{a}^{\left(1\right)}\right) $ | (4) |
$ {\boldsymbol{T}}_{a}=\sigma \left({\boldsymbol{W}}_{a}^{t}{\boldsymbol{S}}_{a}+{\boldsymbol{b}}_{a}^{t}\right) $ | (5) |
$ {\boldsymbol{H}}_{\mathrm{f}}=\phi \left({\boldsymbol{W}}_{a}^{\left(2\right)}{\boldsymbol{S}}_{a}+{\boldsymbol{b}}_{a}^{\left(2\right)}\right)\cdot {\boldsymbol{T}}_{a}+{\boldsymbol{S}}_{a}\cdot \left(1-{\boldsymbol{T}}_{a}\right) $ | (6) |
其中:
训练阶段的目标是将跨语言实体嵌入到相同的低维向量空间中,在该空间中等价实体嵌入距离要尽量相近,非等价实体的嵌入距离要尽量远。给定两个知识图谱
$ L=\sum\limits _{(\boldsymbol{p}, \boldsymbol{q})\in \mathbb{L}}\sum\limits _{(\boldsymbol{p}', \boldsymbol{q}')\in {\mathbb{L}}'}\left[d\right(\boldsymbol{p}, \boldsymbol{q})+\gamma -d{(\boldsymbol{p}', \boldsymbol{q}')]}_{+} $ | (7) |
其中:
因为无法通过GCN直接得到关系向量,所以通过上节得到的实体嵌入近似来表示关系嵌入,用于构建联合实体表示向量。通过观察发现,一个关系连接的头实体和尾实体的统计信息能够在一定程度上反映关系的浅层语义信息,因此可以通过聚合实体表示近似得到关系表示。给定一个关系
将实体对齐预测问题看作排序问题,当
相似度排行矩阵实例如图 2所示,其中,图 2(a)为法语-英语方向相似度排行rank1,图 2(a)为英语-法语方向相似度排行rank2,数字表示排名,数字越小排名越靠前,实体名称均来自DBP FR-EN数据集。法语实体Pi.l.du.Br的对齐实体对应于英语实体Pe.I.Br。从法语-英语方向看,与法语实体Pi.l.du.Br相似度最高的是英语的Pe.I.Br,但是对于英语-法语方向的相似度排行而言,Pe.I.Br对应的英语Em.du.Br,Pi.l.du.Br排名为3,在对齐预测时如果只考虑一个方向的相似度排行矩阵错误可能性就会增大,不能够正确预测出对齐实体对Pi.l.du.Br和Pe.I.Br。综合两个相似度排行矩阵,将rank2的相似度矩阵进行转置,与rank1的相似度矩阵相加得到最终的排名,Pi.l.du.Br和Pe.I.Br的最终排名为2,Pe.I.Br在所有排名中最靠后(Pi.l.du.Br对于英语实体的相似度排名分别为2、8、4、3、4),从而正确预测出对齐实体。
![]() |
Download:
|
图 2 相似度排行矩阵实例 Fig. 2 Examples of similarity ranking matrixes |
采用DBP15K数据集进行测试,DBP15K数据集包含DBP ZH-EN(汉语-英语)、DBP FR-EN(法语-英语)和DBP JA-EN(日语-英语)3个跨语言的真实世界数据集,3个数据集的统计信息如表 1所示,其中每一个数据集都是通过抽取DBpedia多语言版本的15 000个对齐实体链接构建的。为了方便和之前的工作[14, 19]进行对比,使用30%的预对齐实体对作为训练数据,70%用于测试,使用Hits@k作为评价指标,即通过计算排名在相似度排名列表前k个中正确对齐的实体的比例来得到Hits@k分值。
![]() |
下载CSV 表 1 DBP15K数据集 Table 1 DBP15K dataset |
实验设置阈值
实验选取GCN-Align[11]、HGCN-JE[14]、JE[17]、MTransE[18]、JAPE[19]、HMAN[26]等6种主流的图嵌入方法与本文BiGCN-A模型进行比较,实验结果如表 2所示,其中:JE、MTransE和JAPE是基于翻译模型进行实体对齐;GCN-Align、HGCN-JE和HMAN是基于GCN进行实体对齐,均属于跨语言实体对齐的SOTA方法,GCN-Align方法使用属性信息,通过GCN将属性信息与结构信息进行聚合,由于BERT模型对于知识图谱嵌入方面效果不好,因此实验未涉及与基于BERT的实体对齐方法的比较。
![]() |
下载CSV 表 2 与其他图嵌入方法的实体对齐结果对比 Table 2 Comparison of entity alignment results with other graph embedding methods |
在表 2中,HMAN方法中的结果保留小数点后1位,为了更好对比,用0补全到小数点后2位。由表 2可以看出:1)通过捕获丰富的相邻结构信息,基于GCN的实体对齐方法在Hits@1上的性能优于基于翻译的实体对齐方法,在Hits@10上的性能优于MTransE和JE方法;2)HMAN使用知识图谱中实体的描述信息,相较其他未使用实体名称嵌入的向量作为实体初始化嵌入的方法,在所有数据集上都取得了最优结果;3)HGCN-JE方法因为使用高速网络的GCN并融入关系信息,同时利用实体名称嵌入的向量作为实体初始化嵌入,在所有数据集上的效果明显优于HMAN方法;4)BiGCN-A模型因为使用了实体初始化嵌入以及属性信息并在对齐预测阶段使用双向对齐机制,所以在所有数据集上的效果均达到最优,特别是在DBP ZH-EN数据集上Hit@1比HGCN-JE提升了4.24个百分点;5)BiGCN-A模型在DBP ZH-EN数据集和DBP JA-EN数据集上有大幅的性能提升,即使在效果已经非常好的DBP FR-EN数据集上仍有小幅的性能提升,这充分验证了其有效性。
3.2.2 消融实验为验证属性信息和双向对齐机制的有效性,将BiGCN-A模型与只使用属性信息的GCN-A模型和只使用双向对齐的BiGCN模型进行对比,实验结果如表 3所示。由表 3可以看出,相较GCN-A模型和BiGCN模型,除了DBP FR-EN数据集之外,BiGCN-A模型均达到了最优的效果,这证明了属性信息结合双向对齐机制的有效性。与不使用属性信息的BiGCN模型相比,BiGCN-A模型在DBP ZH-EN、DBP JA-EN数据集上效果均有所提升,这表明添加属性信息是非常有效的。因为相似的实体倾向于拥有相似的属性,增加了属性信息,丰富了实体嵌入的要素,效果自然会有提升。但是观察到在DBP FR-EN数据集上增加属性信息效果会略微下降,这是因为输入实体嵌入的初始化是先通过谷歌翻译器得到英文实体,再使用训练好的词向量对实体特征初始化,而法英语言比较接近,翻译错误率小,得到的实体的初始化特征好,当拼接融入属性的实体特征时,反而使得相似度下降,导致结果略微下降。因此,只使用属性信息的GCN-A模型效果劣于只使用双向对齐机制的BiGCN模型,更劣于结合属性信息和双向对齐机制的BiGCN-A模型。实体对齐仅考虑一个方向会忽略实体分布的差异,对实体对齐结果造成误导,而两个方向的相似度排行相互叠加可以中和实体分布差异,减少对实体对齐的影响。
![]() |
下载CSV 表 3 基于属性信息和双向对齐的实体对齐结果对比 Table 3 Comparison of entity alignment results based on attribute information and bidirectional alignment |
为探究对齐种子比率对实体对齐效果的影响,分别按照10%、20%、30%、40%、50%的对齐种子比率划分训练集,并与不同对齐种子比率的JAPE、GCN-Align方法进行对比,结果如图 3所示。由图 3可以看出,BiGCN-A模型在不同的对齐种子比率和数据集下的表现均远优于JAPE与GCN-Align方法,在仅有10%的对齐种子比率作为训练集时Hits@1仍能达到67.99%(DBP ZH-EN数据集)、74.73%(DBP JA-EN数据集)、87.56%(DBP FR-EN数据集),远优于另外两种方法在有50%的对齐种子比率作为训练集时的结果。可见,BiGCN-A模型对于对齐种子比率的变化不敏感,具有较强的鲁棒性。
![]() |
Download:
|
图 3 不同对齐种子比率对实体对齐效果的影响 Fig. 3 Effect of different alignment seed ratios on entity alignment effect |
本文提出一种基于BiGCN-A模型的跨语言实体对齐方法,通过实体属性的相似性提高实体对齐的准确率,利用双向对齐机制求得两个方向的相似度排行矩阵并进行融合,得到最终的相似度排行矩阵,实现跨语言实体对齐的预测。在DBP15K数据集上的实验结果表明,基于BiGCN-A模型的实体对齐方法整体性能优于目前主流的基于图嵌入的实体对齐方法。后续将尝试引入知识图谱中的实体描述等信息来进一步提高实体对齐的准确率。另外,BiGCN-A模型在初始化向量时通过谷歌翻译器得到实体的英文表示,其中可能存在一些翻译错误,这也是下一步工作的重点方向。
[1] |
YANG B S, MITCHELL T. Leveraging knowledge bases in LSTMs for improving machine reading[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2017: 1436-1446.
|
[2] |
MOUSSALLEM D, WAUER M, NGOMO A C N. Machine translation using semantic web technologies: a survey[J]. Journal of Web Semantics, 2018, 51: 1-19. |
[3] |
ZHANG F Z, YUAN N J, LIAN D F, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2016: 353-362.
|
[4] |
ZHANG Y Y, DAI H J, KOZAREVA Z, et al. Variational reasoning for question answering with knowledge graph[EB/OL]. [2020-12-07]. http://arxiv.org/abs/1709.04071v1.
|
[5] |
BIZER C, LEHMANN J, KOBILAROV G, et al. DBpedia-a crystallization point for the Web of data[J]. Journal of Web Semantics, 2009, 7(3): 154-165. DOI:10.1016/j.websem.2009.07.002 |
[6] |
SUCHANEK F M, KASNECI G, WEIKUM G. YAGO: a large ontology from Wikipedia and WordNet[J]. Journal of Web Semantics, 2008, 6(3): 203-217. DOI:10.1016/j.websem.2008.06.001 |
[7] |
REBELE T, SUCHANEK F, HOFFART J, et al. YAGO: a multilingual knowledge base from Wikipedia, WordNet, and GeoNames[C]//Proceedings of International Semantic Web Conference. Berlin, Germany: Springer, 2016: 177-185.
|
[8] |
NAVIGLI R, PONZETTO S P. BabelNet: the automatic construction, evaluation and application of a wide-coverage multilingual semantic network[J]. Artificial Intelligence, 2012, 193: 217-250. DOI:10.1016/j.artint.2012.07.001 |
[9] |
BORDES A, USUNIER N, GARCIADURAN A, et al. Translating embeddings for modeling multi-relational data[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2013: 2787-2795.
|
[10] |
SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2009, 20(1): 61-80. DOI:10.1109/TNN.2008.2005605 |
[11] |
WANG Z C, LÜ Q, LAN X H, et al. Cross-lingual knowledge graph alignment via graph convolutional networks[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2018: 349-357.
|
[12] |
KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. [2020-12-07]. https://arxiv.org/abs/1609.02907.
|
[13] |
SCHLICHTKRULL M S, KIPF T, BLOEM P, et al. Modeling relational data with graph convolutional networks[C]//Proceedings of European Semantic Web Conference. Berlin, Germany: Springer, 2018: 593-607.
|
[14] |
WU Y T, LIU X, FENG Y S, et al. Jointly learning entity and relation representations for entity alignment[C]//Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2019: 240-249.
|
[15] |
VELIČKOVIĆ P, CUCURULL G, CASANOVA A, et al. Graph attention networks[EB/OL]. [2020-12-07]. http://arxiv.org/pdf/1710.10903.
|
[16] |
NGOMO A N, AUER S. LIMES: a time-efficient approach for large-scale link discovery on the Web of data[C]//Proceedings of International Joint Conference on Artificial Intelligence. New York, USA: ACM Press, 2011: 2312-2317.
|
[17] |
HAO Y C, ZHANG Y Z, HE S Z, et al. A joint embedding method for entity alignment of knowledge bases[M]. Berlin, Germany: Springer, 2016: 3-14.
|
[18] |
CHEN M H, TIAN Y T, YANG M H, et al. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment[C]//Proceedings of International Joint Conference on Artificial Intelligence. Berlin, Germany: Springer, 2017: 1511-1517.
|
[19] |
SUN Z Q, HU W, LI C K. Cross-lingual entity alignment via joint attribute-preserving embedding[C]//Proceedings of International Semantic Web Conference. Berlin, Germany: Springer, 2017: 628-644.
|
[20] |
MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. [2020-12-07]. http://arxiv.org/abs/1301.3781.
|
[21] |
SUN Z Q, HU W, ZHANG Q H, et al. Bootstrapping entity alignment with knowledge graph embedding[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Berlin, Germany: Springer, 2018: 4396-4402.
|
[22] |
ZHANG Q H, SUN Z Q, HU W, et al. Multi-view knowledge graph embedding for entity alignment[EB/OL]. [2020-12-07]. http://arxiv.org/abs/1906.02390v1.
|
[23] |
SHI X F, XIAO Y H. Modeling multi-mapping relations for precise cross-lingual entity alignment[C]//Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2019: 813-822.
|
[24] |
WU Y T, LIU X, FENG Y S, et al. Relation-aware entity alignment for heterogeneous knowledge graphs[EB/OL]. [2020-12-07]. https://arxiv.org/abs/1908.08210.
|
[25] |
SUN Z Q, WANG C M, HU W, et al. Knowledge graph alignment network with gated multi-hop neighborhood aggregation[C]//Proceedings of 2020 AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2020: 222-229.
|
[26] |
YANG H W, ZOU Y Y, SHI P, et al. Aligning cross-lingual entities with multi-aspect information[C]//Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2019: 4430-4440.
|
[27] |
SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks[EB/OL]. [2020-12-07]. https://zhuanlan.zhihu.com/p/38130339.
|
[28] |
RAHIMI A, COHN T, BALDWIN T. Semi-supervised user geolocation via graph convolutional networks[EB/OL]. [2020-12-07]. https://arxiv.org/abs/1804.08049.
|