一种融合主题特征的自适应知识表示方法

引用本文

陈文杰. 一种融合主题特征的自适应知识表示方法[J]. 计算机工程, 2021, 47(1), 87-93, 100. DOI: 10.19678/j.issn.1000-3428.0056688.

CHEN Wenjie. An Adaptive Approach for Knowledge Representation Fused with Topic Feature[J]. Computer Engineering, 2021, 47(1), 87-93, 100. DOI: 10.19678/j.issn.1000-3428.0056688.

基金项目

中国科学院“十三五”信息化专项（XXH13506）

作者简介

陈文杰(1990—), 男, 助理馆员、硕士, 主研方向为表示学习、知识图谱

文章历史

收稿日期：2019-11-25
修回日期：2020-01-14

Contents Abstract Full text Figures/Tables PDF

一种融合主题特征的自适应知识表示方法

陈文杰

中国科学院成都文献情报中心, 成都 610041

收稿日期：2019-11-25；修回日期：2020-01-14

基金项目：中国科学院“十三五”信息化专项（XXH13506）

作者简介：陈文杰(1990—), 男, 助理馆员、硕士, 主研方向为表示学习、知识图谱.

E-mail: chenwj@clas.ac.cn

摘要：基于翻译的表示学习模型TransE被提出后，研究者提出一系列模型对其进行改进和补充，如TransH、TransG、TransR等。然而，这类模型往往孤立学习三元组信息，忽略了实体和关系相关的描述文本和类别信息。基于主题特征构建TransATopic模型，在学习三元组的同时融合关系中的描述文本信息，以增强知识图谱的表示效果。采用基于主题模型和变分自编器的关系向量构建方法，根据关系上的主题分布信息将同一关系表示为不同的实值向量，同时将损失函数中的距离度量由欧式距离改进为马氏距离，从而实现向量不同维权重的自适应赋值。实验结果表明，在应用于链路预测和三元组分类等任务时，TransATopic模型的MeanRank、HITS@5和HITS@10指标较TransE模型均有显著改进。

An Adaptive Approach for Knowledge Representation Fused with Topic Feature

CHEN Wenjie

Chengdu Library and Information Center, Chinese Academy of Science, Chengdu 610041, China

Abstract: Since the emergence of the translation-based representation learning model, TransE, a series of models such as TransH, TransG and TransR have been proposed to improve and add functions to TransE.However, such models tend to learn triplet information in isolation, and ignore the descriptive text and category information related to entities and relations.Therefore, this paper fuses descriptive text information of relations while learning triples, and constructs the TransATopic model based on topic features to enhance the representation effect of the knowledge graph.The relation vector construction method based on the topic model and Variational Autoencoder(VAE) is used to map one relation to different real-valued vectors according to topic distribution information of relations.At the same time, the distance metric in the loss function is improved from Euclidean distance to a more flexible Mahalanobis distance, which realizes the adaptive assignment of vector weights in different dimensions.Experimental results show that when applied to link prediction and triple classification tasks, TransATopic's indicators including MeanRank, HITS@5 and HITS@10 are significantly improved compared with the TransE model.

0 概述

知识图谱是由三元组构成的结构化语义知识库，其以符号的形式描述现实世界中实体和实体间的连接关系。知识表示学习旨在用低维稠密的向量来表示知识图谱中的实体或关系，向量间距离越近，则向量所表示的实体和关系在语义上就越相似。这种基于向量的知识表示形式能够通过简单的数值计算来识别新的实体和关系，从而发现知识图谱中的潜在知识和隐性假设，并且可以作为一种先验知识输入深度神经网络，有效监督和约束网络的训练过程。

按照关系两端实体的连接数量，可以将关系划分为1-1、1-N、N-1和N-N 4种类型，其中，除1-1以外的3种关系都被称为复杂关系。在现有的表示模型中，TransE模型最具代表性，但该模型过于简单，仅在1-1简单关系上效果明显。针对复杂关系，一系列基于TransE的扩展模型先后被研究者提出。然而，此类模型仅通过知识图谱中的三元组信息进行学习，大量与实体和关系相关的信息未能得到有效利用，如实体和关系的描述信息和类别信息等，而这些多源异构的信息可以缓解数据稀疏问题，提升模型对于复杂关系的建模能力^[1]。

为有效利用实体的描述信息，文献[2]提出DKLR模型。该模型利用连续词袋（Continuous Bag of Words，CBOW）模型和卷积神经网络（Convolutional Neural Network，CNN）模型将描述文本转换为实体的表示向量，并将其用于TransE模型的训练中，有效地增强了实体的区分度^[2]。目前关于关系描述信息处理的研究较少。事实上，知识图谱中实体和实体之间存在大量的交互信息，例如：社交工具上用户之间存在着大量的交谈、评论、留言和转发等文本信息；图书情报领域中作者间的合作关系包含论文标题、关键词和摘要等详细信息。因此，如何充分利用关系上丰富的语义信息实现知识表示学习，具有广阔的研究前景。

本文提出一种融合主题特征的自适应知识图谱表示方法，即TransATopic模型。利用潜在狄利克雷分布（Latent Dirichlet Allocation，LDA）主题模型挖掘关系以描述文本中隐含的主题信息，基于变分自编码器（Variational Autoencoder，VAE）构建关系向量。在此基础上，通过引入对角矩阵将损失函数的度量由欧式距离改进为马氏距离，从而增强距离度量的灵活性。

1 相关工作

为更好地描述相应的算法模型，本文给出相关的定义和符号表示。给定任意一个三元组（h，r，t），其中，h表示头实体，r表示关系，t表示尾实体。V_h、V_r和V_t为三元组每个元素对应的表示向量，S为知识图谱中的三元组集，S'为三元组的负采样集。若（h，r，t）∈S，则表示（h，r，t）是正三元组；若（h，r，t）∈S'，则表示（h，r，t）为负三元组。同时，以E表示实体集，R表示关系集。

受词向量间的平移现象启发，BORDES等人提出了TransE模型^[3]。该模型将关系r对应的向量V_r作为头实体向量V_h和尾实体向量V_t间的平移向量。由于V_r也可以视为从V_h到V_t的翻译，因此TransE通常被称为基于翻译的模型。对于每一个三元组（h，r，t），TransE的目的是使V_h+V_r≈V_t，因此，定义如下损失函数：

$ d\left( {h + r, t} \right) = {\left| {{\mathit{\boldsymbol{V}}_h} + {\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}} \right|_{{{\rm{L}}_{\rm{1}}}{\rm{/}}{{\rm{L}}_{\rm{2}}}}} $

该函数值即表示向量V_h+V_r和V_t之间的L₁或L₂距离。在实际的训练过程中，TransE采用最大间隔法来增强知识表示的区分能力。

为解决TransE模型处理复杂关系时的局限性问题，基于翻译的Trans系列模型在TransE的基础上进行了改进和补充，其中一类有效的改进是令每个实体在不同的关系下拥有多个向量表示。TransH^[4]通过引入关系相关的超平面W_r将实体映射到超平面上：

$ {\mathit{\boldsymbol{V}}_\mathit{h}}^\prime = {\mathit{\boldsymbol{V}}_h} - {\mathit{\boldsymbol{W}}^T}_r{\mathit{\boldsymbol{V}}_h}{\mathit{\boldsymbol{W}}_r}, {\mathit{\boldsymbol{V}}_\mathit{t}}^\prime = {\mathit{\boldsymbol{V}}_t} - {\mathit{\boldsymbol{W}}^T}_r{\mathit{\boldsymbol{V}}_t}{\mathit{\boldsymbol{W}}_r} $

StransH^[5]结合了SE模型和TransH模型，一方面将头尾实体映射到关系对应的超平面上，另一方面利用单层神经网络增强实体和关系间的语义关系。PtransW^[6]则利用关系路径和关系类型的语义信息对TransH进行了扩展。

TransR^[7]和TransH类似，假设不同关系拥有不同的语义空间，定义了映射矩阵M_r，将实体映射到关系对应的语义空间中：

$ {\mathit{\boldsymbol{V}}_\mathit{h}}^\prime = {\mathit{\boldsymbol{M}}_\mathit{r}}{\mathit{\boldsymbol{V}}_\mathit{h}}, {\mathit{\boldsymbol{V}}_\mathit{t}}^\prime = {\mathit{\boldsymbol{M}}_\mathit{r}}{\mathit{\boldsymbol{V}}_\mathit{t}} $

TransRD^[8]利用非对等转换矩阵分别对头实体和尾实体进行映射，并在模型训练中采用AdaDelta算法自适应调整学习率。文献[9]利用卷积神经网络编码实体的描述文本得到实体的表示，并使用不同的低秩矩阵对实体进行映射。文献[10]同样采用卷积神经网络编码实体的描述文本，通过注意力机制筛选文本中的有效信息，并引入位置信息和门机制得到最终的表示向量。

TransR具有较强的复杂关系建模能力，但由于其为每个关系引入映射矩阵，因此导致参数过多，大幅增加了模型的复杂度。为简化模型，TransD^[11]将映射矩阵M_r分解为2个映射向量的乘积，定义（h，r，t）对应的映射向量为M_h、M_r和M_t，得到：

$ {\mathit{\boldsymbol{V}}_\mathit{h}}^\prime = \left( {{\mathit{\boldsymbol{W}}_r}\mathit{\boldsymbol{W}}_h^{\rm{T}} + \mathit{\boldsymbol{I}}} \right){\mathit{\boldsymbol{V}}_h}, {\mathit{\boldsymbol{V}}_\mathit{t}}^\prime = \left( {{\mathit{\boldsymbol{W}}_r}\mathit{\boldsymbol{W}}_t^{\rm{T}} + \mathit{\boldsymbol{I}}} \right){\mathit{\boldsymbol{V}}_t} $

文献[12]在TransD模型的基础上，联合了图像和文本等多模态数据。TransParse^[13]使用稀疏矩阵来代替稠密的映射矩阵M_r，其中稀疏度θ_r由关系r连接的实体数量决定：

$ {\mathit{\boldsymbol{V}}_\mathit{h}}^\prime = {\mathit{\boldsymbol{M}}_\mathit{r}}\left( {{\theta _r}} \right){\mathit{\boldsymbol{V}}_\mathit{h}}, {\mathit{\boldsymbol{V}}_\mathit{t}}^\prime = {\mathit{\boldsymbol{M}}_\mathit{r}}\left( {{\theta _r}} \right){\mathit{\boldsymbol{V}}_\mathit{t}} $

不同于实体映射方法，另一类改进TransE的策略是放宽V_h+V_r≈V_t这一约束条件。TransM^[14]为每个三元组（h，r，t）赋予一个关系相关的权值θ_r，定义如下损失函数：

$ d\left( {h + r, t} \right) = {\theta _r}{\left| {{\mathit{\boldsymbol{V}}_h} + {\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}} \right|_{{{\rm{L}}_{\rm{1}}}{\rm{/}}{{\rm{L}}_{\rm{2}}}}} $

当r属于复杂关系时该函数中的权值较低，使得V_t在空间上离V_h+V_r更远。ManifoldM^[15]则是令三元组满足|V_h+V_r-V_t|_L₁/L₂≈θ_r²，使得V_t靠近以θ_r为半径的流形区域。TransF^[16]要求向量V_t与向量V_h+V_r方向相同，同时V_h与V_t-V_r也具有相同的方向，定义如下损失函数：

$ d\left( {h + r, t} \right) = {\left( {{\mathit{\boldsymbol{V}}_h} + {\mathit{\boldsymbol{V}}_r}} \right)^T}{\left( {{\mathit{\boldsymbol{V}}_t} - {\mathit{\boldsymbol{V}}_r}} \right)^T}{\mathit{\boldsymbol{V}}_h} $

TransA^[17]增加了一个非负的权重矩阵W_r，其为每一维学习不同的权重，在处理复杂关系时更为灵活。TransAH^[18]融合了TransA和TransH两个模型，其在各项实验指标上取得了很大进步。TransE-SNS^[19]基于K-means算法对实体进行聚类，然后在负采样过程中从目标实体所在的簇中随机选择一个实体来替换目标实体，从而改善了负三元组集的质量。TCSF^[20]则在知识表示中融合了关系的先验概率、三元组距离和实体与关系上下文的拟合度等多种特征。

同一关系的语义在不同的实体间可能存在差异，如不同作者间合作的论文通常不同。因此，实体间的关系具有动态性和复杂性，仅通过单个向量无法准确地表示关系。TransG^[21]模型假设一个关系可能包含多种语义，对每种语义使用一个高斯分布来刻画，其中某些关系还可以被更细致地划分，如FreeBase中的“/location/contains”关系可以用来表示国家包含某城市、国家包含某所大学或省包含某城市。CTransR^[7]通过对头实体和尾实体的差值V_h-V_t进行聚类，将关系细分为多个子关系，分别用向量表示每个子关系。

2 TransATopic知识表示方法

本节介绍一种基于主题特征的自适应知识图谱表示方法，分别采用基于主题模型和变分自编器的关系向量构建方法与自适应度量方法解决复杂关系建模问题，并将两个方法融合在所构建的TransATopic模型中，实现模型的快速训练和计算。

2.1 基于主题模型和变分自编器的关系向量构建

TransE模型采用一种朴素的优化方法，即使V_h+V_r-V_t=0，根据优化规则可以得到以下结果：

1）若（h，r_i，t）∈S，i∈{0，1，…，n}，可推得V_r₀=V_r₁=…=V_{r_n}。

2）若（h_i，r，t）∈S，i∈{0，1，…，m}，此时r是1-N关系，可推得V_h₀=V_h₁=…=V_{h_m}。同理，如果r是N-1关系，则存在三元组（h，r，t_i）∈S，可推得V_t₀=V_t₁=…=V_{t_m}。

TransE等基于翻译的模型往往把关系看作简单的实值向量，忽略了关系上丰富的文本信息，因而难以处理复杂关系。LDA主题模型是一种非监督模型，能够用来识别大规模文本集中隐含的主题信息，被广泛应用于文本分类和自动摘要等文本分析任务中^[22]。基于此，本文考虑利用LDA主题模型抽取关系描述文本中潜在的主题特征，并基于主题特征构建关系向量。LDA训练后会生成两个分布，即文本-主题概率分布θ和主题-词概率分布φ，如表 1和表 2所示。表 1反映每个文本在各个主题上的分布概率，表 2则反映每个词在各个主题中的权重。如果直接将关系描述文本d对应的主题概率分布θ_d作为关系向量，此时θ_d中主题的个数必须与表示向量的维数相同，且θ_d中每一维的值（主题出现的概率）都为正，势必影响知识表示的灵活性和可推理性。

下载CSV 表 1 文本-主题概率分布 Table 1 Document-topic probability distribution

下载CSV 表 2 主题-词概率分布 Table 2 Topic-word probability distribution

本文采用变分自编码器（VAE）^[23]建模主题分布特征，以无监督的方式构造关系向量，VAE的结构如图 1所示。其中，编码器的输入为x，输出为变分分布q(z|x；φ)，z是潜在向量，φ是推断网络的参数。解码器的输入为z，输出为概率分布p(x|z；ω)，ω是生成网络的参数。令x=θ_d，潜在向量z即为构造的关系向量。

	Download: JPG larger image
图 1 变分自编码器示意图 Fig. 1 Schematic diagram of VAE

VAE假设q(z|x；φ)服从对角化协方差的正态分布，即q(z|x；φ)=N(z；μ_E，σ_E²)。因此，编码器由以下两层神经网络构成：

$ \mathit{\boldsymbol{h}} = {\rm{sigmoid}}\left( {{\mathit{\boldsymbol{W}}^{\left( 1 \right)}}x + {\mathit{\boldsymbol{b}}^{\left( 1 \right)}}} \right) $

$ {\mathit{\boldsymbol{\mu }}_E} = {\mathit{\boldsymbol{W}}^{\left( 2 \right)}}h + {\mathit{\boldsymbol{b}}^{\left( 2 \right)}} $

$ {\mathit{\boldsymbol{\sigma }}_E} = {\rm{softplus}}\left( {{\mathit{\boldsymbol{W}}^{\left( 3 \right)}}h + {\mathit{\boldsymbol{b}}^{\left( 3 \right)}}} \right) $

其中，W^（1）、W^（2）、W^（3）和b^（1）、b^（2）、b^（3）构成推断网络的参数φ，sigmoid和softplus是激活函数。在解码器中，VAE假设p(x|z；ω)同样服从对角化协方差的正态分布，即p(x|z；ω)=N(z；μ_D，σ_D²)，μ_D和σ_D由解码器预测得到。

VAE的误差包括重构误差和KL-散度误差，总体目标函数如下：

$ \max E\left[ {\ln p\left( {{\bf{x}}|{\bf{z}};{\bf{ \pmb{\mathsf{ ω}} }}} \right)} \right] - {D_{KL}}\left( {q\left( {{\bf{z}}|{\bf{x}};\mathit{\boldsymbol{\varphi }}} \right)||p\left( {{\bf{z}};{\bf{ \pmb{\mathsf{ ω}} }}} \right)} \right) $

其中，先验分布p(z；ω)=N（z | 0，I）。VAE通过“再参数化”采样得到潜在向量，令z= μ_E+σ_E☉ε，将从正态分布N（μ_E，σ_E²）采样转换为标准正态分布N（0，I）采样，从而保证模型的训练效率。

传统基于翻译的表示模型实体区分效果如图 2（a）所示，由于模型没有对关系r进行主题识别，导致r的所有语义混在一起，因此无法对多个实体进行有效区分。假设：三元组（h，r，t_i）中关系描述文档为d₁，其中i∈{1，2，3}；三元组（h，r，t_i）中关系描述文档为d₂，其中i∈{4，5，6，7}。本文将θ_d₁和θ_d₂输入VAE中，得到关系向量V_d₁和V_d₂，根据不同的描述文本，将同一关系表示为不同向量，从而有效地区分出白色实体和灰色实体，提高了知识表示的准确度，如图 2（b）所示。

	Download: JPG larger image
图 2 传统模型与TransATopic模型的实体区分效果 Fig. 2 Comparison of entity discrimiation effects by traditional model and TransATopic model

2.2 自适应度量方法

为有效处理复杂关系，一系列模型在TransE的基础上进行了改进和补充，如TransH、TransR和TransD。这类翻译模型通常根据不同的规则对实体向量进行转换，但采用同样的损失函数：

$ d\left( {h + r, t} \right) = {\left( {{\mathit{\boldsymbol{V}}_h} + {\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}} \right)^T}\left( {{\mathit{\boldsymbol{V}}_h}\mathit{\boldsymbol{ + }}{\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}} \right) $

由上式可知，损失函数采用欧式距离度量向量间的差异。由于在欧式距离度量中所有特征维度权重相同，灵活性不够，导致知识表示能力较差，因此通常考虑引入权重矩阵将欧式距离替换为自适应的马氏距离，为每一维学习不同的权重^[17]。对损失函数改进如下：

$ d\left( {h + r, t} \right) = {\left( {\mathit{\boldsymbol{|}}{\mathit{\boldsymbol{V}}_h} + {\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}|} \right)^T}{\mathit{\boldsymbol{W}}_r}\left( {\mathit{\boldsymbol{|}}{\mathit{\boldsymbol{V}}_h}\mathit{\boldsymbol{ + }}{\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}|} \right) $

$ {\mathit{\boldsymbol{W}}_r} = {\rm{diag}}\left( {{w_1}, {w_2}, \cdots , {w_n}} \right) $

其中，|V_h+V_r-V_t|=(|V_h¹+V_r¹-V_t¹|，|V_h²+V_r²-V_t²|，…，|V_hⁿ+V_rⁿ-V_tⁿ|)，n是向量的维数，W_r是一个与关系r相关的非负对角矩阵，w_i反映向量第i维的重要性，0 < i < n。通过权重矩阵W_r可以为向量每一维赋予一个合理的自适应权值。如图 3所示，灰色三角形表示匹配正确的实体，白色三角形表示错误的实体，黑色箭头表示实体间的关系subtype_of。（h，subtype_of，t）表示实体h是实体t的一个子类型。在图 3（a）采用欧式距离的模型中，由于x轴和y轴所表示的两个维度权重相同，因此导致尾实体无法正确匹配。在图 3（b）采用马式距离的模型中，通过调整x轴和y轴的权重，知识表示得以优化，从而正确匹配到尾实体。

	Download: JPG larger image
图 3 欧式距离度量与马氏距离度量效果比较 Fig. 3 Comparison of distance measurement effects by Euclidean distance and Mahalanobis distance

2.3 TransATopic模型架构与训练

将基于主题模型和变分自编器的关系向量构建方法与自适应度量方法进行融合，用一个统一的模型TransATopic来表示，如图 4所示。

	Download: JPG larger image
图 4 TransATopic模型整体架构 Fig. 4 Overall architecture of TransATopic model

该模型整体的损失函数如下：

$ d\left( {h + r, t} \right) = {\left( {\left| {{\mathit{\boldsymbol{V}}_h} + {\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}} \right|} \right)^T}{\mathit{\boldsymbol{W}}_r}\left( {\left| {{\mathit{\boldsymbol{V}}_h} + {\mathit{\boldsymbol{V}}_r} - {\mathit{\boldsymbol{V}}_t}} \right|} \right) $

其中，d是关系r上的描述文本，Z_d是VAE构建的关系向量。在实际的模型训练过程中，TransATopic与TransE一样采用最大间隔法来增强知识表示的区分能力，其目标函数如下：

$ \min \sum\limits_{\left( {h,r,t} \right) \in S} {\sum\limits_{\left( {h',r,t'} \right) \in S'\left( {h,r,t} \right)} {{{\left[ {m + d\left( {h + r,t} \right) - d\left( {h' + r,t'} \right)} \right]}_ + }} } $

其中，[x]₊表示正值函数，m表示间隔距离，S'（h，r，t）是三元组（h，r，t）的负采样集。通过将h和t替换为实体集中随机选择的某个实体，得到：

$ S'\left( {h, r, t} \right) = \{ \left( {h', r, t} \right)|\mathit{h'} \in \mathit{E}\} \bigcup {\{ \left( {h, r, t'} \right)|\mathit{t}' \in \mathit{E}\} } $

该目标函数的主要目的是最大化正三元组与负三元组间的距离。

在模型的具体训练过程中，采用随机梯度下降法来优化目标函数，通过计算梯度实现向量和参数的自动更新，如算法1所示。

算法1 TransATopic训练算法

输入三元组集S，向量长度n，间距m，学习率η，主题个数k，关系描述文本集D

输出实体和关系的表示向量V

1.初始化表示向量V和权重矩阵W

2.θ=LDA（D，k）

3.Z=VAE（θ）

4.for each epoch∈epochs do

5.S_batch=random（S，b）

6.for each（h，r，t）∈S_batch do

7.d=text（r）

8.V_r=Z_d

9.for each（h'，r，t'）∈S'_（h_，r_，t_）

10.L=m+d（h+r，t）-d（h'+r，t'）

11.V_h：=V_h+η*∂L/∂V_h

12.V_t：=V_t+η*∂L/∂V_t

13.W_r：=W_r+η*∂L/∂W_r

14.end for

15.end for

16.end for

该训练算法将三元组集和关系的描述文本集作为输入，首先利用LDA主题模型生成文本-主题概率分布θ，然后将主题分布特征输入变分自编码器中得到编码矩阵Z，最后进行迭代训练：从三元组集S中随机选取小批量三元组得到S_batch，其中每个三元组（h，r，t）从Z中获取对应的关系向量V_r并生成一个负采样集S'_(h，r，t)；计算一对正负三元组的距离L，并计算梯度更新实体向量和权重矩阵（算法第11行~第13行）。假设迭代训练了p次，批量的大小为b，每次负采样K个三元组，则迭代训练部分的时间复杂度为O（pbk）。迭代训练中的参数是表示向量和权重对角矩阵，假设向量的长度为n，则参数复杂度为O（|S|n）。

3 实验验证

本文采用Arnet-S、Arnet-M、FB13和FB15K数据集验证TransATopic的有效性。ArnetMiner^[24]是一个提供基于社交网络的搜索和挖掘服务的学术网站，其中发布了一个包含1 712 433名作者、2 092 356篇论文和4 258 615种合作关系的数据集。本文将作者作为实体，合作论文的标题和摘要作为关系的描述文本，从ArnetMiner中抽取出两个不同规模的数据集Arnet-S和Arnet-M^[25]。FB13和FB15K均是Freebase的子集，其中，FB13包含13种关系，FB15K包含1 345种关系，本文将维基百科作为语料集抽取出每个关系对应的描述文本^[26]。实验数据集的详细信息如表 3所示。

下载CSV 表 3 实验数据集描述 Table 3 Description of datasets for experiment

本文基于ArnetMiner和Freebase的子数据集，针对链接预测和三元组分类任务进行实验，从不同的角度评估模型预测能力和精确度。由于TransATopic模型的效果受数据规模和参数设定等因素影响，因此分别在不同因素设定下进行测试。为分析TransATopic的实验效果，选择以下两类不同的模型进行比较：1）基于TransE的距离模型，以TransH、TransA和TransG为代表；2）基于随机游走策略的表示模型，通常用于学习网络的结构特征。第1类模型已在上文相关工作中详细介绍，不再赘述。第2类模型介绍如下：

1）DeepWalk通过随机游走构造节点和边的序列，将序列视为一种特殊的“上下文”，利用skip-gram模型将节点和边转换为表示向量。

2）Node2vec是DeepWalk的扩展，其通过超参数控制随机游走的广度和深度，使得节点和边的表示既包括局部网络结构特征，又包括更深层的全局结构信息。

3.1 链路预测

对于一个三元组（h，r，t），链路预测的主要任务是给定（h，r）预测t或给定（r，t）预测h，从而评估模型预测实体的能力。本组实验将Arnet-S和FB15K作为数据集，采用与TransE相同的评价指标，即MeanRank和HITS@k，以便与TransE等现有模型进行比较。其中，MeanRank表示测试集中三元组的平均排序得分，HITS@k表示排序不超过k的三元组在测试集中所占的百分比。MeanRank的值越小或HITS@k的比例越高，表明实验结果越好。排序的计算过程如下：

1）对于测试集中的一个正确三元组（h，r，t），随机丢弃头实体h或尾实体t，得到不完整三元组（r，t）或（h，r）。

2）从实体集中随机选择一个实体，补全不完整三元组，得到错误三元组（h'，r，t）或（h，r，t'）。重复此过程多次，得到负采样集。

3）利用损失函数d（h+r，t）计算正确三元组和负采样集中三元组的值，并对结果进行排序。

需要注意的是，由于不完整三元组补全后可能恰好与知识图谱中某个正确三元组相同，负采样集和训练集、测试集存在交集，这个交集会干扰三元组的排序值，因此，在生成负采样集时需要过滤掉该部分的三元组，将此过程称为Filter，将未经Filter的过程称为Raw。Filter后的实验结果往往更好，具有更低的MeanRank和更高的HITS@10指标值。

在训练TransATopic模型时，将主题的个数k设置为50，表示向量的维数设置为20，学习率η设置为0.01，间距m设置为2。TransATopic与TransE等现有模型的实验对比结果如表 4和表 5所示，其中，加粗数据表示MeanRank、HITS@5和HITS@10指标的最优值。

下载CSV 表 4 Arnet-S实验对比结果 Table 4 Comparison of experimental results in Arnet-S

下载CSV 表 5 FB15K实验对比结果 Table 5 Comparison of experimental results in FB15K

可以看出，相较于TransA模型，TransATopic的MeanRank指标更低，HITS@k指标更高，验证了基于主题分布特征的表示方法和自适应度量方法融合的有效性，表明TransATopic在向量表示和链路预测上具有明显的优势。在FB15K中边和节点的数量比为39.6，而在Arnet-S中为8.6，因此，FB15K中边的密度更大且关系更为复杂。相较于TransE模型，TransATopic在Arnet-S数据集上HITS@k平均提升21%，在FB15K上平均提升39%，这进一步说明TransATopic在处理多语义复杂关系上具有更大优势。

3.2 三元组分类

三元组分类任务主要用于验证模型识别正确三元组和错误三元组的能力。对于给定的三元组（h，r，t），首先计算模型损失函数d（h+r，t）的值，如果大于某个阈值，则将该三元组划分为正确三元组，反之划分为错误三元组；然后判断三元组分类结果的正确性，若正确则生成正标签；否则生成负标签；最后统计正负标签数量，计算三元组分类的准确率。TransATopic与TransE等模型在数据集Arnet-M和FB13上的实验对比结果如表 6所示，其中，加粗数据表示准确率指标的最优值。

下载CSV 表 6 三元组分类准确率对比 Table 6 Accuracy comparison of triple classification

可以看出，在Arnet-M和FB13数据集中，DeepWalk和Node2vec的准确率最低，这说明基于翻译的表示模型更适用于大规模的数据集。相较于TransE模型，TransATopic在Arnet-M上准确率平均提升10%，在FB13上平均提升7%。由于Arnet-M上边和节点的数量远大于FB13，说明Arnet-M是一个规模更大且关系更为复杂的网络，因此表明TransATopic在Arnet-M上能够更好地提高三元组的分类效果。此外，相较于TransA模型，TransATopic在准确率上同样取得了一定的进步，说明关系的主题分布特征能够有效提高知识表示的区分度。

4 结束语

传统基于翻译的知识表示方法在复杂关系建模和距离度量上存在不足，影响了知识表示的区分度。为此，本文提出TransATopic模型。在复杂关系建模过程中，基于主题模型和变分自编码器建模关系的主题分布特征，提高关系向量的区分度；在距离度量过程中，使用一种自适应度量方法，通过引入非负对角矩阵，将损失函数的度量由欧式距离转换为马氏距离，为向量的每一维赋予不同的权重，从而增强度量的灵活性。现有的知识表示方法通常粗略地将关系划分为1-1、1-N、N-1和N-N 4种类型，然而实体在空间中往往呈现出层次结构。文献[27]利用双曲线代替欧几里得嵌入空间来表示分层数据，在嵌入图形时取得了较好的结果。受此启发，下一步拟基于双曲空间改进TransATopic模型，并且将其应用于关系抽取、语义解析和实体聚类等任务。

参考文献

[1]	LIU Zhiyuan, SUN Maosong, LIN Yankai, et al. Knowledge representation learning:a review[J]. Computer Research and Development, 2016, 53(2): 247-261. (in Chinese) 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247-261.
[2]	XIE Ruobing, LIU Zhiyuan, JIA Jia, et al.Representation learning of knowledge graphs with entity descriptions[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence.Palo Alto, USA: AAAI Press, 2016: 2659-2665.
[3]	BORDES A, USUNIER N, GARCIA-DURAN A, et al.Translating embeddings for modeling multi-relational data[C]//Proceedings of NIPS'13.Cambridge, USA: MIT Press, 2013: 2787-2795.
[4]	WANG Zhen, ZHANG Jianwei, FENG Jianlin, et al.Know-legde graph embedding by translating on hyperplanes[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence.Palo Alto, USA: AAAI Press, 2014: 1112-1119.
[5]	CHEN Xiaojun, XIANG Yang. STransH:a revised translation-based model for knowledge representation[J]. Computer Science, 2019, 46(9): 184-189. (in Chinese) 陈晓军, 向阳. STransH:一种改进的基于翻译模型的知识表示模型[J]. 计算机科学, 2019, 46(9): 184-189.
[6]	DUAN Pengfei, WANG Yuan, XIONG Shengwu, et al. Space projection and relation path based representation learning for construction of geography knowledge graph[J]. Journal of Chinese Information Processing, 2018, 32(3): 26-33. (in Chinese) 段鹏飞, 王远, 熊盛武, 等. 基于空间投影和关系路径的地理知识图谱表示学习[J]. 中文信息学报, 2018, 32(3): 26-33. DOI:10.3969/j.issn.1003-0077.2018.03.004
[7]	LIN Yankai, LIU Zhiyuan, SUN Maosong, et al.Learing entity and relation embedding for knowledge graph completion[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.Palo Alto, USA: AAAI Press, 2015: 1-7.
[8]	ZHU Yanli, YANG Xiaoping, WANG Liang, et al. TransRD:embedding of knowledge graph with asymmetric features[J]. Journal of Chinese Information Processing, 2019, 33(11): 73-82. (in Chinese) 朱艳丽, 杨小平, 王良, 等. TransRD:一种不对等特征的知识图谱嵌入表示模型[J]. 中文信息学报, 2019, 33(11): 73-82.
[9]	BAO Kaifang, GU Junzhong, YANG Jing. Knowledge graph completion method based on jointly representation of structure and text[J]. Computer Engineering, 2018, 44(7): 205-211. (in Chinese) 鲍开放, 顾君忠, 杨静. 基于结构与文本联合表示的知识图谱补全方法[J]. 计算机工程, 2018, 44(7): 205-211.
[10]	PENG Min, YAO Yalan, XIE Qianqian, et al. Knowledge representation learning for joint structural and textual embedding via attention-based CNN[J]. Journal of Chinese Information Processing, 2019, 33(2): 51-58. (in Chinese) 彭敏, 姚亚兰, 谢倩倩, 等. 基于带注意力机制CNN的联合知识表示模型[J]. 中文信息学报, 2019, 33(2): 51-58.
[11]	JI Guoliang, HE Shizhu, XU Liheng, et al.Knowledge graph embedding via dynamic mapping matrix[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.[S.l.]: ACL, 2015: 687-696.
[12]	WANG Huiyong, LUN Bing, ZHANG Xiaoming, et al. Multi-modal entity alignment based on joint knowledge representation learning[J]. Control and Decision, 2020, 35(12): 2855-2864. (in Chinese) 王会勇, 论兵, 张晓明, 等. 基于联合知识表示学习的多模态实体对齐[J]. 控制与决策, 2020, 35(12): 2855-2864.
[13]	JI Guoliang, LIU Kang, HE Shizhu, et al.Knowledge graph completion with adaptive sparse transfer matrix[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence.Palo Alto, USA: AAAI Press, 2016: 985-991.
[14]	FAN M, ZHOU Q, CHANG E, et al.Transition-based knowledge graph embedding with relational mapping properties[C]//Proceedings of the 28th Pacific Asia Conference on Language, Information and Computing.Hong Kong, China: [s.n.], 2014: 328-337.
[15]	XIAO Han, HUANG Minlie, ZHU Xiaoyan.From one point to a manifold: knowledge graph embedding for precise link prediction[C]//Proceedings of the 25th International Joint Conference on Artificial Intelligence.New York, USA: ACM Press, 2016: 1315-1321.
[16]	FENG Jun, HUANG Minlie, WANG Mingdong, et al.Knowledge graph embedding by flexible translation[C]//Proceedings of the 15th International Conference on Principles Knowledge Representation Reasoning.Cape Town, South Africa: [s.n.], 2015: 557-560.
[17]	XIAO Han, HUANG Minlie, HAO Yu, et al.TransA: an adaptive approach for knowledge graph embedding[EB/OL].(2015-09-28)[2020-01-08].https: //arxiv.org/pdf/1509. 05490.pdf.
[18]	FANG Yang, ZHAO Xiang, TAN Zhen, et al. A revised translation-based mehod for knowledge graph-representa-tion[J]. Computer Research and Development, 2018, 55(1): 139-150. (in Chinese) 方阳, 赵翔, 谭真, 等. 一种改进的基于翻译的知识图谱表示方法[J]. 计算机研究与发展, 2018, 55(1): 139-150.
[19]	RAO Guanjun, GU Tianlong, CHANG Liang, et al. Knowledge graph embedding based on similarity negative sampling[J]. CAAI Transactions on Intelligent Systems, 2020, 15(2): 218-226. (in Chinese) 饶官军, 古天龙, 常亮, 等. 基于相似性负采样的知识图谱嵌入[J]. 智能系统学报, 2020, 15(2): 218-226.
[20]	AN Bo, HAN Xianpei, SUN Le, et al. Triple classification based on synthesized features for knowledge base[J]. Journal of Chinese Information Processing, 2016, 30(6): 84-89, 99. (in Chinese) 安波, 韩先培, 孙乐, 等. 基于分布式表示和多特征融合的知识库三元组分类[J]. 中文信息学报, 2016, 30(6): 84-89, 99.
[21]	XIAO Han, HUANG Minlie, HAO Yu, et al.TransG: a generative mixture model for knowledge graph embedding[EB/OL].(2017-09-08)[2020-01-08].https://arxiv.org/pdf/1509.05488.pdf.
[22]	BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[23]	KINGMA D P, WELLING M.Auto-encoding variational Bayes[EB/OL].(2014-05-01)[2020-01-08].https://arxiv.org/pdf/1312.6114.pdf.
[24]	TANG Jie, ZHANG Jing, YAO Liming, et al.ArnetMiner: extraction and mining of academic social networks[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA: ACM Press, 2008: 990-998.
[25]	TU Cunchao, ZHANG Zhengyang, LIU Zhiyan, et al.TransNet: translation-based network representation learning for social relation extraction[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.New York, USA: ACM Press, 2017: 2864-2870.
[26]	HE Ming, DU Xiangkun, WANG Bo. Representation learning of knowledge graphs via fine-grained relation description combinations[J]. IEEE Access, 2019, 7: 26466-26473.
[27]	NICKEL M, KIELA D.Learning continuous hierarchies in the Lorentz model of hyperbolic geometry[EB/OL].(2018-07-08)[2020-01-08].https://arxiv.org/pdf/1806.03417.pdf.