基于异质注意力循环神经网络的文本推荐

引用本文

牛耀强, 孟昱煜, 牛全福. 基于异质注意力循环神经网络的文本推荐[J]. 计算机工程, 2020, 46(10), 52-59. DOI: 10.19678/j.issn.1000-3428.0055861.

NIU Yaoqiang, MENG Yuyu, NIU Quanfu. Text Recommendation Based on Heterogeneous Attention Recurrent Neural Network[J]. Computer Engineering, 2020, 46(10), 52-59. DOI: 10.19678/j.issn.1000-3428.0055861.

基金项目

国家自然科学基金（41461084）；甘肃省自然科学基金（1606RJZA033）

作者简介

牛耀强(1995-), 男, 硕士研究生, 主研方向为数据挖掘、智能计算;
孟昱煜, 副教授、硕士;
牛全福, 副教授、博士

文章历史

收稿日期：2019-08-30
修回日期：2019-10-19

Contents Abstract Full text Figures/Tables PDF

基于异质注意力循环神经网络的文本推荐

牛耀强¹ , 孟昱煜¹ , 牛全福²

1. 兰州交通大学电子与信息工程学院, 兰州 730070;
2. 兰州理工大学土木工程学院, 兰州 730050

收稿日期：2019-08-30；修回日期：2019-10-19

基金项目：国家自然科学基金（41461084）；甘肃省自然科学基金（1606RJZA033）

作者简介：牛耀强(1995-), 男, 硕士研究生, 主研方向为数据挖掘、智能计算; 孟昱煜, 副教授、硕士; 牛全福, 副教授、博士.

E-mail: 330398304@qq.com

摘要：针对当前大数据环境下文本推荐不精确的问题，对文本数据和关系网络2种异质数据进行融合，并引入编码器-解码器框架，提出基于异质注意力的循环神经网络模型用于短期文本推荐。使用句子级的分布记忆模型和实体关系表示方法TransR，分别将文本数据和关系网络嵌入到高维向量中作为模型的输入。在编码器阶段，使用双向GRU将用户的短期兴趣引入到推荐模型中，并将注意力机制与解码器相连接，使解码器能动态地选择并线性组合编码器输入序列的不同部分，以建模用户在短期内的偏好。在解码器阶段，将编码器的注意力输出、候选项和当前用户的表示作为输入。通过双向GRU和前馈网络层，计算每个候选项的得分得到推荐结果。实验结果表明，与TF-IDF和ItemKNN等模型相比，该模型在召回率和均值平均精度指标上均有明显提升。

Text Recommendation Based on Heterogeneous Attention Recurrent Neural Network

NIU Yaoqiang¹ , MENG Yuyu¹ , NIU Quanfu²

1. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China;
2. College of Civil Engineering, Lanzhou University of Technology, Lanzhou 730050, China

Abstract: To improve the inaccurate text recommendation in the big data environment, this paper merges two kinds of heterogeneous data, text data and relational network, and introduces the encoder-decoder framework.On this basis, a Recurrent Neural Network(RNN) model based on heterogeneous attention is proposed for short-term text recommendation.The sentence-level Distributed Memory Model of Paragraph Vectors(PV-DM) and the representation method for entity relations, TransR, are used to embed text data and relational network into high-dimensional vectors as the input of the model.In the encoding stage, the short-term interests of users are introduced into the recommendation model by using bidirectional GRU, and the attention mechanism is used to connect with the decoder, so that the decoder can dynamically select and linearly combine different parts of the input sequence of the encoder in order to build short-term interests of users.In the decoder stage, the attention output of the encoder, the candidate items, and the representation of current users are taken as inputs.The score of each candidate item is calculated with the bidirectional GRU and the feedforward network layer to obtain the recommendation result.Experimental results show that compared with TF-IDF, ItemKNN and other models, the proposed model significantly improves the recall rate and the average precision of the mean.

0 概述

随着社交网络技术的快速发展和广泛使用, 移动端设备日益普及, 在线问答系统如知乎等也得到了快速发展, 已成为人们日常生活中不可缺少的一部分。在知识问答系统中存在大量的数据信息, 如问题信息、答案信息、用户信息等。同时, 在用户与知识问答系统交互的过程中, 会产生大量的行为数据, 如用户搜索过的问题、用户查看过的文本、用户评论过的文章、用户赞同的文章、用户的收藏文章、用户评论过的文章以及用户关注的作者等。这些异质数据中蕴含着丰富的价值, 对实体建模和信息挖掘有着重要的影响。但随着问答系统中异质数据的不断增多, 用户画像和精准推荐已经愈发具有挑战性。

传统的文本推荐方法主要分为协同过滤^[1-2]、基于内容的推荐^[3]和混合型的推荐^[4-5]。随着网络的飞速发展, 交互的应用遍布所有角落, 用户和文本之间的交互关系显得十分的稀疏, 传统的推荐算法很难得到较好的应用^[6-7]。近年来, 随着深度学习在计算机视觉和自然语言处理等领域取得的进展, 逐渐展现出其对数据特征进行挖掘和提取的优势。而特征提取正是推荐系统中的重要环节, 特征学习的好坏关乎推荐系统的成败, 因此, 业界逐渐开始研究深度学习领域。文献[8]提出了一种多视角深度神经网络模型, 模型通过分析用户的浏览记录和搜索记录提取用户的特征, 从而丰富用户的特征表示, 然后通过用户和项目两种信息实体的语义匹配来实现用户的项目推荐。文献[9]研究了标签感知的个性化推荐问题, 分别利用用户的所有标签和项目的所有标签学习得到用户和项目的隐表示, 通过计算用户隐表示和项目隐表示的相似度来产生推荐。对于微博文本推荐, 文献[10]提出了一种基于注意力的卷积神经网络(Convolutional Neural Network, CNN)模型, 将标签推荐看作一个多分类问题, 其模型包括一个全局通道和一个局部注意力通道, 用CNN作为特征提取的方法来获取微博的特征。文献[11]研究如何利用评论信息来进行文本推荐的问题, 提出一个基于注意力的CNN模型, 该模型由一个用户网络和一个项目网络组成, 各网络分别采用CNN从用户的评论信息和项目的评论信息中学习用户和项目的特征表示。目前由于循环神经网络(Recurrent Neural Network, RNN)在处理序列问题的优势, 被广泛地应用到文本推荐任务中。文献[12]提出一种基于注意力的长短时记忆(Long-Short Term Memory, LSTM)模型进行微博标签推荐, 该模型将注意力机制与RNN结合, 其优势是既能抓住文本的序列特征, 同时又能从微博中识别出最具有信息量的词。文献[13]提出基于注意力的记忆网络来进行微博的提示推荐, 考虑到微博文本长度通常较短, 且存在词稀疏和词同义等问题, 仅仅使用语言模型(如词嵌入模型)获得的推荐效果通常非常有限, 因此, 利用学习用户的历史微博记录得出的特征来建模用户的兴趣, 提升了推荐的准确性。这些推荐方法研究的重点从单一因素转向充分利用大量异质数据和关系网络, 主要对用户的长期兴趣作出建议, 而一些关于文本的心理学和社会学表明, 用户在特定时期的需求往往受到其当时所处状态的影响。例如, 当用户在现实生活中遇到不同的问题时, 他们在知识问答系统中关注的话题也会发生变化。

为满足用户的这种需求, 文献[14]提出了短期推荐的重要性。在歌曲推荐领域, 文献[15]从移动设备上收集用户的短期信息, 构建一个将用户短期信息和歌曲内容相结合的概率模型, 用于满足用户的短期需求。文献[16-17]使用类似word2vec^[18-19]的方法嵌入歌曲, 进行短期文本推荐。文献[20]考虑了用户在临时会话中花费在项目上的总时间。用户与项目交互的时间越长, 用户的偏好就越强。他们使用2个带注意机制的门控循环单元(Gated Recurrent Unit, GRU), 从用户行为数据模拟用户总体偏好和主要目的, 然后整合2个向量的结果, 计算其与候选向量的相似性, 得出推荐结果。文献[21]提出一种分层RNN模型, 该模型利用用户的历史信息来建模用户的个人偏好变化, 为用户提供个性化的短期推荐。这些研究在短期推荐方面取得了一定的进展, 但大部分模型使用同质数据得到用户的特征表示, 且使用词袋模型作为推荐模型的输入, 这种方法丢失了句子的序列信息, 对用户特征提取并不完整, 在训练过程中维数灾难和训练复杂度过高的缺点仍然明显。

本文通过融合文本数据(知乎话题文本、答案文本和用户信息文本)和关系网络这2种异质数据, 提出基于异质注意力的循环神经网络模型。使用句子级的分布记忆模型(PV-DM)^[22]和TransR^[23]将文本和关系嵌入到维度相同的高维向量作为模型的输入, 以降低训练的复杂度。受机器翻译^[24]的启发, 将编码器-解码器框架引入模型中, 在编码阶段, 将用户在短期内的兴趣引入推荐模型中, 经注意力层与解码器相连接, 使解码器能动态地选择并线性组合编码器输入序列的不同部分, 以建模用户在短期内的偏好。

1 循环神经网络 1.1 RNN介绍

RNN^[25]的网络结构如图 1所示。

	Download: JPG larger image
图 1 RNN结构 Fig. 1 RNN structure

给定一个输入序列x=(x₁, x₂, …, x_T), RNN通过迭代公式:

$ {{h_t} = \sigma (\mathit{\boldsymbol{U}}{x_t} + \mathit{\boldsymbol{W}}{h_{t - 1}} + {\mathit{\boldsymbol{b}}_h})} $

(1)

$ {{y_t} = \mathit{\boldsymbol{V}}{h_t} + {\mathit{\boldsymbol{b}}_o}} $

(2)

计算t时刻隐层向量序列h=(h₁, h₂, …, h_T)和输出向量序列y=(y₁, y₂, …, y_T)。其中, U为输入层到隐层的权重矩阵, W为隐层之间的权重矩阵, b_h为隐层偏置向量, σ为隐层激活函数, 常用的为Sigmoid函数, V为隐层到输出层的权重矩阵, b_o为输出层偏置向量。

1.2 双向GRU

RNN在模型化序列问题时具有优势, 然而随着隐藏层的增加, 普通循环神经网络模型也会带来梯度消散的问题。因此, 文献[26]提出了一种循环神经网络的变体, 即长短时记忆模型(LSTM)。LSTM单元会以不受控制的方式在每个单位步长内重写自己的记忆, 而且LSTM有专门的学习机制能够在保持先前状态的同时, 记忆当前输入数据的特征。LSTM神经网络模型包含输入门、遗忘门和输出门3个门。GRU神经网络是LSTM的变体, 相比于LSTM, GRU只有重置门和更新门。LSTM单元和GRU单元对比如图 2所示。

	Download: JPG larger image
图 2 LSTM单元与GRU单元对比 Fig. 2 Comparison of LSTM unit and GRU unit

与LSTM相比, GRU神经网络的参数更少, 不容易产生过拟合, 且在训练过程中需要的迭代次数更少, 收敛时间更短。GRU的计算步骤如下:

1) 计算重置门r_t与更新门z_t, 计算公式如下:

$ {r_t} = \sigma ({W_{xr}}{x_t} + {W_{hr}}{h_{t - 1}}) $

(3)

$ {z_t} = \sigma ({W_{xz}}{x_t} + {W_{hz}}{h_{t - 1}}) $

(4)

其中, x_t为t时刻输入层的输入, h_t-1为t-1时刻GRU单元的输出, W是连接权重矩阵, σ为Sigmoid激活函数。

2) 计算隐含层的输出$\mathit{\widetilde h}$, 计算公式如下:

$ \tilde h = {\rm{tanh}}(\mathit{\boldsymbol{W}}{x_t} + \mathit{\boldsymbol{U}}({r_t} \cdot {h_{t - 1}})) $

(5)

3) 计算GRU单元状态及输出h_t, 计算公式如下:

$ {h_t} = (1 - {z_t}){h_{t - 1}} + {z_t}{\tilde h_t} $

(6)

传统RNN存在的不足是它仅能够利用正向序列中当前时刻之前的内容。而在文本情感分析中, 从反向序列而来的当前时刻之后的内容对人物情感的判断也具有十分重要的作用。因此, 如果同时训练2个GRU神经网络, 一个采用正向序列学习, 另一个采用反向序列学习, 将正向和反向的最后一个状态对应的向量连接后得到的向量作为最后的结果, 这样来自于序列过去和未来的互补信息就可以整合到一起用于推理人物情感。双向RNN^[27]用2个独立的隐层分别从正向和反向2个方向来处理数据, 以达到上述目的。本文使用的双向GRU神经网络模型结构如图 3所示, 可以从正向和反向2个方向来处理文本信息。

	Download: JPG larger image
图 3 双向GRU神经网络结构 Fig. 3 Structure of bidirectional GRU neural network

2 数据嵌入 2.1 关系嵌入

在线问答平台包含大量的实体, 这些实体相互连接形成一个巨大的关系网络, 如作者和文本、文本和读者用户以及作者和读者用户之间的关系。另外, 在阅读的过程中, 用户会通过关注作者、评论文本或者标记他们喜欢的文本来生成大量的交互式数据。传统的嵌入方法很难从关系数据中提取到较多的有用信息。受知识图谱的启发, 本文使用TransR方法对关系网络中的实体和关系进行向量化。对于关系嵌入, 一般方法是通过将关系视为从头实体到尾实体的转换来构建实体和关系嵌入, 即这些模型简单地将实体和关系放在同一语义空间中, 然而在现实生活中, 由于各个实体所处关系的不同, 这种方法显然并不合理。TransR将实体和关系映射到多个不同实体空间和关系空间, 并在相应的关系空间中进行转换, 如图 4所示。

	Download: JPG larger image
图 4 TransR方法示意图 Fig. 4 Schematic diagram of TransR method

对于每个关系三元组(h, r, t), 其中, h, t∈${{\mathbb{R}}^{k}}$代表实体嵌入, h和t分别表示头部实体和尾部实体, r∈${{\mathbb{R}}^{d}}$表示关系嵌入。首先实体空间中的实体通过运算M_r∈${{\mathbb{R}}^{k\times d}}$被投射到关系中, 空间为h_r和t_r, 然后使h_r+r≈t_r。特定关系投影可以使实际保持关系的头部和尾部实体更加接近, 使不具有关系的那些实体彼此远离^[22]。

实体的投影向量为:

$ {\mathit{\boldsymbol{h}}_r} = h{M_r},{\mathit{\boldsymbol{t}}_r} = t{M_r} $

(7)

得分函数为:

$ {f_r}(h,t) = \left\| {{\mathit{\boldsymbol{h}}_r} + r - {\mathit{\boldsymbol{t}}_r}} \right\|_2^2 $

(8)

通过最小化上面的得分函数, 可以得到网络中实体和关系的向量表示, 为提高嵌入的泛化能力, 需要对嵌入实体、嵌入关系和映射矩阵大小进行限制, 其中, ‖h‖₂≤1, ‖r‖₂≤1, ‖t‖₂≤1, ‖hM_r‖₂≤1, ‖tM_r‖₂≤1。

2.2 文本嵌入

在知识问答系统中, 有许多文本描述数据, 如问题描述文本、答案内容文本和用户信息文本等, 这些数据对实体建模有着重要的影响。类似于word2vec, PV-DM通过对句向量和词向量的平均或连接来预测上下文中下一个单词的概率, 在本文实验中, 使用串联的方法来组合这两个向量。如图 5所示, 每个段落都映射到一个唯一的向量, 由矩阵D中的一列表示, 每个单词也映射到一个唯一的向量, 由矩阵W中的一列表示。具体来说, 假设语料库中共有N个句子和M个词, 每一段映射到p维度, 每个单词映射到q维度, 那么模型总共有M×p+N×q个参数(不含Softmax参数)。用数学语言描述, 即给出了一系列训练单词w₁, w₂, …, w_t和一个段落d_i, 词向量模型的目标是使平均对数概率最大化:

$ \frac{1}{T}\sum\limits_{t = k}^{T - k} {{\rm{lo}}{{\rm{g}}_a}} p({w_t}|{w_{t - k}}, \cdots ,{w_{t + k}},{d_i}) $

(9)

	Download: JPG larger image
图 5 句向量模型示意图 Fig. 5 Schematic diagram of sentence vector model

预测任务通常由一个多分类器执行, 如Softmax, 因此, 有:

$ p({w_t}|{w_{t - k}},{w_{t - k + 1}}, \cdots ,{w_{t + k}},{d_i}) = \frac{{{{\rm{e}}^{{y_{{w_t}}}}}}}{{\sum\limits_i {{{\rm{e}}^{{y_i}}}} }} $

(10)

每一个y_i是每个输出词i的非标准化对数概率, 计算公式为:

$ y = \mathit{\boldsymbol{b}} + \mathit{\boldsymbol{U}}h({w_{t - k}}, \cdots ,{w_{t + k}},{d_i};\mathit{\boldsymbol{W}},\mathit{\boldsymbol{D}}) $

(11)

其中, U和b是Softmax参数, h由W中提取的词向量与D中提取的段落向量串联或平均构成。与词向量模型相比, PV-DM通过将段落信息映射到附加的矩阵D中作为段落信息的标记, 来表示当前段落在上下文中的主要信息。

3 短期文本推荐

在短期文本推荐任务中, 使用双向GRU作为RNN的基本单元来获取序列中的信息, 并引入编码器-解码器框架。如图 6所示, 在编码阶段, 将用户在短期内的行为引入推荐模型中。使用上一节提到的方法分别将用户在短期内查看的话题信息、答案文本信息、文本的作者信息和关系网络嵌入到高维向量中, 然后通过首尾相连的方法拼接成同一个向量, 作为编码器的输入(input1)。在编码器和解码器之间引入注意力机制, 使解码器能动态地选择并线性组合编码器输入序列的不同部分, 来建模用户在短期内的偏好。注意力计算公式如下:

$ {{\alpha _{tj}} = s({h_t},{h_j}) = {\mathit{\boldsymbol{v}}^{\rm{T}}}\sigma (\mathit{\boldsymbol{A}}{h_t} + \mathit{\boldsymbol{B}}{h_j})} $

(12)

$ {{c_t} = \sum\limits_{j = 1}^t {{\alpha _{tj}}} {h_j}} $

(13)

	Download: JPG larger image
图 6 短期文本推荐模型架构 Fig. 6 Architecture of short-term text recommendation model

其中, h_t表示最终时刻的隐藏层状态, h_j表示h_t前一项隐藏层状态, A和B分别是h_t和h_j的传递矩阵, σ表示激活函数, 这里选择Sigmoid函数, 用来计算最终隐藏层状态h_t和前一层h_j之间的相似性, 也即注意力权重α_tj的值, 表示任意时刻的输入序列较当前输入序列的相对重要性, 用来确定在提出建议时当前输入序列应强调或忽略, c_t表示短期序列的注意力得分。

通过带有注意力机制的编码器为不同时刻的输入分配自适应权值, 来表示用户在当前会话的主要目的。在解码器阶段, 将编码器的注意力输出c_t、候选项和当前用户的表示作为输入(图 6中的input2表示候选项和当前用户的表示)。候选项是当前用户长期已读文本、已读文本的作者信息和关系数据的拼接向量。然后通过双向GRU层和前馈网络层, 计算每个候选项的得分。最后通过Softmax层将得分标准化。模型损失函数采用交叉熵损失函数, 公式如下:

$ {\rm{Loss}} (p,q) = - \sum\limits_{i = 1}^m {{p_i}} {\kern 1pt} {\kern 1pt} {\rm{lo}}{{\rm{g}}_a}{\kern 1pt} {\kern 1pt} {q_i} $

(14)

其中, q是预测候选项位置分布, p是实际分布。

模型在双向GRU层正向和反向各设置128个隐藏单元。在每个隐藏层后加入50%的dropout层, 提高了模型的鲁棒性和泛化能力。在解码阶段, 将用户短期内阅读的100个候选文本序列作为输入, 然后通过双向GRU层和分别含有512个和256个隐藏单元的前馈层处理, 模型使用Adam^[29]进行优化。

4 实验结果与分析 4.1 数据集

本文数据集来源于知乎, 知乎是中国最大的知识问答系统之一, 在这个平台上可以获得大量的完整数据。本文使用的数据来自于CCIR2018竞赛, 数据包括部分用户信息、用户读一个文本/答案之前的已读序列、未读序列以及所有的文本信息。在实验中, 使用100 000个记录作为训练集, 20 000个记录作为测试集。在本文数据集中共使用5种实体和14种关系类型, 如表 1和图 7所示。

表 1 数据集中的实体和关系类型 Table 1 Entities and relationships types in the dataset

序号	实体/关系	描述	数量
1	U/Au	用户/作者	2 450
2	T	问题	1 432
3	An	答案	99 269
4	Ar	文章	478
5	Idea	想法	253
6	U $\overset{\rm search}{\mathop{\to }}\, $ T	用户搜索过此类问题	12 592
7	U $\overset{\rm see}{\mathop{\to }}\, $ T	用户查看过本问题	42 340
8	U $\overset{\rm attentive}{\mathop{\to }}\, $ T	用户关注了本问题	5 824
9	U $\overset{\rm answer}{\mathop{\to }}\, $ T	作者回答了本问题	74 320
10	U $\overset{\rm see}{\mathop{\to }}\, $ An	用户查看过本条答案	119 262
11	An $\overset{\rm belong}{\mathop{\to }}\, $ T	答案属于本问题	119 269
12	U $\overset{\rm like}{\mathop{\to }}\, $ An	用户赞同本答案	234 27
13	U $\overset{\rm dislike}{\mathop{\to }}\, $ An	用户反对本答案	12 580
14	U $\overset{\rm comment}{\mathop{\to }}\, $ An	用户评论了本答案	65 413
15	U $\overset{\rm attentive}{\mathop{\to }}\, $ Au	用户关注了此作者	12 530
16	Au $\overset{\rm write}{\mathop{\to }}\, $ Ar	作者写了本篇文章	478
17	U $\overset{\rm see}{\mathop{\to }}\, $ Ar	用户查看了本篇文章	478
18	U $\overset{\rm Publish}{\mathop{\to }}\, $ Idea	作者发表了本想法	253
19	U $\overset{\rm see}{\mathop{\to }}\, $ Idea	用户查看了本想法	253

下载CSV 表 1 数据集中的实体和关系类型 Table 1 Entities and relationships types in the dataset

	Download: JPG larger image
图 7 实体和关系类型示意图 Fig. 7 Schematic diagram of entities and relationships types

4.2 对比实验

将本文提出的模型分别与2种传统的推荐方法和1种神经网络模型进行比较。

TF-IDF:TF-IDF是一种统计方法, 用来评估某个字词对于一个语料库或一个文件集中的其中一份文件的重要程度。词的重要性随着字词在文件中出现的次数成正比。本文将每个文本表示成TF-IDF向量的形式, 通过计算目标向量与序列的得分进行推荐, 计算方式如下:

$ \begin{array}{*{20}{l}} {{\rm{Score}} (w) = \frac{1}{p}\sum\limits_{i = 1}^p { \rm Sim{ _{\cos }}} (\mathit{\boldsymbol{s}},\mathit{\boldsymbol{s}}_i^ + ) - }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{1}{q}\sum\limits_{i = 1}^q {{\rm{ Sim}}{{\rm{ }}_{{\rm{cos}}}}} (\mathit{\boldsymbol{s}},\mathit{\boldsymbol{s}}_i^ - )} \end{array} $

(15)

其中, s表示目标文本向量, Sim_cos表示余弦距离, s_i⁺表示正向序列中的某个文本, p表示正向文本长度, 同理s_i^－和q表示负向文本序列的相关项目。

ItemKNN:ItemKNN^[29]是一种常用的协同过滤算法。文本间的相似性通过用户查看文本序列的频率来衡量。

MEM:文献[17]提出的模型。首先通过使用用户查看文本记录和相应的元数据(包括用户信息、答案信息等)来学习文本的嵌入, 然后根据嵌入的结果推断并模拟用户对文本内容的全局和上下文偏好; 最后根据目标用户的偏好推荐合适的文本内容, 满足用户的短期要求。

4.3 评价指标

在本文实验中, 为了评价模型的推荐效果, 使用召回率(Recall)和均值平均精度(mean Average Precision, mAP)作为推荐结果的评估指标。

Recall:在评价推荐算法时, 召回率是常用的评价指标, 其表示推荐列表中用户喜欢的文本与用户真正喜欢的文本之间的比率。

mAP:召回率只是衡量用户喜欢的项目有没有被推荐, 而与推荐的顺序并无关系, 在Top-N推荐中, 推荐列表的顺序也是极其重要的。在文本推荐任务中, 使用mAP作为实验的指标之一, 计算公式如下:

$ {\rm{A}}{{\rm{P}}_u} = \frac{1}{{|{\varOmega _u}|}}\sum\limits_{i \in {\varOmega _u}} {\frac{{\sum\limits_{j \in {\varOmega _u}} h ({p_{uj}} < {p_{ui}}) + 1}}{{{p_{ui}}}}} $

(16)

$ {\rm{mAP}} = \frac{{\sum\limits_{u \in {v^{te}}} {\rm{A}} {{\rm{P}}_u}}}{{|{v^{te}}|}} $

(17)

其中, Ω_u表示推荐列表中用户喜欢的文本是否在用户真正喜欢的文本中, 若是, 则取1, 否则取0;再累计相加, p_ui表示i文本在推荐列表中的位置, p_uj < p_ui表示j本文在推荐列表中排在i文本之前, v^te表示推荐实验中的用户集。

4.4 参数设置

本文提出的基于异质注意力卷积神经网络模型分别将文本数据和关系网络嵌入到100维的向量中, 然后通过拼接的方法得到共200维的输入向量。模型训练时初始学习速率设置为0.001, 最小批处理大小为256。该模型是在Keras的GeForce GTX 1080Ti GPU上定义和训练的。

4.5 实验结果 4.5.1 模型结果对比

将本文所提模型与选择的其他模型的结果进行比较, 实验结果如图 8所示。

	Download: JPG larger image
图 8 各模型在数据集上的结果 Fig. 8 Results of each model on the dataset

无论从召回率或是MAP来排序, 本文提出的基于异质注意力的循环神经网络模型都优于其他模型。如表 2所示, 在Top-15推荐中, 与TF-IDF和ItemKNN相比, 在召回率方面, 本文模型比TF-IDF提高了30.03%, 比ItemKNN提高了18.31%;在更加注重推荐排序的mAP方面, 本文模型比TF-IDF提高了37.78%, 比ItemKNN提高了27.66%。这表明仅仅计算文本的相似度对用户长期偏好的建模是不足的, 还应考虑用户的短期兴趣。相比于传统模型, 神经网络模型MEM取得了一定的效果, 而本文模型在召回率和mAP各方面都优于MEM, 尤其是在更加注重推荐排序的mAP方面, 在Top-15推荐方面, 本文模型比MEM提高了13.95%, 说明了本文模型优异的性能。由此证明, 本文使用多源异质数据作为推荐模型的输入和通过注意力机制将用户的短期兴趣引入推荐模型来满足用户的短期需求, 大幅提高了推荐的准确性。

下载CSV 表 2 在Top-15中各模型的实验结果 Table 2 Experimental results of each model in Top-15

4.5.2 模型设计分析

为验证本文模型推荐准确性的提升, 将模型输入数据的多样性和通过注意力机制把用户的短期兴趣引入推荐模型的设计, 同时做了以下实验:1)在模型的基础上只使用文本信息作为模型的输入; 2)在模型的基础上只使用关系网络作为模型的输入; 3)在输入数据不变的前提下, 推荐模型只使用解码器部分, 即将用户的短期兴趣不单独引入模型中。实验结果如图 9所示。

	Download: JPG larger image
图 9 模型设计分析结果 Fig. 9 Results of model design analysis

从图 9可以得出, 使用基于异质注意力的循环神经网络的设计可以有效提升实验效果, 这也说明将文本信息和关系网络嵌入到高维向量, 并使用注意力机制将用户的短期兴趣引入到推荐模型, 设计更有效的建模用户的偏好, 能够得到更准确的用户个性化推荐效果。

4.5.3 嵌入维数对推荐结果的影响

本文研究特征嵌入维数对模型性能的影响。在本文模型中, 使用文本数据和关系网络这2种异质数据, 本文实验将一种数据嵌入0~300的维度, 另一种数据保持100维不变, 实验结果如图 10所示。

	Download: JPG larger image
图 10 嵌入维数对推荐结果的影响 Fig. 10 Influence of embedding dimension numbers on recommendation results

随着特征嵌入维数增加, 模型的性能慢慢提高并逐渐趋于稳定, 当嵌入维数小于100时, 嵌入维度对模型性能有较大影响; 当嵌入维度大于100时, 模型性能趋于稳定; 当设置嵌入维度为0时, 也即删除这种输入数据, 模型性能大幅降低, 表明这2种数据对模型性能都是极其重要的。

5 结束语

本文提出基于异质注意力循环神经网络的短期文本推荐模型, 将融合多源异质数据作为模型的输入, 增强模型对用户兴趣的理解能力, 运用编码器-解码器框架, 在编码器阶段, 将用户的短期兴趣引入到推荐模型中, 并使用注意力机制与解码器相连接, 通过双向GRU神经网络对用户的短期兴趣进行建模。实验结果表明, 与通用模型和神经网络模型相比, 本文模型性能取得了较大的提升, 证明了模型的有效性。下一步考虑将深度学习与文本推荐相结合, 以取得更好的推荐效果。

参考文献

[1]	RENDLE S, FREUDENTHALER C, GANTNER Z, et al.BPR: Bayesian personalized ranking from implicit feedback[C]//Proceedings of International Conference on Uncertainty in Artificial Intelligence.[S.1.]: AAAI Press, 2009: 137-149.
[2]	XU Lei, YANG Cheng, JIANG Chunxiao, et al. Game analysis of user participation in collaborative filtering systems[J]. Chinese Journal of Computers, 2016, 39(6): 1176-1189. (in Chinese) 徐蕾, 杨成, 姜春晓, 等. 协同过滤推荐系统中的用户博弈[J]. 计算机学报, 2016, 39(6): 1176-1189.
[3]	LANG K.NewsWeeder: learning to filter net-news[C]//Proceedings of the 12th International Conference on Machine Learning.[S.1.]: Morgan Kaufmann Publishers Inc., 1995: 457-469.
[4]	CHEN J, YING P, ZOU M. Improving music recommendation by incorporating social influence[J]. Multimedia Tools and Applications, 2019, 78(3): 2667-2687. DOI:10.1007/s11042-018-5745-7
[5]	FENG Xingjie, ZENG Yunze. Joint deep modeling of rating matrix and reviews for recommendation[J]. Chinese Journal of Computers, 2020, 43(5): 884-900. (in Chinese) 冯兴杰, 曾云泽. 基于评分矩阵与评论文本的深度推荐模型[J]. 计算机学报, 2020, 43(5): 884-900.
[6]	BEIERLE F, AIZAWA A, BEEL J.Exploring choice overload in related-article recommendations in digital libraries[EB/OL].[2019-07-20].https://www.researchgate.net/publication.
[7]	XIA F, LIU H, LEE I, et al. Scientific article recommendation:exploiting common author relations and historical preferences[J]. IEEE Transactions on Big Data, 2016, 2(2): 101-112.
[8]	ELKAhkyHKY A M, YANG S, HE X D.A multi-view deep learning approach for cross domain user modeling in recommendation systems[EB/OL].[2019-07-20].https://www.researchgate.net/publication/.
[9]	XU Z, CHEN C, LUKASIEWICZ T, et al.Tag-aware personalized recommendation using a deep-semantic similarity model with negative sampling[C]//Proceedings of ACM Conference on Information and Knowledge Management.New York, USA: ACM Press, 2016: 443-456.
[10]	GONG Yeyun, ZHANG Qi.Hashtag recommendation using attention-based convolutional neural network[C]//Proceedings of IEEE International Joint Conference on Artificial Intelligence.Washington D.C., USA: IEEE Press, 2016: 325-337.
[11]	SEO S, HUANG J, YANG H, et al, Representation learning of users and items for review rating prediction using attention-based convolutional neural network[C]//Proceedings of the 3rd International Workshop on Machine Learning Methods for Recommender Systems.Huston, USA: [s.n.], 2017: 224-239.
[12]	LI Yang, LIU Ting, JIANG Jing et al.Hashtag recommendation with topical attention-based LSTM[C]//Proceedings of the 26th International Conference on Computational Linguistics.Osaka, Japan: [s.n.], 2016: 943-952.
[13]	HUANG Haoran, ZHANG Qi, HUANG Xuanjing.Mention recommendation for twitter with end-to-end memory network[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.[S.1.]: AAAI Press, 2017: 334-356.
[14]	VERBERT K, MANOUSELIS N, OCHOA X, et al. Context-aware recommender systems for learning:a survey and future challenges[J]. IEEE Transactions on Learning Technologies, 2012, 5(4): 318-335. DOI:10.1109/TLT.2012.11
[15]	WANG X, ROSENBLUM D, WANG Y.Context-aware mobile music recommendation for daily activities[C]//Proceedings of the 20th ACM International Conference on Multimedia.New York, USA: ACM Press, 2012: 99-108.
[16]	WANG Dongjing, DENG Shuiguang, ZHANG Xin, et al. Learning to embed music and metadata for context-aware music recommendation[J]. World Wide Web-Internet & Web Information Systems, 2017(5461): 1-25.
[17]	WANG Dongjing, DENG Shuiguang, XU Guangdong. Sequence-based context-aware music recommendation[J]. Information Retrieval Journal, 2018, 21(2/3): 230-252.
[18]	MIKOLOV T, CHEN K, CORRADO G, et al.efficient estimation of word representations in vector space[C]//Proceedings of ICLR'13.Washingtor D.C., USA: IEEE Press, 2013: 23-42.
[19]	MIKOLOV T, SUTSKERER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[20]	BOGINA V, KUFLI T.Incorporating dwell time in session-based recommendations with recurrent neural networks[C]//Proceedings of ACM Conference on Recommender System.New York, USA: ACM Press, 2017: 57-59.
[21]	QUADRANA M, KARATZOGLOU A, HIDASI B, et al.Personalizing session-based recommendations with hierarchical recurrent neural networks[C]//Proceedings of ACM RecSys'17.New York, USA: ACM Press, 2017: 432-446.
[22]	LE Q, MIKOLOV T.Distributed representations of sentences and documents[EB/OL].[2019-07-20].https://arxiv.org/abs/1405.4053
[23]	LIN Yankai, LIU Zhiyuan, SUN Maosong, et al.Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.[S.1.]: AAAI Press, 2015: 2181-2187.
[24]	BAHDANAU D, CHO K, BENGIO Y.Neural machine Translation by jointly learning to align and translate[EB/OL].[2019-07-20].https://arxiv.org/abs/1409.0473.
[25]	BENGIO Y, SIMAND P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 2002, 5(2): 157-166.
[26]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[27]	ZHANG Dongxu, WANG Dong.Relation classification via recurrent neural network[EB/OL].[2019-07-20].https://arxiv.org/abs/1508.01006.
[28]	LINDEN G, SMITH B, YORK J.Amazon.com recommendations: item-to-item collaborative filtering[J].IEEE Internet Computing, 2003, 7(1): 76-80.
[29]	KINGMA D P, BA J L.Adam: a method for stochastic optimization[C]//Proceedings of International Conference on Learning Represent.Washington D.C., USA: IEEE Press, 2015: 1-15.