融合知识图谱与协同过滤的推荐模型

引用本文

康雁, 李涛, 李浩, 等. 融合知识图谱与协同过滤的推荐模型[J]. 计算机工程, 2020, 46(12), 73-79, 87. DOI: 10.19678/j.issn.1000-3428.0056234.

KANG Yan, LI Tao, LI Hao, et al. Recommendation Model Fusing with Knowledge Graph and Collaborative Filtering[J]. Computer Engineering, 2020, 46(12), 73-79, 87. DOI: 10.19678/j.issn.1000-3428.0056234.

基金项目

国家自然科学基金（61762092，61762089）；云南省软件工程重点实验室开放基金（2017SE204）

通信作者

李涛(通信作者), 硕士研究生

作者简介

康雁(1972-), 女, 副教授、博士, 主研方向为深度学习、自然语言处理;
李浩, 教授;
钟声, 硕士研究生;
张亚钏, 硕士研究生;
卜荣景, 硕士研究生

文章历史

收稿日期：2019-10-10
修回日期：2019-12-02

Contents Abstract Full text Figures/Tables PDF

融合知识图谱与协同过滤的推荐模型

康雁 , 李涛 , 李浩 , 钟声 , 张亚钏 , 卜荣景

云南大学软件学院, 昆明 650500

收稿日期：2019-10-10；修回日期：2019-12-02

基金项目：国家自然科学基金（61762092，61762089）；云南省软件工程重点实验室开放基金（2017SE204）

作者简介：康雁(1972-), 女, 副教授、博士, 主研方向为深度学习、自然语言处理; 李浩, 教授; 钟声, 硕士研究生; 张亚钏, 硕士研究生; 卜荣景, 硕士研究生.

通信作者：李涛(通信作者), 硕士研究生.

E-mail: 365318663@qq.com

摘要：针对现有协同过滤推荐算法可解释性不高和基于内容推荐信息提取困难、推荐效率低等问题，提出一种融合知识图谱和协同过滤的混合推荐模型，其由知识图谱与深度学习结合模型RCKD和知识图谱与协同过滤结合模型RCKC构成。RCKD模型在获取知识图谱的推理路径后，利用TransE算法将路径嵌入为向量，并使用LSTM和soft attention机制捕获路径推理的语义，通过池化操作区分不同路径推理的重要性，经全连接层和sigmoid函数获得预测评分。RCKC模型根据知识图谱表示学习的语义相似性，利用协同过滤算法获得预测评分。按预测评分的准确度将两个模型相互融合，最终获得可解释的混合推荐模型。在MovieLens数据集上的实验结果表明，与RKGE、RippleN模型和经典协同过滤算法相比，该模型具有较好的推荐可解释性和较高的推荐准确率。

Recommendation Model Fusing with Knowledge Graph and Collaborative Filtering

KANG Yan , LI Tao , LI Hao , ZHONG Sheng , ZHANG Yachuan , BU Rongjing

School of Software, Yunnan University, Kunming 650500, China

Abstract: To address the problems of existing collaborative filtering recommendation algorithms, such as low interpretability and difficulty in information extraction based on content recommendation and low recommendation efficiency, this paper proposes a hybrid recommendation model fusing with knowledge graph and collaborative filtering.The model is composed of the RCKD model and the RCKC model, the former combining knowledge graph and deep learning, and the latter combining knowledge graph and collaborative filtering.After obtaining the inference path of knowledge graph, the RCKD model uses the TransE algorithm to embed the path into vector, and captures the semantics of path inference by using LSTM and the soft attention mechanism.Then the importance of different path inferences is distinguished through pooling operation, and the prediction score is obtained through the full connection layer and the sigmoid function.According to the semantic similarity of knowledge graph representation learning, the RCKC model uses the collaborative filtering algorithm to obtain the prediction score.The two models are fused with each other according to the accuracy of the prediction score, and finally the interpretable hybrid recommendation model is obtained.The experimental results on the MovieLens data set show that the proposed model has better recommendation interpretability and higher recommendation accuracy than the RKGE model, RippleN model and the classical collaborative filtering algorithms.

0 概述

随着大数据时代的到来, 互联网公司尤其是电商网站对数据的需求不断增加, 因此, 基于数据的推荐算法成为研究热点。目前, 针对个性化推荐的研究成果较多, 推荐算法主要可分为协同过滤推荐算法、基于内容的推荐算法和混合推荐算法^[1]。协同过滤推荐算法^[2-4]利用人群意愿进行推荐^[5], 虽然在推荐准确性上取得了显著的提升效果, 但与许多基于内容的推荐算法相比解释推荐结果时不直观^[6]。基于内容的推荐算法^[7-8]通过各种可用的内容信息对用户和物品进行特征建模。由于物品内容对用户而言比较容易理解, 因此在基于内容的推荐中, 通常可以直观地向用户解释为何该物品被推荐。

在不同的推荐背景下收集所需要的内容信息是一项耗时的任务^[6], 这成为基于内容推荐算法的瓶颈。而构建知识图谱只需要利用实体与实体之间的关系, 可减少提取内容信息的工作量。因此, 知识图谱作为一种新兴的辅助数据, 引起了学术界和工业界学者的广泛关注^[9]。

近年来, 深度学习因其强大的表示学习能力, 在图像处理、自然语言处理和语音识别等领域得到成功应用, 也为推荐系统研究带来新的思路。但现有基于深度学习的推荐算法^[10-12]多利用矩阵分解思想, 只考虑了用户与物品的评分数据, 抑制了推荐效果^[13]。

混合推荐算法^[14-15]通过结合多种推荐算法的优点, 能够得到更好的推荐效果。因此, 本文构建一种结合知识图谱、深度学习和协同过滤的混合推荐模型HCKDC, 其中包含RCKD和RCKC两个子模型。RCKD结合知识图谱推理与深度学习, 得到第1种预测评分, RCKC将协同过滤思想结合知识图谱表示学习的语义相似性, 得到第2种预测评分。预测评分的准确性决定了其对整体模型的重要程度, 按此重要程度将两个子模型相互融合, 得到可解释的推荐结果。使用MovieLens-100K数据集进行实验, 将HCKDC与可解释推荐模型RKGE^[16]和RippleNet^[17]进行对比, 以验证其有效性和先进性。

1 相关研究 1.1 协同过滤推荐

文献[2-3]分别提出了基于用户和基于物品的协同过滤算法, 而将协同过滤算法与潜在因子模型(Latent Factor Model, LFM)^[4]相结合, 能够进一步提升推荐效果。文献[4]提出一种将LFM和邻域模型相互融合的协作过滤模型。协同过滤一定程度上可以根据其算法设计的原理进行解释。例如, 基于用户的协同过滤推荐可以解释为:推荐的物品是与该用户类似的用户喜欢的物品。而基于物品的协同过滤可以解释为:推荐的物品是与用户喜欢的物品类似的物品。但与许多基于内容的推荐算法相比, 协同过滤推荐的解释推荐结果不直观。

1.2 基于内容的推荐

基于内容的推荐利用各种可用内容信息对用户和物品进行特征建模, 如文献[7-8]提出的基于内容的协同过滤系统。虽然基于内容的推荐具有较好的可解释性, 但在不同的推荐背景下收集所需要的内容信息十分耗时。

1.3 基于知识图谱的推荐

知识图谱包含用户和物品的丰富信息, 这些特性也可为推荐物品的生成提供更直观、更具针对性的解释, 并且构建知识图谱只需要利用实体与实体之间的关系, 这将很大程度减少基于内容推荐时提取内容信息的工作量。

将知识图谱引入推荐系统的研究, 有以连接两个实体的路径代表不同语义的扩展潜在因子模型^[18], 如文献[19]中的元路径方法。这种方法有助于根据物品相似性推断用户偏好, 从而生成有效的推荐。然而, 元路径方法严重依赖于手工制作元路径的特性, 需要额外领域的知识, 并且手工制作的元路径特性往往不完整, 很难覆盖所有可能的实体关系, 从而阻碍了推荐质量的提升。与元路径方法相比, 知识图谱表示学习能够自动学习获得知识图谱中实体的语义嵌入, 具有更好的推荐效果^[16]。目前, 基于知识图谱表示学习的研究成果较多^[20], 其中备受关注的有Translating系列表示学习算法。文献[21]提出了TransE算法, 其基本原理是给定三元组(h, r, t), 以关系r向量作为头实体h向量和尾实体r向量之间的平移。

1.4 基于深度学习的推荐

在基于深度学习的推荐方面, 文献[10]提出一种基于受限玻尔兹曼机的协同过滤模型, 文献[11]提出一种深度结构化语义模型, 文献[12]结合多层感知机模型和广义矩阵分解模型, 提出一种神经协同过滤算法, 进一步提升了推荐模型的性能。但上述算法模型均利用矩阵分解的思想, 只考虑了用户与物品的评分数据, 抑制了模型的推荐效果。

1.5 混合推荐

混合推荐算法同时综合多种推荐算法的优点, 能够得到更好的推荐效果, 如文献[14]将协同过滤推荐算法和基于知识图谱表示学习语义邻近推荐算法进行融合, 文献[15]以4种方式对矩阵分解和RNN模型进行融合, 均有效提升了推荐准确率。

2 混合推荐模型HCKDC

本文提出的HCKDC模型由知识图谱与深度学习结合模型RCKD和知识图谱与协同过滤结合模型RCKC构成。利用RCKD模拟知识图谱中的推理过程, 解决信息提取困难和可解释性不高的问题, 同时利用RCKC较好的可解释性, 进一步提高推荐质量。HCKDC整体模型架构如图 1所示。

	Download: JPG larger image
图 1 HCKDC模型架构 Fig. 1 HCKDC model architecture

2.1 RCKD模型

RCKD结合知识图谱与深度学习方法, 首先获取知识图谱推理路径, 然后基于知识图谱表示学习TransE算法将推理路径嵌入成为向量, 最后运用深度学习捕获路径推理语义进而获得预测评分。

2.1.1 推理路径生成及推理描述

本文首先利用已知的所有三元组(h, r, t)构成图, 然后通过构建图的方法搜索知识图谱中的推理路径。具体地, 将实体映射为图中的点, 将关系映射为图中的边, 通过指定两个实体遍历整个图就能得到两个实体的所有路径。这些路径即为两个实体之间的推理路径。

图 2为一个知识图谱局部图, 可以看出, u186到i322的生成的推理路径共有6条, 分别为“u186→i1042→g3→i322”“u186→i79→g3→i322”“u186→i291→g3→i322”“u186→i55→g3→i322”“u186→i540→g3→i322”和“u186→i540→a152→i322”。其中:推理路径“u186→i540→g3→i322”可以表示用户u186喜欢电影i540, 电影i540属于g3流派, 电影i322也属于g3流派, 因此, 用户u186也可能喜欢电影i322;推理路径“u186→i540→a152→i322”可以表示用户u186喜欢电影i540, 电影i540的演员有a152, 电影i322也被a152演过, 因此, 用户u186也可能喜欢电影i322, ……。该例强调了连接同一个实体对的不同路径通常带有不同语义关系。通常, 它们在描述用户对物品的喜好方面具有不同的重要性。区别这些路径的重要性并综合这些路径的推理结果得到预测评分, 可使推理过程具有较好的可解释性。RCKD模型即使用深度学习的方式模拟这些路径的推理过程, 再对其重要性加以区分, 最后综合这些路径的推理语义得到预测评分。

	Download: JPG larger image
图 2 知识图谱局部图 Fig. 2 Local graph of knowledge graph

2.1.2 推理路径嵌入向量生成

深度学习在自然语言处理、图像处理等领域的成功应用得益于其强大的表示学习能力。因此, 本文利用知识表示学习TransE算法得到知识图谱推理路径嵌入向量。TransE的基本原理是给定三元组(h, r, t), 以关系r的向量l_r作为头实体向量l_h和尾实体向量l_t之间的平移。TransE的损失函数定义为:

$ \operatorname{loss}_{r}(\boldsymbol{h}, \boldsymbol{t})=\left|\boldsymbol{l}_{h}+\boldsymbol{l}_{r}-\boldsymbol{l}_{t}\right|_{\mathrm{L} 1 / \mathrm{L} 2} $

(1)

即l_h+l_r到l_t的L1或L2距离。

在实际训练过程中, 为加强知识表示的区分能力, TransE采用了最大间隔方法, 定义了优化目标函数:

$ {\mathop{\rm loss}\nolimits} = {\sum\limits_{(\mathit{\boldsymbol{h}},\mathit{\boldsymbol{r}},\mathit{\boldsymbol{t}}) \in S} \sum\limits_{\left( {{\mathit{\boldsymbol{h}}^\prime },{\mathit{\boldsymbol{r}}^\prime },{\mathit{\boldsymbol{t}}^\prime }} \right) \in {S^ - }}} {\max } \left( {0,{f_r}(\mathit{\boldsymbol{h}},\mathit{\boldsymbol{t}}) + \gamma - {f_{{r^\prime }}}\left( {{\mathit{\boldsymbol{h}}^\prime },{\mathit{\boldsymbol{t}}^\prime }} \right)} \right) $

(2)

其中, S为合法三元组的集合, S^－为错误三元组的集合, γ为合法三元组得分与错误三元组得分之间的间隔距离。

错误三元组并非随机产生。为选取有代表性的错误三元组, TransE将S中每个三元组的头实体、关系和尾实体其中之一随机替换为其他实体或关系来得到S^－。

通过TransE对所有三元组的训练, 每一个实体k可以表示成为一个向量e_k。一对实体u-i第m条路径的嵌入表示如式(3)所示:

$ {\mathit{\boldsymbol{p}}_{{\rm{uim }}}} = \left[ {{\mathit{\boldsymbol{e}}_{{\rm{uim1 }}}},{\mathit{\boldsymbol{e}}_{{\rm{uim2 }}}}, \cdots ,{\mathit{\boldsymbol{e}}_{{\rm{uim }}n}}, \cdots } \right] $

(3)

其中, e_uimn表示用户u到物品i的第m条路径中第n个实体的嵌入向量。

2.1.3 预测评分的生成

在生成预测评分时, 首先通过长短期记忆(Long Short-Term Memory, LSTM)^[22]和soft attention^[23]机制捕获路径的推理语义, 然后通过maxpooling操作区分不同路径推理语义的重要性, 最后用全连接汇集池化向量并经sigmoid函数生成预测评分。

以推理路径“u186→i540→g3→i322”为例, 此路径表示用户u186喜欢电影i540, 电影i540属于g3流派, 电影i322也属于g3流派, 因此, 用户u186也可能喜欢电影i322。这个推理过程是逐步得到的, 因此, 可以采用循环神经网络(Recurrent Neural Network, RNN)捕获推理的语义。本文选取的是能够有效解决RNN梯度消失和梯度爆炸问题的LSTM机制。

LSTM单元如图 3所示, 其中包含3类门控, 即输入门、遗忘门和输出门, 分别使用i、f和o来表示。此外, LSTM中还包含记忆单元c和输出值h。

	Download: JPG larger image
图 3 LSTM单元 Fig. 3 LSTM unit

LSTM迭代的第t时刻各值的计算公式如下:

$ {\mathit{\boldsymbol{i}}_t} = \sigma \left( {{\mathit{\boldsymbol{A}}_{xi}}{\mathit{\boldsymbol{x}}_t} + {\mathit{\boldsymbol{A}}_{hi}}{\mathit{\boldsymbol{h}}_{t - 1}} + {\mathit{\boldsymbol{b}}_i}} \right) $

(4)

$ {\mathit{\boldsymbol{f}}_t} = \sigma \left( {{\mathit{\boldsymbol{A}}_{xf}}{\mathit{\boldsymbol{x}}_t} + {\mathit{\boldsymbol{A}}_{hf}}{\mathit{\boldsymbol{h}}_{t - 1}} + {\mathit{\boldsymbol{b}}_f}} \right) $

(5)

$ {\mathit{\boldsymbol{o}}_t} = \sigma \left( {{\mathit{\boldsymbol{A}}_{xo}}{\mathit{\boldsymbol{x}}_t} + {\mathit{\boldsymbol{A}}_{ho}}{\mathit{\boldsymbol{h}}_{t - 1}} + {\mathit{\boldsymbol{b}}_o}} \right) $

(6)

$ {{\mathit{\boldsymbol{c}}_t} = {\mathit{\boldsymbol{f}}_t} \odot {\mathit{\boldsymbol{c}}_{t - 1}} + {\mathit{\boldsymbol{i}}_t} \odot \tanh \left( {{\mathit{\boldsymbol{A}}_{xc}}{\mathit{\boldsymbol{x}}_t} + {\mathit{\boldsymbol{A}}_{hc}}{\mathit{\boldsymbol{h}}_{t - 1}} + {\mathit{\boldsymbol{b}}_c}} \right)} $

(7)

$ {{\mathit{\boldsymbol{h}}_t} = {\mathit{\boldsymbol{o}}_t} \odot \tanh \left( {{\mathit{\boldsymbol{c}}_t}} \right)} $

(8)

其中, A和b分别为LSTM的权重矩阵和偏置向量, ⊙表示Hadamard乘积。

为避免网络过拟合, 本文对每条路径都采用同一个LSTM捕获语义。将已嵌入的路径向量p_uim输入LSTM, 能够得到LSTM推理中每一次迭代的推理语义, 实体对u-i第m条路径的输出语义可表示为:

$ \boldsymbol{h}_{\text {uim }}=\left[\boldsymbol{h}_{\text {uim1 }}, \boldsymbol{h}_{\text {uim } 2}, \cdots, \boldsymbol{h}_{\text {uim } n}, \cdots\right] $

(9)

为使最后推理的语义与推理过程中每次迭代得到的推理语义关联性更强, 本文使用了soft attention机制。通过此层能够求得LSTM每一次迭代推理得到的语义对最后一次迭代推理语义的影响度, 并总结出这个路径的最终语义。假设对于实体对u-i第m条路径有l个实体, 对于LSTM第n次迭代推理语义的attention权重W_uimn计算公式如下:

$ {{\mathit{\boldsymbol{s}}_{{\rm{uim }}n}} = {\mathit{\boldsymbol{h}}_{{\rm{uim }}l}} \cdot {\mathit{\boldsymbol{h}}_{{\rm{uim }}n}}} $

(10)

$ {{\mathit{\boldsymbol{W}}_{{\rm{uim }}n}} = \frac{{\exp \left( {{s_{{\rm{uim }}n}}} \right)}}{{\sum\limits_{k = 1}^l {\exp } \left( {{s_{{\rm{uim }}k}}} \right)}}} $

(11)

此条路径经过soft attention处理后得到的最终语义可由式(12)得到:

$ {\mathit{\boldsymbol{q}}_{{\rm{uim }}}} = \sum\limits_{n = 1}^l {{\mathit{\boldsymbol{h}}_{{\rm{uim }}n}}} {\mathit{\boldsymbol{W}}_{{\rm{uim }}n}} $

(12)

为区分路径推理语义的不同重要程度, 本文选择了池化操作。池化操作能够关注向量最重要的特征或综合的特征, 符合本文需要关注路径语义不同重要性的要求。经实验验证, maxpooling效果优于avgpooling, 因此, 选取maxpooling池化操作。最后通过全连接层汇聚所有路径的池化向量, 经过sigmoid函数产生u-i的预测评分D_ui, 如式(13)所示:

$ {D_{ui}} = \frac{1}{{1 + {{\rm{e}}^{ - {\rm{mpooling\_on}}\left( {\left[ {{{\rm{q}}_{ui{\rm{1}}}},{{\rm{q}}_{ui{\rm{2}}}}, \cdots ,{{\rm{q}}_{uin}}, \cdots } \right]} \right)}}}} $

(13)

其中, mpooling_con的mpooling和con分别代表maxpooling操作和全连接操作。

2.2 RCKC模型

协同过滤方法虽然不能解释推荐结果, 但具有较高的推荐准确率。为使协同过滤具有更好的解释性, 本文提出了RCKC模型。RCKC结合知识图谱与协同过滤方法, 采用TransE方法得到知识图谱中实体语义表示向量, 再利用协同过滤思想根据向量的相似性推荐与用户喜欢物品语义相近的物品。

根据2.1.2节可知, 每个实体都可以用TransE算法得到对应的语义表示向量。RCKC根据这些语义表示向量计算每个物品和其他物品的语义相似性。对物品i和物品j的语义相似性进行评分, 计算公式如下:

$ {I_{ij}} = {I_{ji}} = \frac{1}{{1 + {\rm{||}}{\mathit{\boldsymbol{e}}_i} - {\mathit{\boldsymbol{e}}_j}{\rm{|}}{{\rm{|}}_1}}} $

(14)

以I表示整个语义相似矩阵, I_ij表示物品i和物品j的语义相似性评分, ||e_i－e_j||₁表示e_i－e_j的L1范数结果, 即将e_i－e_j向量的每个分量的绝对值相加。

假设用户u历史评分集为T_u, 需要预测的物品集为E_u, 对于item_k∈T_u, item_i∈E_u, 用户u对物品item_k的评分为R_uk, 物品item_k和item_i语义相似性评分表示为I_ki, 预测用户u对物品i的评分为C_ui。用户u对物品i的预测评分计算公式如下:

$ {C_{ui}} = \sum\limits_{{\rm{ite}}{{\rm{m}}_k} \in {T_u}} {{I_{ki}}} \cdot {R_{uk}} $

(15)

RCKC模型中预测评分列表生成方法如算法1所示, 其中, E_u={item₁, item₂, …}, T_u={R_u1, R_u2, …}。

算法1 RCKC评分列表生成算法

输入历史评分集T_u, 需要预测的用户物品集E_u, 语义相似矩阵I

输出 RCKC预测评分列表C

1.for E_u∈{E₁, E₂, …, E_n} and T_u∈{T₁, T₂, …, T_n} do:

2.for item_i∈E_u do:

3.for R_uk∈T_u do:

4.C_ui←C_ui+R_uk×I_ki

5.end for

6.end for

7.end for

RCKC推荐的评分预测利用知识表示学习的语义相似性推荐与用户历史喜好的最接近物品, 具有较好的可解释性。

2.3 HCKDC模型

HCKDC模型为融合RCKD模型和RCKC模型的总体模型。本文借鉴了文献[15]中的第1种融合策略, 即将矩阵分解和RNN推荐对应预测评分相加, 经过sigmoid函数产生最终的预测评分。用户u和物品i的RCKC预测评分是C_ui, RCKC模型的预测评分是D_ui, 最后融合生成的预测评分计算公式如下:

$ {L_{ui}} = \frac{1}{{1 + {{\rm{e}}^{ - \left( {\alpha \cdot {C_{ui}} + \beta \cdot {D_{ui}} + b} \right)}}}} $

(16)

其中, α、β分别为RCKC预测评分C_ui和RCKD的预测评分D_ui的比例系数, b为偏置项。

融合策略的训练过程根据RCKC和RCKD预测得分的准确性自动调整其对最终模型的影响程度, 同时优化RCKC和RCKD的内部参数, 因此, 具有很好的可解释性。

用户的推荐列表通过用户对物品最后预测评分从大到小排序得到, 用户推荐列表生成算法如算法2所示, 其中, E_u={item₁, item₂, …}。

算法2 HCKDC推荐列表生成算法

输入需要预测的物品集E_u, RCKC推荐预测评分列表C, RCKD预测评分列表D, RCKC比例系数α, RCKD比例系数β, 偏置项b

输出 HCKDC推荐列表L

1.for E_u∈{E₁, E₂, …, E_n} do:

2.for item_i∈E_u do:

3.L_ui←α×C_ui+β×D_ui+b

4.end for

5.sort(L_u)

6.end for

3 实验与结果分析 3.1 数据集

本文实验使用MovieLens-100K数据集。在此基础上, 在IMDB中爬取电影流派、导演、演员信息作为辅助信息, 以此扩展知识库, 使知识图谱能够获得更好的性能。

MovieLens-100K数据集包含943个用户、1 682个电影和100 000个评分。去除缺失数据后的数据集如表 1所示。这些数据映射到知识图谱后, 共包含7 746个实体、8种关系和202 183个三元组。其中, 三元组不包含测试集中正样本集的评分与被评分关系三元组。

下载CSV 表 1 去除缺失数据后的数据集 Table 1 Data set after removing the missing data

在协同过滤中测试考虑评分值和不考虑评分值的情况, 可知推荐效果差距很小, 甚至考虑评分后还有推荐效果下降的趋势。因此, 实验不考虑评分值, 即如果用户对某个电影有评分, 就假设为该用户喜欢该电影, 评分置为1。将该用户不喜欢的电影评分设为0。

为使实验数据具有可比性, 对所有的实验都采用相同的训练集和测试集。产生的训练集和测试集的正样本是对加入辅助信息后的99 975个评分数据以4:1的比例进行拆分得到的。测试集正样本的作用是检验模型产生的推荐列表中物品是否准确。

对于训练集中负样本的选取, 本文采用随机抽取的方式。为使模型能够学到更多的负样本信息, 设定对每个用户抽取的负样本数据量是训练集正样本的120%。

由于随机选取了一些负样本作为训练集, 如果不把这些负样本纳入测试集, 相较于协同过滤等方法, 会使得到的测试集中可能包含的负样本更少, 影响预测结果的真实性, 因此, 将除训练集中正样本的其他所有样本作为测试集。

3.2 路径抽取

文献[19]已证明, 越短的路径对推荐结果越重要, 并且路径长度超过5时会引入噪声。为加速路径抽取过程和训练过程, 本文对每一对user-item最多只挖掘5条最短的路径, 即最多挖掘5条长度为3的路径。

在路径抽取时, 先抽取训练时所用到的正负样本的路径, 再抽取用户到其他物品的路径。

3.3 评价指标

实验采用的评价指标为precision@N和MMR@N。precision@N表示每个用户推荐列表前N项在测试集正样本中出现的概率的均值, N取值包括1、5、10。MMR@N定义如式(17)所示:

$ {\rm{MMR}}@N = \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{{v_j} \in {\mathop{\rm test}\nolimits} \left( {{u_i}} \right)} {\frac{1}{{{\mathop{\rm rank}\nolimits} \left( {{u_i},{v_j}} \right)}}} } $

(17)

其中, N设定为10, v_j是在top-N推荐列表中正确出现在测试集正样本的项, rank(u_i, v_j)表示v_j在用户u_i推荐列表的位置数。

3.4 模型设置

考虑到所有user-item路径数量的不确定性, 在池化操作中如果用相同池化窗口和池化步长会引起数据维度不一致。因此, 根据路径数量动态地调整池化窗口和池化步长, 大小均为(paths_size, 1)。

为保证RCKD有效性, 本文设置预训练次数, 即在不融合的情况下单独训练RCKD的次数。实验中RCKD训练6次时效果最好, 因此, 将预训练次数设置为6次。α、β、b初始值均为0。LSTM隐藏单元数为64, 学习率为0.1, 优化方法采用随机梯度下降法。

针对RCKC和RCKD不同推荐列表的预测评分差异性问题, 同时考虑到RCKD模型的预测评分属于[0, 1]范围, 在得到RCKC模型的所有推荐结果后, 对推荐列表从前到后以1到0递减的顺序重新设置评分。

3.5 结果分析

在公开数据集MovieLens-100K中进行实验, 比较方法为近期比较先进的可解释推荐方法RKGE和RippleNet。此外, 选取经典的协同过滤算法进行对比。实验结果如表 2和表 3所示, 其中:User-based-CF表示基于用户的协同过滤算法; User-based-CF-CR表示考虑评分值的基于用户的协同过滤算法; Item-based-CF表示基于物品的协同过滤算法; Item-based-CF-CR表示考虑评分值的基于物品的协同过滤算法。由表 3可见, 基于用户的协同过滤考虑评分值时各性能指标轻微下降, 基于物品的协同过滤考虑评分值时precision@10指标也有所下降。

下载CSV 表 2 本文模型与RKGE和RippleN的实验结果 Table 2 Experimental results of the proposed model, RKGE and RippleN

下载CSV 表 3 经典协同过滤算法的实验结果 Table 3 Experimental results of classical collaborative filtering algorithms

从表 2和表 3可以看出, 本文HCKDC模型的推荐准确性在所有比较方法中最高, 协同过滤、RCKC、RCKD其次, RippleNet和RKGE最差。可以发现, 可解释推荐算法RippleNet和RKGE虽然对其推荐可解释性较好, 但推荐效果不如协同过滤。在同时具有较好可解释性情形下, RippleNet和RKGE推荐效率也低于本文的RCKD和RCKC模型。此外, 很容易观察到RCKC和RCKD在融合之后推荐准确率得到进一步提高, 这证明了融合策略的有效性。本文模型的可解释性已在上文第2节具体描述, 由实验结果可知, 该模型取得了最高的推荐准确率, 证明其在有较好可解释性的情况下具有更高的推荐准确率, 验证了其先进性。

HCKDC训练过程中各数据如图 4~图 6所示。

	Download: JPG larger image
图 4 HCKDC训练过程中precision的变化 Fig. 4 Change of precision during training process of HCKDC

	Download: JPG larger image
图 5 HCKDC训练过程中MRR@10的变化 Fig. 5 Change of MRR@10 during training process of HCKDC

	Download: JPG larger image
图 6 HCKDC训练过程中α与β比值的变化 Fig. 6 Change of ratio of α and β during training process of HCKDC

由图 4和图 5可以看出, MRR@10和precision在epoch为28左右时最好。由图 6可以看出, 当训练次数为15次左右时, α和β比值基本维持在16.5左右, 可见RCKD对整个模型的影响程度很小。但RCKD和RCKC融合后整体推荐效率提高, 说明RCKD有效修正了融入知识图谱后协同过滤的推荐结果。

4 结束语

本文构建一种结合知识图谱、深度学习和协同过滤的混合推荐模型HCKDC, 其由RCKD和RCKC模型构成。RCKD模型将知识图谱推理结合深度学习模拟得到预测评分, RCKC模型将知识图谱表示学习结合协同过滤思想得到预测评分。把两种推荐模型得到的同一用户对同一物品的不同预测评分分别乘以系数相加, 再加上一个偏置项, 把所得结果作为用户对该物品的最终喜好程度, 并通过对用户按物品预测评分从高到低排序得到最终的物品推荐列表。实验结果表明, 相较于RKGE、RippleNet模型和经典协同过滤算法, HCKDC模型在可解释的情况下能够达到更高的推荐准确率。下一步将引入电影海报等更多内容信息, 以扩大本文模型的推荐范围。

参考文献

[1]	ZHU Wenyue, LIU Wei, LIU Zongtian. News personalized recommendation based on event ontology[J]. Computer Engineering, 2019, 45(6): 267-272, 279. (in Chinese) 朱文跃, 刘炜, 刘宗田. 基于事件本体的新闻个性化推荐[J]. 计算机工程, 2019, 45(6): 267-272, 279.
[2]	RESNICK P, IACOVOU N, SUCHAK M, et al.GroupLens: an open architecture for collaborative filtering of netnews[C]//Proceedings of 1994 ACM Conference on Computer Supported Cooperative Work.New York, USA: ACM Press, 1994: 175-186.
[3]	SARWAR B, KARYPIS G, KONSTAN J, et al.Item-based collaborative filtering recommendation algorithms[C]//Proceedings of International Conference on World Wide Web.New York, USA: ACM Press, 2001: 285-295.
[4]	KOREN Y.Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA: ACM Press, 2008: 426-434.
[5]	EKSTRAND M D. Evaluating collaborative filtering recommender systems[J]. ACM Transactions on Information Systems, 2007, 22(1): 5-53.
[6]	ZHANG Yongfeng, CHEN Xu. Explainable recommendation:a survey and new perspectives[J]. Foundations and Trends in Information Retrieval, 2018, 14(1): 1-101.
[7]	RICCI F, ROKACH L, SHAPIRA B, et al.Recommender systems handbook[M].New York, USA: Springer US, 2011.
[8]	PAZZANI M J.Content-based recommendation systems[M]//BRUSILOVSKY P, KOBSA A, NEJDL W.The adaptive Web.Berlin, Germany: Springer, 2007: 325-341.
[9]	GUAN Saiping, JIN Xiaolong, JIA Yantao, et al. Knowledge reasoning over knowledge graph:a survey[J]. Journal of Software, 2018, 29(10): 2966-2994. (in Chinese) 官赛萍, 靳小龙, 贾岩涛, 等. 面向知识图谱的知识推理研究进展[J]. 软件学报, 2018, 29(10): 2966-2994.
[10]	SALAKHUTDINOV R, MNIH A, HINTON G.Restricted Boltzmann machines for collaborative filtering[C]//Proceedings of the 24th International Conference on Machine Learning.New York, USA: ACM Press, 2007: 791-798.
[11]	HUANG Posen, HE Xiaodong, GAO Jianfeng, et al.Learning deep structured semantic models for Web search using clickthrough data[C]//Proceedings of the 22nd ACM International Conference on Information and Knowledge Management.New York, USA: ACM Press, 2013: 2333-2338.
[12]	HE Xiangnan, LIAO Lizi, ZHANG Hanwang, et al.Neural collaborative filtering[EB/OL].[2019-08-10].https://arxiv.org/pdf/1708.05031.pdf.
[13]	ZHANG Shuai, YAO Lina, SUN Aixin, et al. Deep learning based recommender system:a survey and new perspectives[J]. ACM Computing Surveys, 2019, 52(1): 1-38.
[14]	WU Xiyu, CHEN Qimai, LIU Hai, et al. Collaborative filtering recommendation algorithm based on representation learning of knowledge graph[J]. Computer Engineering, 2018, 44(2): 226-232, 263. (in Chinese) 吴玺煜, 陈启买, 刘海, 等. 基于知识图谱表示学习的协同过滤推荐算法[J]. 计算机工程, 2018, 44(2): 226-232, 263.
[15]	ZHAO Wei, CHAI Haixia, WANG Benyou, et al.Leveraging long and short-term information in content-aware movie recommendation[EB/OL].[2019-08-10].https://arxiv.org/pdf/1712.09059.pdf.
[16]	SUN Zhu, YANG Jie, ZHANG Jie, et al.Recurrent knowledge graph embedding for effective recommendation[C]//Proceedings of the 12th ACM Conference on Recommender Systems.New York, USA: ACM Press, 2018: 297-305.
[17]	WANG Hongwei, ZHANG Fuzheng, WANG Jialin, et al.RippleNet: propagating user preferences on the knowledge graph for recommender systems[C]//Proceedings of the 27th ACM International Conference.New York, USA: ACM Press, 2018: 417-426.
[18]	SHI Y, LARSON M, HANJALIC A. Collaborative filtering beyond the user-item matrix:a survey of the state of the art and future challenges[J]. ACM Computing Surveys, 2014, 47(1): 1-45.
[19]	SUN Yizhou, HAN Jiawei, YAN Xifeng, et al. PathSim:meta path-based top-k similarity search in heterogeneous information networks[J]. Proceedings of the VLDB Endowment, 2011, 4(11): 992-1003. DOI:10.14778/3402707.3402736
[20]	LIU Zhiyuan, SUN Maosong, LIN Yankai, et al. Knowledge representation learning:a review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261. (in Chinese) 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247-261.
[21]	BORDES A, USUNIER N, GARCÍADURÁN A, et al.Translating embeddings for modeling multi-relational data[C]//Proceedings of International Conference on Neural Information Processing Systems.[S.l]: Curran Associates, Inc., 2013: 2787-2795.
[22]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[23]	XU K, BA J, KIROS R, et al.Show, attend and tell: neural image caption generation with visual attention[C]//Pro-ceedings of International Conference on Machine Learning.Lille, France: [s.n.], 2015: 2048-2057.