2. 天津大学 电气自动化与信息工程学院, 天津 300072;
3. 天津大学 国际工程师学院, 天津 300072
2. School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;
3. International Engineering Institute, Tianjin University, Tianjin 300072, China
开放科学(资源服务)标志码(OSID):
随着互联网和人工智能等信息技术的快速发展,信息量呈指数级的增长,信息过载问题日益突出。为解决这一问题,个性化推荐系统应运而生[1]。个性化推荐系统根据用户历史行为数据进行建模分析用户偏好,进而为其提供个性化的信息推荐,方便用户获取自身需求的信息[2-4]。推荐系统在给每位用户提供有针对性的商品信息推荐服务的同时过滤掉了那些用户并不感兴趣的信息,有效地节约了人们的信息筛选时间。个性化推荐系统由于在信息推荐方面的优秀表现,已成为热点研究方向。
随着各类互联网业务的快速发展,各种辅助信息的获取越来越容易,而将这些辅助信息应用于推荐算法中,将提升推荐性能,但这也对推荐算法的建模能力提出新的挑战。基于图模型的推荐算法是当前的热点方向,但是不易融合辅助信息,而网络表示学习(Network Representation Learning,NRL)强大的网络提取能力与基于图模型的推荐算法相结合,能提升算法的可扩展性。总体而言,网络表示学习是以稠密、低维的向量形式表示网络中的各个节点,并使这些低维向量具有表示和推理能力,从而将这些向量作为输入应用于节点分类、链接预测和推荐系统中。
基于上述设计思路,研究人员将网络表示学习技术应用于推荐算法中以提高其建模能力。ZHANG等[5]利用TransR提取物品的结构化信息,并融合物品的结构化信息、文本信息与视觉信息进行推荐。BARKAN等[6]借鉴Google提出的Word2vec方法,实现基于物品的协同过滤推荐。ZHOU等[7]提出一种针对非对称结构的基于随机游走的网络表示学习方法。本文对经典DeepWalk[8]算法进行改进,面向推荐目标与被推荐对象为相同类型的应用场景,提出一种基于随机游走的网络表示学习推荐算法RANE。
1 相关工作NRL技术在早期主要是对稀疏高维的节点进行降维表示,包括主成分分析(Principal Component Analysis,PCA)、局部线性嵌入(Locally Linear Embedding,LLE)[9]、拉普拉斯特征映射[10]等,但算法复杂度较高且应用条件较严苛,因此很难在大规模的网络中部署应用。随着NRL技术的发展,研究人员致力于将其与推荐算法相结合,因此Word2vec模型[11]、DeepCrossing模型[12]等应用于推荐系统的算法模型由此被提出。
Word2vec[11]模型可以较好地计算词与词之间的相似度,SkipGram模型是其中的词向量训练模型。对于中心词而言,该网络模型在提高上下文单词出现概率的同时降低其他无关单词的出现概率。由于训练网络所使用的词汇表通常很大,如果每次预测上下文之后更新全部词汇表,则会导致过大的计算量,因此需要优化模型加速训练过程。在基于Negative Sampling的SkipGram模型中,对于中心词
$ g\left(w\right)=\prod\limits _{u\in \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}\left(w\right)}\prod \limits_{x\in \left\{u\right\}\bigcup \mathrm{N}\mathrm{e}\mathrm{g}\left(u\right)}p\left(x\right|w) $ | (1) |
其中:对于
$ P\left({w}_{i}\right)=\frac{f({w}_{i}{)}^{3/4}}{\sum \limits_{j=0}^{n}f({w}_{j}{)}^{3/4}} $ | (2) |
引入标志位
$ p\left(x|w\right)={\left[\sigma \left({\boldsymbol{v}}_{w}^{\mathrm{T}}{\boldsymbol{v}}_{x}\right)\right]}^{{L}^{u}\left(x\right)}\cdot {\left[1-\sigma \left({\boldsymbol{v}}_{w}^{\mathrm{T}}{\boldsymbol{v}}_{x}\right)\right]}^{1-{L}^{u}\left(x\right)} $ | (3) |
其中:
$ G=\prod \limits_{w\in C}g\left(w\right) $ | (4) |
为方便计算,取对数后可得最终的目标函数:
$ \begin{array}{l}\mathcal{L}=\sum \limits_{w\in C} \sum\limits _{u\in \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}\left(w\right)} \sum\limits _{x\in \left\{u\right\}\bigcup \mathrm{N}\mathrm{e}\mathrm{g}\left(u\right)}\left\{{L}^{u}\left(x\right)\cdot \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\sigma \left({\boldsymbol{v}}_{w}^{\mathrm{T}}{\boldsymbol{v}}_{x}\right)\right.+\\ \left.\left[1-{L}^{u}\left(x\right)\right]\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left[1-\sigma \left({\boldsymbol{v}}_{w}^{\mathrm{T}}{\boldsymbol{v}}_{x}\right)\right]\right\}&\end{array} $ | (5) |
DeepWalk[8]将自然语言处理(Natural Language Processing,NLP)应用于NRL中。DeepWalk将网络中通过随机游走得到固定长度的节点序列看作是NLP中的语句,将序列中的节点看作NLP中的单词,通过实验表明由随机游走得到的节点序列组成的语料库与NLP的语料库具有相似的幂律分布特性[8],对应真实网络的小世界特性说明该节点序列能有效描述网络结构信息,进而使用Word2vec中的SkipGram模型进行网络中节点的表示学习,并通过Hierarchical Softmax模型加速训练过程。
Node2vec[13]算法在DeepWalk基础上进行改进,在DeepWalk中随机游走是从当前节点的邻居节点中随机均匀地选取下一个节点,而Node2vec设计了两个参数p和q,p控制跳向上一个节点的概率,q控制跳向非上一个节点的邻居节点的概率,并以此控制随机游走的倾向。若p < 1 & q > 1,则游走偏广度优先遍历,着重刻画局部信息;若p > 1 & q < 1,则游走偏深度优先遍历,着重刻画全局信息。偏置参数的添加虽增加了算法的计算量,但使算法具有更强的可扩展性。
上述基于随机游走的算法主要考虑的是网络的一阶距离(两节点有直接连边),而LINE[14]算法中提出了网络的二阶距离(两节点有共同的邻居节点)的概念,用更多的邻域来丰富节点的表示。GraRep[15]算法则将一阶、二阶距离推广到了n阶,定义网络的n阶距离矩阵,使用SVD算法对网络的1到n阶矩阵进行分解,每个节点的特征由1到n阶组合表示。
TADW[16]算法证明了DeepWalk本质上与矩阵分解是相同的,并在已经较为成熟的矩阵分解框架下,将文本特征引入网络表示学习。设节点的邻接矩阵为M,算法将M分解为3个矩阵的乘积,其中矩阵T是固定的文本特征向量,另外2个矩阵W与H为参数矩阵,使用共轭梯度下降法更新W与H矩阵求解参数,如图 1所示。
![]() |
Download:
|
图 1 TADW矩阵分解模型示意图 Fig. 1 Schematic diagram of TADW matrix decomposition model |
上述均为网络表示学习技术的热门算法,这些算法在推荐系统领域表现出较好的性能。本文受DeepWalk算法的启发,提出RANE算法,针对随机游走和网络表示两部分分别进行改进,修正游走序列数和游走长度,网络学习中融合属性信息,最终将输出用于推荐系统中,有效地提高了推荐性能。
2 本文算法在原始的DeepWalk算法中,各节点在网络中进行均匀的随机游走,进而得到固定长度、固定数量的游走序列,然后通过SkipGram模型学习节点的向量表示。本文在DeepWalk算法的基础上进行改进,RANE算法具体步骤如下:
算法1 RANE算法
输入 图
输出 节点向量矩阵
1.初始化
2.迭代计算出每个节点的重要性
3.for
4.
5.for
6.
7.ASkipGram(
8.end for
9.end for
10.return
在算法1中,首先基于网络重要性进行随机游走采样得到节点序列库,并设置停止概率控制序列长度;然后在表示学习过程中,融合属性信息进行学习;最后应用学习后的向量进行相似性表示,进而完成推荐任务。因为RANE算法是在原始DeepWalk中添加随机游走相关参数以及融合属性信息,并未涉及其他函数的加入,所以时空复杂度基本不变。
2.1 基于节点重要性的随机游走针对DeepWalk算法中采样点过多的问题,重新设计随机游走策略。对于网络节点
$ {l}_{v}=\mathrm{m}\mathrm{a}\mathrm{x}\left(H\left(v\right)\times \mathrm{m}\mathrm{a}\mathrm{x}T, \mathrm{m}\mathrm{i}\mathrm{n}T\right) $ | (6) |
其中:
$ \mathrm{P}\mathrm{R}\left(v\right)=\frac{1-d}{n}+d\sum\limits _{{v}_{i}\in M\left(v\right)}\frac{\mathrm{P}\mathrm{R}\left({v}_{i}\right)}{\mathrm{d}\mathrm{e}\mathrm{g}\left({v}_{i}\right)} $ | (7) |
其中:
另外,本文在游走过程中加入了停止概率
通过以上改进,使得重要的节点采样次数增加,可以更好地还原网络结构,并且序列长度不一,更接近真实情况。
2.2 融合属性信息的表示学习在获得节点序列库后,本文在表示学习阶段提出利用属性信息学习节点向量表示的ASkipGram模型。首先,应用自动编码器调整节点的属性维度[18-19],统一设置为
$ \boldsymbol{U}\left(v\right)=\frac{{\boldsymbol{W}}_{v}+{\mathrm{e}}^{{\boldsymbol{\beta }}_{v}}{\boldsymbol{A}}_{v}}{1+{\mathrm{e}}^{{\boldsymbol{\beta }}_{v}}} $ | (8) |
其中:
经过随机游走后,可采样得到节点
$ g\left(v\right)=\prod \limits_{u\in \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}\left(v\right)}\prod \limits_{x\in \left\{u\right\}\bigcup \mathrm{N}\mathrm{e}\mathrm{g}\left(u\right)}p\left(x\right|v) $ | (9) |
其中:
$ \begin{array}{l}p\left(x|v\right)={\left[\sigma \left({\lambda }_{x, v}\boldsymbol{U}{\left(v\right)}^{\mathrm{T}}{\boldsymbol{W}}_{x}^{\mathrm{*}}\right)\right]}^{{L}^{u}\left(x\right)}\cdot \\ {\left[1-\sigma \left(\boldsymbol{U}{\left(v\right)}^{\mathrm{T}}{\boldsymbol{W}}_{x}^{\mathrm{*}}\right)\right]}^{1-{L}^{u}\left(x\right)}\end{array} $ | (10) |
其中:
$ {\lambda }_{x, v}=\frac{1}{\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left(D\right(x, v)+1)} $ | (11) |
其中:
将对单个节点
$ G=\prod \limits_{v\in C}g\left(v\right) $ | (12) |
将式(9)和式(10)代入式(12),为方便计算对式(12)取对数作为最终函数:
$ \begin{array}{l}\mathcal{L}=\sum \limits_{v\in C}\sum \limits_{u\in \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}\left(v\right)}\sum \limits_{x\in \left\{u\right\}\bigcup \mathrm{N}\mathrm{e}\mathrm{g}\left(u\right)}\left\{{L}^{u}\left(x\right)\cdot \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\sigma \left({\lambda }_{x, v}\boldsymbol{U}(v{)}^{\mathrm{T}}{\boldsymbol{W}}_{x}^{\mathrm{*}}\right)\right.+\\ \left.\left[1-{L}^{u}\left(x\right)\right]\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left[1-\sigma \left(\boldsymbol{U}(v{)}^{\mathrm{T}}{\boldsymbol{W}}_{x}^{\mathrm{*}}\right)\right]\right\}&\end{array} $ | (13) |
令
$ \frac{\partial \mathcal{L}}{\partial U\left(v\right)}=\left[{\lambda }_{x, v}{L}^{u}\left(x\right)-\left(1+{\lambda }_{x, v}{L}^{u}\left(x\right)-{L}^{u}\left(x\right)\right)\cdot \\ \sigma \left(\boldsymbol{U}{\left(v\right)}^{\mathrm{T}}{\boldsymbol{W}}_{x}^{\mathrm{*}}\right)\right]{\boldsymbol{W}}_{x}^{\mathrm{*}} $ | (14) |
$ \frac{\partial \mathcal{L}}{\partial {W}_{x}^{\mathrm{*}}}=\left[{\lambda }_{x, v}{L}^{u}\left(x\right)-\left(1+{\lambda }_{x, v}{L}^{u}\left(x\right)-{L}^{u}\left(x\right)\right)\cdot \\ \sigma \left(\boldsymbol{U}{\left(v\right)}^{\mathrm{T}}{\boldsymbol{W}}_{x}^{\mathrm{*}}\right)\right]\boldsymbol{U}\left(v\right) $ | (15) |
对于式(14),为在训练过程中针对每个节点进行属性权重的自适应调节,最终进行更新的参数为
$ \frac{\partial \mathcal{L}}{\partial {\boldsymbol{\beta }}_{v}}=\frac{\partial \mathcal{L}}{\partial \boldsymbol{U}\left(v\right)}\cdot \frac{\partial \boldsymbol{U}\left(v\right)}{\partial {\boldsymbol{\beta }}_{v}}=\frac{\partial \mathcal{L}}{\partial \boldsymbol{U}\left(v\right)}\cdot \frac{\left({A}_{v}-{\boldsymbol{W}}_{v}\right){\mathrm{e}}^{{\boldsymbol{\beta }}_{v}}}{{\left(1+{\mathrm{e}}^{{\beta }_{v}}\right)}^{2}} $ | (16) |
$ \frac{\partial \mathcal{L}}{\partial {\boldsymbol{W}}_{v}}=\frac{\partial \mathcal{L}}{\partial \boldsymbol{U}\left(v\right)}\cdot \frac{\partial \boldsymbol{U}\left(v\right)}{\partial {\boldsymbol{W}}_{v}}=\frac{\partial \mathcal{L}}{\partial \boldsymbol{U}\left(v\right)}\cdot \frac{1}{1+{\mathrm{e}}^{{\boldsymbol{\beta }}_{v}}} $ | (17) |
设梯度更新学习速率为
$ {\boldsymbol{W}}_{v}^{\mathrm{n}\mathrm{e}\mathrm{w}}={\boldsymbol{W}}_{v}^{\mathrm{o}\mathrm{l}\mathrm{d}}+\eta \frac{\partial \mathcal{L}}{\partial {\boldsymbol{W}}_{v}} $ | (18) |
$ {\boldsymbol{W}}_{x}^{\mathrm{*}\mathrm{n}\mathrm{e}\mathrm{w}}={\boldsymbol{W}}_{x}^{\mathrm{*}\mathrm{o}\mathrm{l}\mathrm{d}}+\eta \frac{\partial \mathcal{L}}{\partial {\boldsymbol{W}}_{x}^{\mathrm{*}}} $ | (19) |
$ {\boldsymbol{\beta }}_{v}^{\mathrm{n}\mathrm{e}\mathrm{w}}={\boldsymbol{\beta }}_{v}^{\mathrm{o}\mathrm{l}\mathrm{d}}+\eta \frac{\partial \mathcal{L}}{\partial {\boldsymbol{\beta }}_{v}} $ | (20) |
算法2 ASkipGram
1.for
2.
3.for
4.
5.
6.for
7.更新
8.end for
9.end for
10.end for
2.3 应用表示结果推荐在同质图的推荐中,以节点相似性为依据进行推荐,而其中必然应用到以向量形式对节点进行表示。根据上文计算结果,可以得到任意节点
$ {\boldsymbol{z}}_{v}={\boldsymbol{W}}_{v}+{\boldsymbol{\beta }}_{v}{\boldsymbol{A}}_{v} $ | (21) |
为方便进行统一的度量,先对向量进行L2范数归一化处理,然后使用向量内积的方式表示两节点的相似度,最终相似度计算结果如下:
$ s(v, x)=\frac{{\boldsymbol{z}}_{v}\cdot {\boldsymbol{z}}_{x}}{{‖{\boldsymbol{z}}_{v}‖}_{2}\cdot {‖{\boldsymbol{z}}_{x}‖}_{2}} $ | (22) |
对某一节点而言,利用式(22)计算出该节点与其他节点的相似度,排序后根据预先设定的阈值取出相似度高的节点进行推荐。
3 实验与结果分析 3.1 实验数据集实验选取3个数据集进行验证,分别为Cora、Citeseer和BlogCatalog,其中,Cora和Citeseer数据集来源于科学出版物网络,BlogCatalog来源于社交网络。具体统计信息如表 1所示。
![]() |
下载CSV 表 1 实验数据集信息 Table 1 Experimental dataset information |
本文选定以下4种算法与RANE算法进行对比:
1) DeepWalk[8]。该算法是本文算法的思想基础,采用均匀随机游走生成节点序列,并通过SkipGram模型进行网络表示学习。
2) Node2vec[13]。该算法针对DeepWalk的随机游走部分进行改进,控制随机游走偏向。
3) GraRep[15]。该算法是对LINE算法的扩展,定义了网络的n阶距离矩阵并使用SVD算法对网络的1到n阶矩阵进行分解,每个节点的特征由1到n阶的特征拼接表示。
4) TADW[16]。该算法是DeepWalk算法的扩展算法,将节点的文本信息特征矩阵融入到矩阵分解过程中,最终将得到的两个分解后的矩阵中的对应向量进行拼接,作为节点的最终嵌入表示。
3.3 评价指标采用ROC曲线下方面积(Area Under Curve,AUC)来评测推荐系统性能。在计算过程中,采用下式降低计算复杂度[20]:
$ {A}_{\mathrm{A}\mathrm{U}\mathrm{C}}=\frac{\sum \limits_{i\in \mathrm{p}\mathrm{o}\mathrm{s}}{r}_{\mathrm{r}\mathrm{a}\mathrm{n}{\mathrm{k}}_{i}}-\frac{M(M+1)}{2}}{M\times N} $ | (23) |
其中:
实验环境为Ubuntu 16.04,应用Python 3.6.5进行算法开发。为了控制实验中输出结果的可比较性,设定所有算法输出节点向量的维度均为128维,使用余弦相似度进行节点间的相似度计算。对于使用均匀随机游走的算法,规定任一节点游走的次数为20,序列长度为40,其余参数根据实验选择最优设定。RANE算法中
在实验过程中,选取数据集的10%作为测试集,其是在保证训练集中无孤立节点的情况下随机选取的,并且保证测试集中正采样与负采样数量相同。
3.5 结果分析 3.5.1 推荐性能分析改变训练集的数量比率(R),使其占数据集的40%~90%,测试集不变,均为上文设置。对不同数量训练集,每种算法进行10次独立测试,取平均值后作为该次实验的最终结果。
在Citeseer数据集上,5种算法的准确度对比结果如表 2所示。可以看出,RANE算法在不同的训练集比率下所得结果均优于其他算法,而在训练集比率为40%的情况下,优势最明显。
![]() |
下载CSV 表 2 5种算法在Citeseer数据集上的准确度对比结果 Table 2 Comparison results of the accuracy of five algorithms on the Citeseer dataset |
在Cora数据集上,5种算法的准确度对比结果如表 3所示,可以看出整体趋势和Citeseer数据集相同,RANE算法仍然具有最优的性能表现,且在训练集比率较低的情况下优势更明显。
![]() |
下载CSV 表 3 5种算法在Cora数据集上的准确度对比结果 Table 3 Comparison results of the accuracy of five algorithms on the Cora dataset |
在BlogCatalog数据集上,5种算法的准确度对比结果如表 4所示。综合3个数据集上所得结果可以看出,RANE算法相比其他算法具有更好的推荐效果,并且在训练集比率较小时优势更明显,主要原因笔者认为是该算法可以更好地解决冷启动问题。
![]() |
下载CSV 表 4 null对比结果 Table 4 Comparison results of the accuracy of five algorithms on the BlogCatalog dataset |
由于本文算法在DeepWalk算法上对随机游走和节点表示学习两部分均进行改进,为了测试每一部分的改进对最终结果的影响情况,本文对两部分进行了消融实验。RRANE算法表示仅改进随机游走部分,ARANE算法表示仅改进节点表示学习部分,在BlogCatalog数据集上进行消融实验,准确度结果如表 5所示。可以看出,两部分均对最终结果有一定的性能提升,但节点表示学习部分对整体算法的性能影响更大。
![]() |
下载CSV 表 5 RANE随机游走与节点表示学习模块的消融实验结果 Table 5 Results of ablation experiments of random walk and node representation learning module of RANE |
为验证改进后的随机游走策略对采样序列的修正效果,选取BlogCatalog数据集进行实验,结果如图 2所示。设置
![]() |
Download:
|
图 2 RANE随机游走序列节点分布 Fig. 2 Node distribution of random walk sequence of RANE |
在BlogCatalog数据集上对算法进行参数敏感性分析。本文分析
![]() |
Download:
|
图 3 min T与max T的参数敏感性实验 Fig. 3 Experiment on parameters sensitivity of min T and max T |
对随机游走部分的终止概率
![]() |
Download:
|
图 4 游走终止概率的参数敏感性实验 Fig. 4 Experiment on parameter sensitivity of walk termination probability |
由于RANE算法在计算节点相似性时引入了有关上下文节点与中心点距离的权重,因此需要对ASkipGram模型的窗口大小k进行参数敏感性分析,窗口大小依次设置为1、3、5、7、9、11、13、15。如图 5所示,随着窗口的不断增大,AUC值呈先增大后减小的变化趋势,说明窗口取得过大或过小都会影响节点网络特征的表征效果。
![]() |
Download:
|
图 5 ASkipGram模型窗口大小的参数敏感性实验 Fig. 5 Experiment on parameter sensitivity of window size of ASkipGram model |
测试节点嵌入维度d分别为16、32、64、128和256时的RANE算法AUC值,其他参数均为上文设置,在BlogCatalog数据集上的实验结果如图 6所示,可以看出在嵌入维度为128时AUC取得最优值。
![]() |
Download:
|
图 6 节点嵌入维度的参数敏感性实验 Fig. 6 Experiment on parameter sensitivity of node embedded dimension |
本文在DeepWalk算法的基础上,提出基于随机游走的网络表示学习推荐算法。根据节点重要性决定游走序列数,设置终止概率使得游走序列的长度不完全相同,从而更接近真实情况。同时,在节点表示学习过程中,融合节点的属性信息,自适应调整节点属性信息权重,并考虑上下文节点离中心节点的距离,以获得更准确的推荐结果。在3个数据集上的实验结果表明,该算法具有较好的推荐性能,并且有效解决了冷启动问题。但由于该算法随机游走部分设置的截止概率为随机生成,因此后续可将其与游走长度相关联,进一步提高推荐准确度。
[1] |
XIANG L. Recommended system practice[M]. Beijing: People's Posts and Telecommunications Press, 2012. (in Chinese) 项亮. 推荐系统实战[M]. 北京: 人民邮电出版社, 2012. |
[2] |
RESNICK P, VARIAN H R. Recommender systems[J]. Communications of the ACM, 1997, 40(3): 56-58. DOI:10.1145/245108.245121 |
[3] |
LIN S M, WANG G S, CHEN Y Q. User modeling and feature selection in personalized recommending system[J]. Computer Engineering, 2007, 33(17): 196-198, 230. (in Chinese) 林霜梅, 汪更生, 陈弈秋. 个性化推荐系统中的用户建模及特征选择[J]. 计算机工程, 2007, 33(17): 196-198, 230. DOI:10.3969/j.issn.1000-3428.2007.17.067 |
[4] |
MAO D L, TANG Y. Collaborative filtering algorithm based on attribution theory for user preference extraction[J]. Computer Engineering, 2019, 45(6): 225-229, 236. (in Chinese) 毛德磊, 唐雁. 基于归因理论用户偏好提取的协同过滤算法[J]. 计算机工程, 2019, 45(6): 225-229, 236. |
[5] |
ZHANG F Z, YUAN N J, LIAN D F, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2016: 353-362.
|
[6] |
BARKAN O, KOENIGSTEIN N. Item2vec: neural item embedding for collaborative filtering[C]//Proceedings of the 26th International Workshop on Machine Learning for Signal Processing. Washington D.C., USA: IEEE Press, 2016: 1-6.
|
[7] |
ZHOU C, LIU Y, LIU X, et al. Scalable graph embedding for asymmetric proximity[C]//Proceedings of AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2017: 2942-2948.
|
[8] |
PEROZZI B, AL-RFOU R, SKIENA S. DeepWalk: online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2014: 701-710.
|
[9] |
ROWEIS S T. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326. DOI:10.1126/science.290.5500.2323 |
[10] |
BELKIN M, NIYOGI P. Laplacian eigenmaps and spectral techniques for embedding and clustering[C]//Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic. New York, USA: ACM Press, 2002: 585-591.
|
[11] |
MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. [2020-05-11]. http://arxiv.org/pdf/1301.3781.
|
[12] |
SHAN Y, HOENS T R, JIAO J, et al. Deep crossing: Web-scale modeling without manually crafted combinatorial features[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2016: 255-262.
|
[13] |
GROVER A, LESKOVEC J. Node2vec: scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2016: 855-864.
|
[14] |
TANG J, QU M, WANG M Z, et al. LINE: large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015: 1067-1077.
|
[15] |
CAO S S, LU W, XU Q K. GraRep: learning graph representations with global structural information[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management. New York, USA: ACM Press, 2015: 891-900.
|
[16] |
YANG C, LIU Z, ZHAO D, et al. Network representation learning with rich text information[C]//Proceedings of International Joint Conference on Artificial Intelligence. New York, USA: ACM Press, 2015: 2111-2117.
|
[17] |
PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ranking: bringing order to the Web[EB/OL]. [2020-05-11]. https://blog.csdn.net/iicy266/article/details/12283937.
|
[18] |
VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th International Conference on Machine Learning. New York, USA: ACM Press, 2008: 1096-1103.
|
[19] |
NG A. Sparse autoencoder[EB/OL]. [2020-05-11]. https://www.mendeley.com/catalogue/a06882b2-8546-33a0-9803-53cf01f649cc/.
|
[20] |
MASON S J, GRAHAM N E. Areas beneath the Relative Operating Characteristics(ROC) and Relative Operating Levels(ROL) curves: statistical significance and interpretation[J]. Quarterly Journal of the Royal Meteorological Society, 2002, 128(584): 2145-2166. |