基于稀疏自编码器的属性网络嵌入算法

引用本文

张志敏, 柴变芳, 李文斌. 基于稀疏自编码器的属性网络嵌入算法[J]. 计算机工程, 2020, 46(7), 98-103, 109. DOI: 10.19678/j.issn.1000-3428.0054158.

ZHANG Zhimin, CHAI Bianfang, LI Wenbin. Attribute Network Embedding Algorithm Based on Sparse Auto-Encoder[J]. Computer Engineering, 2020, 46(7), 98-103, 109. DOI: 10.19678/j.issn.1000-3428.0054158.

基金项目

国家自然科学基金（61503260）

通信作者

李文斌(通信作者), 教授、博士

作者简介

张志敏(1984-), 女, 硕士, 主研方向为机器学习、网络表示学习;
柴变芳, 副教授、博士

文章历史

收稿日期：2019-03-08
修回日期：2019-05-08

Contents Abstract Full text Figures/Tables PDF

基于稀疏自编码器的属性网络嵌入算法

张志敏 , 柴变芳 , 李文斌

河北地质大学信息工程学院, 石家庄 050031

收稿日期：2019-03-08；修回日期：2019-05-08

基金项目：国家自然科学基金（61503260）

作者简介：张志敏(1984-), 女, 硕士, 主研方向为机器学习、网络表示学习; 柴变芳, 副教授、博士.

通信作者：李文斌(通信作者), 教授、博士.

E-mail: 363787211@qq.com

摘要：在多数属性网络嵌入算法中，拓扑结构的设计只考虑节点间直接链接，而未考虑节点间间接链接及不同节点的共同链接比，导致不能充分提取网络真实拓扑特征。针对该问题，提出一种基于稀疏自编码器的属性网络嵌入算法SAANE。根据网络拓扑提取二级邻居和共同邻居比并将其融入节点文本属性信息，对融合后的向量通过训练最优稀疏自编码网络得到节点低维嵌入向量。在5个真实网络上进行聚类和分类，实验结果表明，与DeepWalk、Node2Ves、LINE等8种主流算法相比，SAANE的聚类结果最优，NMI值平均提高5.83%，分类准确率平均提高4.53%。

Attribute Network Embedding Algorithm Based on Sparse Auto-Encoder

ZHANG Zhimin , CHAI Bianfang , LI Wenbin

School of Information Engineering, Hebei GEO University, Shijiazhuang 050031, China

Abstract: Most of attribute network embedding algorithms only consider the direct links between nodes when designing topology structure, not the indirect links or the common link ratio of different nodes, which leads to the inadequate extraction of the real network topology characteristics.To solve this problem, an attribute network embedding algorithm based on sparse auto-encoder, SAANE, is proposed.The second-level neighbor-to-common neighbor ratio is extracted according to the network topology.On this basis, the text attribute information of the node is fused, and the fused vector is trained to obtain the low-dimensional embedding vectors of the node by training the optimal sparse self-coding network.Results of clustering and classification experiments on five real networks show that, SAANE outperforms DeepWalk, Node2Ves, LINE and other five mainstream algorithms in terms of clustering performance, increasing the average NMI value by 5.83% and the average classification accuracy by 4.53%.

0 概述

随着网络信息技术的发展以及文献著作数量的迅速增加, 引文网络已经形成了一个超大规模的复杂网络^[1]系统, 然而此类网络数据^[2]的高维性、稀疏性和异质性制约了相关研究的发展^[3-5]。近年来, 很多学者提出了针对网络分析的网络嵌入算法^[6-7], 其将网络信息编码为低维稠密的实数向量, 并且得到的低维嵌入向量能够保持原有网络的属性和结构^[8-9]。由于此类向量在使用前必须做进一步的任务分析, 如节点分类、聚类、链接预测等^[10-11], 因此如何从原始网络中获取有效的网络嵌入向量非常重要。

目前已有多种获取网络嵌入向量的方法, 根据使用信息的不同主要分为两类:基于网络结构的嵌入方法, 以及基于网络结构和属性信息的嵌入方法。在基于网络结构的嵌入方法中:Deepwalk算法^[12]从网络结构的随机游走序列中得到节点的嵌入表示, 其改进算法Node2Vec算法^[13]又考虑游走深度与游走广度, 进一步提高了网络表示学习的性能; LINE算法^[14]用直接相连的两个节点刻画第一级相似度(即利用邻接矩阵), 用不直接连接的两个节点刻画第二级相似度(作为邻接矩阵的补充)进行概率建模, 并通过最小化概率分布和经验分布间的KL散度^[15]得到网络节点的嵌入表示。在基于网络结构和属性信息的嵌入方法中:SNE模型^[16]融合网络结构信息和节点属性信息作为神经网络输入, 在输出层以最大化节点邻居出现概率为优化目标, 利用多层感知机制提取节点的低维表示; SDNE模型^[17]使用深度自编码器保持两阶邻居之间的邻近节点表示, 再通过最小化相邻节点间的欧氏距离来保持相邻节点之间的邻近性; DNGR模型^[18]采用随机冲浪策略捕捉图形结构信息, 再进一步将这些结构信息转换为PPMI矩阵, 使用去噪自编码器获得节点的嵌入表示; WMCNE模型^[19-20]将网络拓扑和语义信息统一到图形表示中, 并使用局部空间结构增强图形表示, 在此基础上使用深层自编码进行网络重建。在上述方法中, WMCNE模型性能较好, 其对网络拓扑和语义信息进行图形统一化表示, 但该模型构建网络拓扑结构时利用了由邻接矩阵转换的模块度矩阵, 未考虑节点间间接链接信息。此外, 其在结合模块度矩阵和属性信息时采用直接拼接方式, 自编码训练时维度过高并且参数过多制约了算法性能的提升。

本文提出一种深层挖掘网络拓扑信息并融合节点属性信息的网络嵌入算法SAANE。基于网络链接提取二级邻居和节点的共同邻居比, 并将其整合到同一图形中, 对节点属性进行相似度计算得到基于属性相似度的网络, 由此构造属性模块度矩阵。在此基础上, 融合网络拓扑信息和属性信息进行稀疏自编码, 进而获得最终的网络嵌入向量。

1 相关定义

为更好地描述SAANE算法, 给出以下定义及其符号表示。

定义1(属性网络) 给定含有n个节点的无向网络G=(V, E, C, N, R), 其中:V={v₁, v₂, …, v_n}是网络中节点的集合; E={e_ij}(i, j∈{1, 2, …, n})是网络中边的集合; C={c₁, c₂, …, c_n}是节点属性集合; N表示前n(n≥2)阶邻居的集合, 若v_i与v_j之间有边, 且v_j与v_k之间有边, 则v_k称为v_i的二阶邻居; R={r_ij}表示前n(n≥2)阶邻居的共同邻居比矩阵, 节点v_i的前k(k≥2)阶邻居集合为N_{i, k}, 节点v_j的前k(k≥2)阶邻居集合为N_{j, k}。r_ij表示为:

$ {r_{ij}} = \frac{{|{N_{i,k}} \cap {N_{j,k}}|}}{{|{N_{i,k}}|}} $

(1)

定义2(Node2Vec随机序列) 根据Node2Vec算法设置参数p=2, q=0.5, 采用深度优先搜索策略生成随机游走序列。以Washington数据集为例进行说明。图 1(a)中第1列为当前节点的序号, 第2列为当前节点的一阶邻居, 第3列为当前节点二阶邻居……, 利用该序列提取节点的二阶邻居集, 如图 1(b)所示, 然后基于节点的二阶邻居计算共同邻居比, 如图 1(c)所示。

	Download: JPG larger image
图 1 Washington数据集的二级邻居及共同邻居比 Fig. 1 Second-order neighbors and common neighbor rates of the Washington dataset

2 SAANE算法 2.1 网络特征累加对比

为测试网络拓扑信息深度挖掘的有效性, 本文在真实网络中依次引入邻接矩阵、二阶邻居、共同邻居比、节点属性模块度, 对得到的向量使用K-means方法进行聚类, 并选择NMI作为衡量指标, 对比结果如图 2所示。可以看出, 针对5个真实网络依次引入邻接矩阵、二阶邻居、共同邻居比和属性模块度矩阵, NMI值逐渐增加, 说明引入信息的增加有助于进一步挖掘网络特征。

	Download: JPG larger image
图 2 真实数据集上的网络特征聚类结果 Fig. 2 Clustering results of network features on real data sets

2.2 模型框架

SAANE模型框架如图 3所示, 其中包含3个模块:1)网络特征提取模块, 由网络拓扑提取二级邻居及共同邻居比并进行整合; 2)属性模块度计算模块, 由节点属性矩阵获取属性模块度矩阵; 3)深度稀疏自编码器, 加权融合处理后的拓扑向量和语义模块度进行深度稀疏自编码, 同时引入局部增强约束和稀疏损失约束。

	Download: JPG larger image
图 3 SAANE模型框架 Fig. 3 Framework of SAANE model

2.2.1 网络特征提取

网络拓扑G₀=(V, E)表示为邻接矩阵A=[a_ij]∈$\mathbb{R}$^n×n, 如果节点v_i和节点v_j有边, 则a_ij=1。邻接矩阵作为信息网络中最普遍和最容易获取的信息, 在众多网络任务中扮演重要角色。但是, 邻接矩阵只保留了节点之间的直接链接关系而未保存间接链接关系。而节点间的间接链接关系, 在实际应用场景中有重要作用, 如在引文网络中, 文章A引用了文章B, 文章B引用了文章C, 则在一般情况下, 文章A和文章C之间存在一定关系。因此, 本文从Node2Vec随机游走序列中提取二阶邻居并计算共同邻居比, 对提取出的网络特征采用符号函数sign()获取直接链接与二阶邻居的并集:

$ {\mathit{\boldsymbol{M}}_1} = {\rm{sign}} (\mathit{\boldsymbol{A}} + \mathit{\boldsymbol{N}}) $

(2)

为确保由链接获取的信息与共同邻居比同等重要, 采用2-范数对M₁做标准化处理, 定义如下:

$ n(x) = \frac{{{x_i} - \mu }}{{|\sigma |}},\mu = \frac{{\sum\limits_{i = 1}^{|x|} {{x_i}} }}{{|x|}},{\sigma ^2} = \frac{{\sum\limits_{i = 1}^{|x|} {{{({x_i} - \mu )}^2}} }}{{|x| - 1}} $

(3)

从而得到:

$ {\mathit{\boldsymbol{M}}_2} = n({\mathit{\boldsymbol{M}}_1}) $

(4)

对标准化后的特征向量与共同邻居比求和, 即得到由网络拓扑结构提取出的网络特征M:

$ \mathit{\boldsymbol{M}} = {\mathit{\boldsymbol{M}}_3} + \mathit{\boldsymbol{R}} $

(5)

2.2.2 语义属性模块度

对于节点上的文本属性, 计算两个节点间的相似性得到相似图S=[s_ij]=[cos(w_i, w_j)], 其中w_i是节点v_i的内容向量。由于模块度能够转好地衡量网络社区结构强度, 因此用模块度矩阵B代替S作为属性信息的最终表示, 定义如下:

$ \mathit{\boldsymbol{B}} = [{b_{ij}}] = [{s_{ij}} - ({\xi _i}{\xi _j})/2m] $

(6)

其中, $\xi_{i}=\sum\limits_{j} s_{i j}$。

将从拓扑中提取的网络特征和从属性信息中提取的网络特征直接加权求和作为深度自编码的输入, 计算公式如下:

$ \mathit{\boldsymbol{X}} = [{x_{ij}}] = [{m_{ij}} + \alpha {b_{ij}}] $

(7)

其中, α表示内容向量在提取的网络特征中所占权重。

2.2.3 稀疏自编码器

自编码器由编码器和解码器组成, 其中, 编码器将输入空间中的数据映射到潜在空间, 解码器将潜在空间的数据映射到重构空间。形式上, 编码器将输入数据z_i映射到潜在空间的h_i, 解码器将表示空间的对象h_i映射到重建空间中的y_i, 公式如下:

$ \begin{array}{*{20}{l}} {{h_i} = f({W^{({\rm{H}})}}{x_i} + {b^{({\rm{H}})}})}\\ {{y_i} = f({W^{({\rm{Y}})}}{h_i} + {b^{({\rm{Y}})}})} \end{array} $

(8)

其中, W^(H)和b^(H)是编码参数, f(·)是编码/解码激活函数, 如tanh x=(e^x-e^-x)/(e^x+e^-x), W^(Y)和b^(Y)是学习的解码参数。

自编码器的损失函数为:

$ \theta = L(X,Y) = {\rm{min}}\sum\limits_{i = 1}^n {\left\| {{\kern 1pt} {x_i} - {y_i}{\kern 1pt} } \right\|{\kern 1pt} {\kern 1pt} _2^2} + \beta {\rm{tr}} ({\mathit{\boldsymbol{H}}^{\rm{T}}}{L_{{\rm{reg}}}}\mathit{\boldsymbol{H}}) $

(9)

其中, β为权衡参数, H为自编码训练过程中获得的隐层表示, L_reg表示WMCNE模型^[19]中局部增强约束部分。

当自编码器收敛时, 最中间的隐层即为网络的最终嵌入。为获得更好的表示, 堆叠多个自编码器, 构建一个完整的深度自编码器学习网络嵌入向量。首先训练第一个自编码器来重建输入矩阵X, 并且获得第一个隐层H⁽¹⁾以及第一个重建层Y⁽¹⁾。然后使用H⁽¹⁾训练第2个自编码器的隐层, ……, 以此逐层构造模型, 然后获得最终的隐层表示作为最终嵌入。

由于网络特征提取过程中多次使用拓扑结构, 因此降低了原拓扑结构的稀疏性, 使所得特征中非零元素减少, 但同时也导致了模型参数训练时间的增加。针对该问题, 本文通过向隐层神经元添加稀疏约束减少编码层中活动神经元的数量。采用KL散度计算每个神经元稀疏损失, 定义如下:

$ \begin{array}{*{20}{l}} {{P_{ij}} = {K_{kl}}(\left. {{p_{ij}}{\kern 1pt} } \right\|{\kern 1pt} {\kern 1pt} {q_{ij}}) = }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {p_{ij}}{\rm{lo}}{{\rm{g}}_a}\left( {\frac{{{p_{ij}}}}{{{q_i}}}} \right) + (1 - {p_{ij}}){\rm{lo}}{{\rm{g}}_a}\frac{{1 - {p_{ij}}}}{{1 - {q_i}}}} \end{array} $

(10)

其中, $q_{i}=\frac{1}{t} \sum\limits_{j=1}^{t} p_{i j}$, p为神经元的目标激活率, q为目标神经元的平均激活率, t为隐层神经元个数。

最后, 将神经元的稀疏损失添加到目标函数中, 得到新的目标损失函数, 如式(11)所示, 并且迭代计算其最小值。

$ {\theta _2} = \sum\limits_{i = 1}^n {\left\| {{\kern 1pt} {x_i} - {y_i}{\kern 1pt} } \right\|{\kern 1pt} {\kern 1pt} _2^2} + \beta {\rm{tr}} ({\mathit{\boldsymbol{H}}^{\rm{T}}}{L_{{\rm{reg}}}}\mathit{\boldsymbol{H}}) + \gamma \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^t {{p_{ij}}} } $

(11)

2.2.4 算法描述

SAANE算法描述如下:

算法1 SAANE算法

输入网络G=(V, E, C), 迭代次数r, 表示向量维度d, 随机游走参数p、q, 二阶邻居所占权重α, 局部增强权重β, 稀疏损失权重γ

输出节点嵌入向量矩阵H, 其中每行表示一个节点对应的嵌入向量

//整合输入向量

1.对于给定网络, 使用Node2Vec算法获得随机游走序列;

2.根据随机游走序列, 获得二阶邻居矩阵N和共同邻居比矩阵R;

3.计算属性模块度矩阵B;

4.根据式(7)整合输入向量;

//使用自编码进行迭代训练

5.初始化权重参数W和偏置b;

6.for i=1 to r

7.根据式(8)获得隐藏层嵌入向量H;

8.根据Y=f(W^TH+b₂)获得输出层嵌入向量;

9.根据式(9)的左半部分计算重建损失loss_a;

10.根据式(9)的右半部分计算局部增强损失loss_b;

11.根据式(10)计算稀疏损失loss_c;

12.loss=loss_a+loss_b+loss_c; //总的损失函数

13.使用RMSprop算法最优化loss值;

14.end

3 实验

为评估本文算法的有效性, 在聚类和分类任务上进行实验测试。使用5个具有不同大小和特征的公开数据集Washington、Wisconsin、Texas、Cornell和CiteSeer, 对比方法为基于拓扑的算法Deepwalk、Node2Vec、LINE、SDNE和基于属性网络的嵌入算法TADW^[21]、SNE、DNGR、WMCNE。

为确保对比的公平性, 将所有算法的最终维度设置为64, 参数采用默认值。对于本文算法, 文本属性权重占比根据网络中每个节点平均边数的不同进行设置, 以便更大程度提取不同网络的内在特征。自编码器中激活函数选择tanh(·)。实验取10次运行结果的平均值进行比较。

3.1 数据集比较

CiteSeer数据集是一个由3 312个科学出版物组成的引文网络, 其中包含6个类别; WebKB数据集包含4个子数据集Washington、Wisconsin、Texas、Cornell, 分别收集了4个不同大学的网页数据。各数据集详情如表 1所示。

下载CSV 表 1 实验数据集 Table 1 Experimental dataset

3.2 实验环境

本文采用Python3.6实现各算法, 在Intel Core i7-3770 CPU^Ⓡ3.40 GHz, 8.00 GB内存的Windows10(64位)计算机上运行程序。

3.3 聚类实验

得到网络嵌入向量后, 本文使用K-means算法进行聚类, 评估指标选用NMI值, 表 2所示的结果表明, 使用SAANE算法获得的嵌入向量进行聚类任务时, NMI值在最佳基线上平均提高了5.83%。

下载CSV 表 2 9种算法的NMI值对比 Table 2 Comparison of NMI values of nine algorithms

3.4 分类实验

得到网络嵌入向量后, 使用Logistic、支持向量机SVC、线性判别分析LDA、K-近邻算法4种方法对这些节点进行正确标注分类, 并采用精度平均值作为度量指标评估所有方法的性能, 如表 3所示。可以看出, 使用SAANE算法进行分类可使准确率平均提高4.53%。

下载CSV 表 3 9种算法的分类准确率对比 Table 3 Comparison of classification accuracy rates of nine algorithms

3.5 实验结果分析

表 2和表 3的实验结果显示, 本文算法性能优于其他算法。具体分析如下:

1) 基于随机游走的Node2Vec算法和DeepWalk算法较依赖局部信息, 而TADW、SNE、DNGR、WMCNE算法既考虑了拓扑结构, 又考虑了语义信息, 其中性能较好的是WMCNE算法, 但该算法将处理过的拓扑信息和语义信息进行拼接, 导致训练前维度过高, 训练过程缓慢。本文算法对拓扑结构、二阶邻居、共同邻居比进行整合, 并将这些特征标准化, 使其能直接进行运算, 再与语义信息加权整合, 既提高了训练速度, 又避免了网络中拓扑信息和属性信息的权重占比对目标嵌入向量造成影响。表 4显示了2个模型在不同数据集上迭代1 000次并运行10次的平均时间, 可以看出, 相较于其他8种算法中性能最好的WMCNE算法, 本文算法运行时间较短。

下载CSV 表 4 WMCNE和SAANE算法的运行时间对比 Table 4 Comparison of running time between WMCNE and SAANE algorithms

2) 获取嵌入向量时, 需要根据情况设置网络拓扑信息和节点属性的权重, SAANE从边/节点比值入手, 对网络中每个节点平均边数多的网络减少节点属性权重(Washington、Wisconsin、Texas数据集节点属性权重为2时性能较好), 而对网络中每个节点平均边数少的网络则增加节点属性的权重(Cornell和Citeseer数据集节点权重设置为4时性能较好)。

4 算法参数敏感度分析

SAANE算法包含3个超参数, 即前n阶邻居、节点属性所占权重比值α和稀疏损失参数γ, 本文通过改变参数取值得到不同的节点嵌入, 并用K-means方法对得到的表示进行聚类操作, 再使用NMI评估方法进行结果评估。

4.1 邻居阶数影响分析

在实验过程中, 分别测试选择二阶邻居、三阶邻居、四阶邻居和五阶邻居在最终实验结果NMI值上的影响, 如图 4所示, 可以看出, 本文算法在选择二阶邻居时效果较好。

	Download: JPG larger image
图 4 n阶邻居实验结果(n=2, 3, 4, 5) Fig. 4 Results of n-order neighbor experiment(n=2, 3, 4, 5)

4.2 属性特征所占权重影响分析

图 5显示了融合拓扑特征和语义特征时语义特征所占权重的影响, α取值0.0~6.0, 间隔0.5进行一次实验。可以看出, α取值的最佳效果与网中每个节点拥有的平均边数有关, 如Washington、Wisconsin、Texas数据集的平均边数大于1.5, 则语义权重值为2.0时NMI值较稳定且效果较好, 而对于Cornell和Cite数据集则平均边数小于1.5, 语义权重设置为4.0性能更好, 说明使用网络拓扑结构和节点属性捕获网络特征时, 两者各自所占权重与网络中各节点的平均边数有关, 节点平均边数越大, 属性所占权重值应越小。

	Download: JPG larger image
图 5 语义特征权重实验结果 Fig. 5 Experimental results of semantic feature weight

4.3 稀疏损失参数影响分析

图 6显示了设置权重参数相同情况下稀疏损失参数取值对实验结果的影响, γ取值0.0~1.0, 间隔0.1进行一次实验。可以看出, γ取值的最佳效果与网络中每个节点拥有的平均边数有关, 如Washington、Wisconsin、Texas数据集的平均边数大于1.5, 则稀疏损失设置为0.1时NMI值较稳定且效果较好, 而对于Cornell和Cite数据集则稀疏损失权重设置为0.3性能更好, 说明使用网络拓扑结构和节点属性捕获网络特征时, 稀疏损失约束与网络中各节点的平均边数有关, 节点平均边数越多, 稀疏损失约束设置的值应越小。

	Download: JPG larger image
图 6 稀疏损失实验结果 Fig. 6 Experimental results of sparse loss

5 结束语

本文提出基于稀疏自编码器的SAANE算法。根据节点的拓扑结构获得随机游走序列, 利用此序列分别得到二阶邻居和共同邻居比, 并将邻接矩阵、二阶邻居、共同邻居比相互整合融入语义信息, 在此基础上进行深度稀疏自编码训练, 得到最终嵌入向量。该算法在5个真实数据集上执行聚类和分类任务时均获得了较好的效果。然而, 本文假设只要节点间有链接(直接链接或间接链接)就表示两个节点有一定关系, 但在真实网络中不同类别的两个节点间也可能存在链接关系。如何在网络结构中保留正向链接并消除多余的链接, 获得更贴合真实网络的嵌入向量, 将是下一步的研究方向。

参考文献

[1]	LI Xinran, ZHOU Jinhe. Community structure partition in green CDN based on complex network[J]. Computer Engineering, 2018, 44(3): 119-126. (in Chinese) 李昕冉, 周金和. 基于复杂网络的绿色CDN社团结构划分[J]. 计算机工程, 2018, 44(3): 119-126. DOI:10.3969/j.issn.1000-3428.2018.03.021
[2]	HAMILTON W L, YING R, LESKOVEC J.Representation learning on graphs: methods and applications[EB/OL].[2019-05-10].https://www.researchgate.net/publication/319896834_Representation_Learning_on_Graphs_Methods_and_Applications.
[3]	QI Jinshan, LIANG Xun, LI Zhiyu, et al. Representation learning of large-scale complex information network:concepts, methods and challenges[J]. Chinese Journal of Computers, 2018, 41(10): 222-248. (in Chinese) 齐金山, 梁循, 李志宇, 等. 大规模复杂信息网络表示学习:概念、方法与挑战[J]. 计算机学报, 2018, 41(10): 222-248.
[4]	TU Cunchao, YANG Cheng, LIU Zhiyuan, et al. Network representation learning:an overview[J]. SCIENTIA SINICA Informationis, 2017, 47(8): 32-48. (in Chinese) 涂存超, 杨成, 刘知远, 等. 网络表示学习综述[J]. 中国科学:信息科学, 2017, 47(8): 32-48.
[5]	CUI Peng, WANG Xiao, PEI Jian. A survey on network embedding[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 31(5): 833-852.
[6]	LIU Zhengming, MA Hong, LIU Shuxin, et al. A network representation learning algorithm fusing with textual attribute information of nodes[J]. Computer Engineering, 2018, 44(11): 171-177. (in Chinese) 刘正铭, 马宏, 刘树新, 等. 一种融合节点文本属性信息的网络表示学习算法[J]. 计算机工程, 2018, 44(11): 171-177. DOI:10.3778/j.issn.1002-8331.1701-0030
[7]	CHEN Li, ZHU Peisong, QIAN Tieyun, et al. Edge sampling based network embedding model[J]. Journal of Software, 2018, 29(3): 756-771. (in Chinese) 陈丽, 朱裴松, 钱铁云, 等. 基于边采样的网络表示学习模型[J]. 软件学报, 2018, 29(3): 756-771.
[8]	WEN Wen, HUANG Jiaming, CAI Ruizhu, et al. Graph embedding by incorporating prior knowledge on vertex information[J]. Journal of Software, 2018, 29(3): 786-798. (in Chinese) 温雯, 黄家明, 蔡瑞初, 等. 一种融合节点先验信息的图表示学习方法[J]. 软件学报, 2018, 29(3): 786-798.
[9]	QIU Jiezhong, DONG Yuxiao, MA Hao, et al.Network embedding as matrix factorization: unifying DeepWalk, LINE, PTE, and Node2Vec[C]//Proceedings of the 11th ACM International Conference on Web Search and Data Mining.New York, USA: ACM Press, 2018: 459-467.
[10]	FORSYTH D. Representation learning[J]. Computer, 2015, 48(4): 6.
[11]	PAN Shirui, WU Jia, ZHU Xingquan.Tri-party deep network representation[C]//Proceedings of International Joint Conference on Artificial Intelligence.[S.l.]: AAAI Press, 2016: 1895-1901.
[12]	PEROZZI B, AL-RFOU R, SKIENA S.Deepwalk: online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA: ACM Press, 2014: 701-710.
[13]	GROVER A, LESKOVEC J.Node2Vec: scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York: ACM Press, 2016: 855-864.
[14]	TANG Jian, QU Meng, WANG Mingzhe, et al.LINE: large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web.[S.l.]: International World Wide Web Conferences Steering Committee, 2015: 1067-1077.
[15]	JOYCE J M. Kullback-Leibler divergence[M]. Saarbrücken, Germany: Alphascript Publishing, 2013.
[16]	LIAO Lizi, HE Xiangnan, ZHANG Hanwang. Attributed social network embedding[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(12): 2257-2270. DOI:10.1109/TKDE.2018.2819980
[17]	WANG Daixin, CUI Peng, ZHU Wenwu.Structural deep network embedding[C]//Proceedings of the 22nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining.New York, USA: ACM Press, 2016: 1225-1234.
[18]	CAO Shaosheng.Deep neural network for learning graph representations[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence.[S.l.]: AAAI Press, 2016: 1145-1152.
[19]	JIN Di, GE Meng, YANG Liang.Integrative network embedding via deep joint reconstruction[C]//Proceedings of IJCAI'18.Washington D.C., USA: IEEE Press, 2018: 3407-3413.
[20]	YANG Liang, CAO Xiaochun, HE Dongxiao, et al.Modularity based community detection with deep learning[C]//Proceedings of International Joint Conference on Artificial Intelligence.[S.l.]: AAAI Press, 2016: 2252-2258.
[21]	YANG Cheng, LIU Zhiyuan, ZHAO Deli, et al.Network representation learning with rich text information[C]//Proceedings of International Conference on Artificial Intelligence.[S.l.]: AAAI Press, 2015: 2111-2117.