2. 上海市经济和信息化委员会, 上海 200125
2. Shanghai Municipal Commission of Economy and Informatization, Shanghai 200125, China
网络表征学习是当前研究的热门课题之一[1-3],网络作为更加泛化的数据形式,其结构的复杂度远高于普通的网格结构。近年来,越来越多的研究人员关注网络或者图中节点的表征学习,其将图中的节点表示成低维的向量并应用到节点分类[4]、社区发现[5]、节点聚类[6]、异常检测[7]、链接预测[8]和网络比对[9]等学习任务中。Skip-Gram[10]模型在自然语言处理的词向量表示中具有很好的效果。DeepWalk[2]通过随机游走的方式将Skip-Gram应用到网络表征学习中能较好地表示网络结构。此后,随机游走的网络表征学习方法被广泛使用[1, 11]。Skip-Gram模型实际上是一种近似方法,已被证明等效于矩阵分解[10, 12-13],该矩阵中的元素是单词对之间的点对互信息(Pairwise Mutual Information,PMI)[10]。此外,在网络表征学习中通过随机游走的方式将图转换成序列也是一种近似方法,这些方法存在一个潜在的目标矩阵,而对该矩阵进行分解得到的低秩矩阵可以用作网络中的节点表示。同时研究人员也提出基于矩阵分解的网络表征学习方法[14],通过矩阵分解[15]得到的低秩矩阵能够很好地保留潜在信息和消除噪声。
在网络分析中,可以认为网络中的某些节点扮演着相同或相似的角色[16],如网络中一些起桥梁作用的节点或者起中心作用的节点,这种角色信息多数是与结构等价有关,或者被弱化认为是规则等价[17],而这些具有相似角色的节点分布在整个网络中的各个区域中。针对上述问题,本文构建一个同时考虑局部邻接信息和角色信息的基于角色的矩阵分解(Role-Base Matrix Factorization,Role-MF)模型。根据角色信息提出基于角色的随机游走方法,据此推导出用于矩阵分解的目标矩阵,然后使用奇异值分解得到节点表征向量。
1 网络表征学习给定网络
现有网络表征学习的方法只能保留局部区域内节点的相似性。例如,Line[3]集中于一阶和二阶的局部信息,DeepWalk的隐式目标矩阵是不同阶邻接矩阵的幂的加权平均值,Grarep[14]的目标矩阵是不同阶邻居矩阵的拼接。虽然这些方法考虑了不同阶的信息或高阶信息,但是节点相似性的保留仍限于局部区域,以图 1(a)中的Karate club网络[2]为例,任意选中一个节点(图中标三角形的节点),对DeepWalk的节点表征可以保留的相似性进行可视化,具体地,将DeepWalk上下文窗口大小设为10以获取十阶内信息,计算其对应的目标矩阵,然后取出选中节点的该行其他元素,该行元素衡量了选中节点与其他节点之间的相似性,并在图 1(b)中进行可视化(以选中节点为中心,按照与该节点阶数距离排列)。图中节点大小表示与选中节点相似程度,可以看到,虽然窗口大小为10,仅捕捉到三阶内的相似性,基于邻接矩阵或不同阶的邻接矩阵对于距离较远的节点难以捕捉到其相似性(如后面的结构等价)。
![]() |
Download:
|
图 1 Karate club网络中节点相似性可视化 Fig. 1 Node similarity visualization in Karate club network |
定义1(图同构映射)[18] 给定两个图
定义2(图自同构映射)[18] 一个图到它自身的同构映射
定义3(结构等价) 对于图
定义4(k阶结构等价) 对于图
可以看出,结构等价定义较为严格,k阶结构等价性是本文给出的放松后的定义。两个节点具有结构等价性,那么必然具有k阶结构等价性,反之并不一定成立。本文的Role-MF使用提取角色特征来近似结构等价性,并说明结构等价的节点的角色特征是相同的。
定义5(角色特征) 图中的节点的角色特征为m维向量,m为设定的角色数,角色特征由节点度数等信息抽取得到,对于结构等价的节点u和v,满足其角色特征相等。
2 角色特征提取本节描述节点角色特征提取的过程,m维向量
算法1 角色特征提取
输入 图
输出 角色特征矩阵
1.
2.repeat
3.
4.for
5.
6.if
7.
8.
9.
10.unitl
11.非负矩阵分解计算角色信息
本文应用非负矩阵分解获得角色特征矩阵
$ \mathrm{l}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{f}\mathrm{r}\mathrm{o}}\left(F, \boldsymbol{R}{\boldsymbol{S}}^{\mathrm{T}}\right)=\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{f}{\left({F}_{ij}-{\left(\boldsymbol{R}{\boldsymbol{S}}^{\mathrm{T}}\right)}_{ij}\right)}^{2} $ | (1) |
根据网络结构,对特征聚合的过程如算法2所示。
算法2 网络中邻居特征聚合
Function
1.
2.for i=1,2,…,N
3.
4.return
当一轮迭代中没有新特征产生后,迭代停止。对于新特征的判断,这里使用线性回归的残差,残差低于阈值说明新特征几乎可以被原始特征完全拟合,于是不再作为新特征加入,具体计算如算法3所示。
算法3 特征判断
Function Isnew
1.
2.
3.if
4.return True
5.return False
本文提出的特征提取算法具有保留网络中结构相似性的能力。在算法1中,该过程是以迭代方式基于邻居节点完成的,根据第1节的基于邻居的结构等价相关定义,可以得到对于k阶结构等价的节点,k次迭代前每次迭代的特征都相同。因为结构等价是k阶结构等价的充分条件,对于结构等价的节点,算法1得到的特征始终相同。
3 基于角色的随机游走基于随机游走的方法(如DeepWalk和Node2vec)仅考虑邻接信息,如式(2)所示,保留的相似性仅限于局部区域。本文提出基于角色的随机游走考虑全局信息。具体来说,
$ {P}_{ij}\propto {A}_{ij} $ | (2) |
$ {P}_{ij}\propto {A}_{ij}+\lambda \mathrm{s}\mathrm{i}\mathrm{m}\left({r}_{i}, {r}_{j}\right) $ | (3) |
随机游走的网络表征学习方法基于Skip-Gram模型。文献[10]证明Skip-Gram等价于分解目标矩阵,其矩阵元素为两个单词间的点对互信息(PMI),PMI可以衡量两个变量的相关性,当两个变量独立时PMI等于0。式(4)定义了两个单词的PMI。具体地,将概率密度函数Pr(i)通过单词频率
$ \mathrm{P}\mathrm{M}{\mathrm{I}}_{ij}=\mathrm{l}\mathrm{g}\frac{\mathrm{P}\mathrm{r}\left(i, j\right)}{\mathrm{P}\mathrm{r}\left(i\right)\mathrm{P}\mathrm{r}\left(j\right)}\approx \mathrm{l}\mathrm{g}\frac{\#\left(i, j\right)\cdot \left|\mathcal{D}\right|}{\#\left(i\right)\cdot \#\left(j\right)} $ | (4) |
其中,
在Skip-Gram的基础上,文献[12]证明了基于Skip-Gram模型的DeepWalk模型的目标矩阵
$ {M}_{ij}=\mathrm{l}\mathrm{g}\frac{{\left[\sum\limits_{t=1}^{T}{\left({\boldsymbol{D}}^{-1}\boldsymbol{A}\right)}^{t}\right]}_{ij}}{T} $ | (5) |
其中,
$ {O}_{ij}=\frac{{\left[\sum\limits_{t=1}^{T}{P}^{t}\right]}_{ij}}{T} $ | (6) |
根据目标矩阵得到损失函数如式(7)所示:
$ \mathrm{l}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{f}\mathrm{i}\mathrm{n}\mathrm{a}\mathrm{l}}\left(\boldsymbol{O}, \boldsymbol{E}{\boldsymbol{C}}^{\mathrm{T}}\right)=\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}{\left({O}_{ij}-{\left(\boldsymbol{E}{\boldsymbol{C}}^{\mathrm{T}}\right)}_{ij}\right)}^{2} $ | (7) |
其中
本节通过推导基于角色的随机游走的目标矩阵得到Role-MF的损失函数。
5 基于角色的矩阵分解本节描述基于角色的矩阵分解模型的整体过程。矩阵分解模型过程如算法4所示,首先根据邻接矩阵A和角色特征矩阵R来组合计算并归一化得到转移概率矩阵P,然后计算基于角色的目标矩阵O得到损失函数,之后应用矩阵分解框架[20]计算节点表征向量。本文使用SVD矩阵分解来获取节点的表征向量,其可以消除噪声并被用于多个网络表征学习的多个工作[21-23]。
算法4 基于角色的矩阵分解Role-MF
输入 邻接矩阵
输出 节点表示矩阵E
1.计算行归一化角色特征矩阵
2.计算未归一化转移矩阵
3.计算概率转移矩阵
4.计算目标矩阵
5.计算保留前
6.计算节点表示矩阵
本文在4个数据集上进行了实验,包括可视化结构等价的Barbell数据集和3个节点分类的数据集。Barbell数据集由两个团和一条路径组成。BlogCatalog数据集为BlogCatalog网站数据,边代表博主的关注关系,节点类别为博主的兴趣类别,兴趣相似的博主倾向于互相关注使得局部邻接信息较为重要。Flight Network为两个机场网络数据,边代表机场之间存在航班,节点类别为机场的航班频繁程度,航班频繁程度与邻接信息关系较弱且机场可能较为分散,使得具有一定全局信息,网络的具体描述如表 1所示。
![]() |
下载CSV 表 1 网络数据集 Table 1 Network datasets |
在如图 2(a)所示的Barbell图中,根据第1节的定义对结构等价的节点用相同的颜色表示。目标是希望算法学习的节点表征向量可以保存这种结构等价性,将向量维度设置为2以便展示在二维平面上。对于本文提出的基于角色信息的矩阵分解(Role-MF),如图 2(d)所示,结构等价的节点近似被映射到相同的二维空间(在图中重合),因此Role-MF可以很好地保留结构等价性。从图 2(b)可以看出,在DWMF(DeepWalk所对应的矩阵分解)中,两团深圆色节点在网络中距离较远,其在表征空间中距离也较远,而正方形节点在图中比较接近,在表征空间中也较为接近,故其保留了局部邻域信息,但是无法捕获结构等价性性。如前所述,与DWMF相比,DeepWalk是一种近似方法,由图 2(c)中可见,其节点相似性的保留可以看作DWMF的近似。
![]() |
Download:
|
图 2 Barbell节点向量可视化 Fig. 2 Vector visualization of Barbell nodes |
本文节点多标签分类任务使用BlogCatalog数据集,所有对比方法表征维度设置为128,对于多标签分类任务,这里使用Scikit-learn实现的逻辑回归模型。分类训练比例设置为90%和10%,重复10次实验取平均值,选取Macro-F1和Micro-F1作为评价标准,评价结果如表 2所示。对比算法的实验采用原论文中的设定。从表 2可以看出,Role-MF同时考虑局部信息和全局信息,具有更好的性能。其中,DWMF、DeepWalk、Node2Vec和Line主要关注于一阶及二阶信息[1-3]等局部信息。如上所述,该数据集中局部邻接信息较为重要,可取得较好效果,而GraphWave仅考虑结构等价[24],Struct2Vec关注于度信息[11],缺少局部信息使得其表现不佳。此外,可以看出DWMF[13]比DeepWalk[2]效果更好,因为DeepWalk通过随机游走来近似目标矩阵,而DWMF通过分解目标矩阵得到节点表征,从另一方面验证了矩阵分解的有效性。
![]() |
下载CSV 表 2 BlogCatalog数据集节点分类结果 Table 2 Classification results of BlogCatalog dataset nodes |
节点多类别分类任务使用Flight Network的两个数据集,在所有对比方法中,表征维度设置为16,分类训练比例为10%~90%,重复10次实验将准确率的平均值作为评价标准,结果如图 3所示。如前所述,这两个数据集上具有一定全局信息,从图 3可以看出,通过同时考虑全局信息与局部信息,Role-MF取得了更优的结果且准确率有较大提升。同样地,因为DeepWalk是DWMF的近似,DWMF通过矩阵分解取得比DeepWalk更优的结果,Node2Vec和Line未考虑到Flight Network中具有的全局信息,实验结果与DWMF和DeepWalk较为接近,而GraphWave则完全考虑结构等价,过于严格,在真实网络中效果不佳。
![]() |
Download:
|
图 3 多类别分类准确率实验结果 Fig. 3 Experimental results of multi-category classification accuracy |
链路预测任务使用BlogCatalog数据集,对于数据原图去除30%的连边,剩下的图来获取节点表征。所有去除的边作为正样本,每条正样本随机选取5条不存在的边作为负样本合为链路预测的数据集。节点表征维度设置为64,节点特征拼接后采用逻辑回归分类器,训练比例设置为10%和90%,采用AUC和F1值作为评价指标,重复10次实验将平均值记录在表 3中。从表 3可以看出,Role-MF同时考虑局部信息和全局信息具有最好的性能。在链路预测实验中,度数信息也起到作用,例如两个度数都较高的节点倾向于相连,故可以看到Struct2vec取得较好的效果。同样地,DWMF比近似方法DeepWalk取得了更优的结果,考虑二阶信息的Node2Vec和Line未考虑到全局信息效果较为接近,Graphwave则完全考虑结构等价效果不佳。
![]() |
下载CSV 表 3 BlogCatalog数据集链路预测结果 Table 3 Prediction results of BlogCatalog dataset link |
当前的网络表征学习方法忽略了全局结构等价信息,本文基于角色的随机游走方法,推导出其目标矩阵,构建基于角色的矩阵分解(Role-MF)模型,利用奇异值分解获取节点表示矩阵。该模型可以同时捕捉到局部信息和全局信息,并有效地进行融合。实验结果表明,在不同训练比例下,Role-MF模型AUC和F1值在真实数据集上均取得了更优的分类与预测效果。下一步将通过计算梯度等方式并基于全局信息和局部信息进行可视化研究。
[1] |
LESKOVEC J, GROVER A. Node2Vec: scalable feature learning for networks[EB/OL]. [2020-01-10]. https://arxiv.org/abs/1607.00653.
|
[2] |
PEROZZI B, AL-RFOU R, SKIENA S. DeepWalk: online learning of social representations[EB/OL]. [2020-01-10]. https://arxiv.org/abs/1403.6652.
|
[3] |
TANG Jian, QU Meng, WANG Mingzhe. LINE: large-scale information network embedding[C]//Proceedings of International Conference on World Wide Web. Swiss Confederation, Geneva: [s. n. ], 2015: 215-226.
|
[4] |
JENSEN D, NEVILLE J. Iterative classification in relational data[C]//Proceedings of 2000 AAAI Workshop on Learning Statistical. Austin, USA: AAAI Press, 2000: 466-478.
|
[5] |
WANG Xiao, CUI Peng, WANG Jing. Community preserving network embedding[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2017: 243-259.
|
[6] |
NIE Feiping, ZHU Wei, LI Xuelong. Unsupervised large graph embedding[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2017: 2422-2428.
|
[7] |
AKOGLU L, TONG H H, KOUTRA D. Graph based anomaly detection and description: a survey[J]. Data Mining and Knowledge Discovery, 2015, 29(3): 626-688. DOI:10.1007/s10618-014-0365-y |
[8] |
ZAKI M, HASAN M. A survey of link prediction in social networks[M]. Boston, USA: [s. n. ], 2011.
|
[9] |
HEIMANN M, SHEN H M, SAFAVI T, et al. REGAL: representation learning-based graph alignment[EB/OL]. [2020-01-10]. https://arxiv.org/abs/1802.06257.
|
[10] |
LEVY O, GOLDBERG Y. Neural word embedding as implicit matrix factorization[C]//Proceedings of NIPS'14. Cambridge, USA: MIT Press, 2014: 2177-2185.
|
[11] |
RIBEIRO L, SAVERESE P, FIGUEIREDO D. Struc2Vec: learning node representations from structural identity[C]//Proceedings of KDD'17. New York, USA: ACM Press, 2017: 256-268.
|
[12] |
CHENG Cheng, LIU Zhiyuan, ZHAO Deli. Network representation learning with rich text information[C]//Proceedings of IJCAI'15. Buenos Aires, Argentina: [s. n. ], 2015: 265-278.
|
[13] |
QIU Jiezhong, DONG Yuxiao, MA Hao. Network embedding as matrix factorization: unifying deep walk, LINE, PTE, and node2vec[C]//Proceedings of WSDM'18. New York, USA: ACM Press, 2018: 3211-3226.
|
[14] |
CAO Shaosheng, LU Wei, XU Qiongkai. Grarep: learning graph representations with global structural information[C]//Proceedings of CIKM'15. New York, USA: ACM Press, 2015: 306-318.
|
[15] |
CICHOCKI A, ZDUNEK R, PHAN A. Nonnegative matrix and tensor factorizations: applications to exploratory multi-way data analysis and blind source separation[M]. [S. 1. ]: John Wiley & Sons, Ltd., 2009.
|
[16] |
HENDERSON K, GALLAPHER B, ELIASSI R. RolX: structural role extraction mining in large graphs[C]//Proceedings of KDD'12. New York, USA: ACM Press, 2012: 156-168.
|
[17] |
STEPHEN P, MARTIN G. Two algorithms for computing regular equivalence[J]. Social Networks, 1993, 15(4): 361-376. DOI:10.1016/0378-8733(93)90012-A |
[18] |
STANLEY W, KATHERINE F. Social network analysis: methods and applications[M]. [S. 1. ]: Cambridge University Press, 2014.
|
[19] |
LI Tao, PENG Wei. On the equivalence between nonnegative matrix factorization and probabilistic latent semantic indexing[J]. Computational Statistics & Data Analysis, 2011, 52(8): 3913-3927. DOI:10.1016/j.csda.2008.01.011 |
[20] |
KOREN Y, BELL Y, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37. DOI:10.1109/MC.2009.263 |
[21] |
OU Mingdong, CUI Peng, PEI Jian. Asymmetric transitivity preserving graph embedding[C]//Proceedings of KDD'16. New York, USA: ACM Press, 2016: 468-475.
|
[22] |
ZHANG Ziwei, CUI Peng, WANG Xiao. Arbitrary-order proximity preserved network embedding[C]//Proceedings of KDD'16. New York, USA: ACM Press, 2018: 687-696.
|
[23] |
YANG Cheng, SUN Maosheng, LIU Zhiyuan. Fast network embedding enhancement via high order proximity approximation[C]//Proceedings IJCAI'17. Melbourne, Australia: [s. n. ], 2017: 367-378.
|
[24] |
DONNATC, MARINKA Z, DAVID H. Learning structural node embeddings via diffusion wavelets[C]//Proceedings of KDD'18. New York, USA: ACM Press, 2018: 269-278.
|