基于时间交互偏置影响传播模型的弱连接重叠社区检测

引用本文

许小媛, 黄黎, 李海波. 基于时间交互偏置影响传播模型的弱连接重叠社区检测[J]. 计算机工程, 2020, 46(2), 72-79. DOI: 10.19678/j.issn.1000-3428.0053523.

XU Xiaoyuan, HUANG Li, LI Haibo. Weak Tie Overlapping Community Detection Based on Time Interaction Bias Influence Propagation Model[J]. Computer Engineering, 2020, 46(2), 72-79. DOI: 10.19678/j.issn.1000-3428.0053523.

基金项目

江苏省高校自然科学基金(18KJB520008, 19KJB520026);江苏省教育科学"十三五"规划2016年度青年专项课题(C-b/2016/03/25)

作者简介

许小媛(1980-), 女, 副教授, 主研方向为云计算;
黄黎, 副教授、博士研究生;
李海波, 讲师、硕士

文章历史

收稿日期：2018-12-28
修回日期：2019-03-04

Contents Abstract Full text Figures/Tables PDF

基于时间交互偏置影响传播模型的弱连接重叠社区检测

许小媛^1,2 , 黄黎^1,2 , 李海波¹

1. 江苏开放大学信息工程学院, 南京 210017;
2. 南京航空航天大学计算机科学与技术学院, 南京 211106

收稿日期：2018-12-28；修回日期：2019-03-04

基金项目：江苏省高校自然科学基金(18KJB520008, 19KJB520026);江苏省教育科学"十三五"规划2016年度青年专项课题(C-b/2016/03/25)

作者简介：许小媛(1980-), 女, 副教授, 主研方向为云计算; 黄黎, 副教授、博士研究生; 李海波, 讲师、硕士.

E-mail: 626028672@qq.com

摘要：为提高弱连接重叠社区的检测识别性能，提出一种基于时间交互偏置影响传播模型的弱连接重叠社区检测算法。设计针对社区检测图模型分割的目标函数，利用群落结构对处理器负载均衡进行优化，以提高模型求解的效率。基于邻域边缘密度对近似活跃边缘进行重新定义，构建一种影响传播模型以确定用户具有高频率的相互作用，从而提高弱连接用户的识别性能。在此基础上，提出时间交互偏置社区检测方法。实验结果表明，该方法对重叠社区进行检测时具有较高的识别精度和效率。

Weak Tie Overlapping Community Detection Based on Time Interaction Bias Influence Propagation Model

XU Xiaoyuan^1,2 , HUANG Li^1,2 , LI Haibo¹

1. School of Information Mechanical and Electrical Engineering, Jiangsu Open University, Nanjing 210017, China;
2. College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China

Abstract: In order to improve the detection and recognition performance of weak tie overlapping communities, this paper proposes a community detection method based on time interaction bias influence propagation model.The target function for the model segmentation of community detection graph is designed and the load balance of the processor is optimized by applying community structure, so as to improve the solution efficiency of the model.Based on the neighborhood edge density, the approximate active edge is redefined and an influence propagation model is established, which can confirm that the users have high interaction frequency and have strong recognition performance for weak tie users.On this basis, a time interaction bias community detection method based on overlapping community detection is proposed.Experimental results show that the proposed method has high recognition accuracy and efficiency when conducting detection on overlapping communities.

0 概述

目前, 社交网络已经成为人们日常生活的重要组成部分, 如脸谱网、Twitter和LinkedIn等。约68%的在线用户拥有社交信息, 用以获取新闻或与其他人进行联系, 大量用户加入到在线社区中, 使得社区检测成为社会网络挖掘领域中的一项热门工作^[1-2]。社区内的用户之间具有紧密的连接关系, 社区检测指在给定网络中对所有社区进行识别, 其具有较多重要的现实应用, 包括有效的信息传播、目标市场识别和感染控制等^[3]。

传统的社区检测方法, 如Louvain方法、infomap方法、标签传播或Newman主要特征向量方法等^[4], 主要关注用户之间的关系连接, 采用连接关系强弱量化指标。这些方法将网络表示为具有稳定连接的静态结构, 原因是这些连接将持续很长时间。文献[5]基于Louvain方法提出一种不相交重叠社区检测方法, 其考虑具有可接受时间成本的社会网络中的图分割过程实现方式。文献[6]引入加权社区聚类度量, 采用infomap指标实现了大规模图社区模型的可扩展社区检测, 该指标的设定依赖于社区中的三角结构。文献[7]基于标签传播算法模型, 采用PageRank方法, 提出一种大规模社区检测过程中解决处理器负载均衡问题的方法。文献[8]基于Newman主要特征向量方法将社区检测过程优化为一个NP难优化问题, 然后采用启发式搜索算法实现对社区结构的有效检测。上述算法均取得了良好的效果, 但是, 在Twitter数据集中的实验结果表明, 多数用户不依赖他们的用户关系连接进行交互操作。

社区边缘携带的关系可提供更有意义的信息, 并更准确地反映关系的强度, 这些关系可以通过边缘权重的分配来量化, 从而提升社区的时间交互测量性能。在社区信息提取中关注动态结构而非静态结构, 能提高聚合性度量的准确性并识别出更有意义的社区。

本文研究动态加权图模型社区检测问题, 通过预测有影响力的用户未来的活跃趋势, 构建一种影响传播模型, 以确定用户的高频率相互作用并度量其对邻近用户的影响。同时, 为提高社区检测的准确率, 针对图社区划分过程引入一个目标函数, 并行处理这些分区划分过程以求解影响传播模型。在此基础上, 提出一种时间交互偏置(TIB)社区检测方法, 以对重叠社区进行检测。

1 问题描述

本文研究一个加权无向简单图G=(V, E, W), 其中, V表示节点集合, E表示边缘集合, W是权函数集, ω∈W^[8-9]。针对每个边e=(u, v)⊂E, 权重w(e)=∑(I_Interactions)≥0表示随机选择的时间间隔为t的节点u和v之间相互作用的总频率。例如, 在Twitter数据集中, 权重为w(e)=∑(@+I_RTs), 其表示在给定时间间隔t内交互作用的总和, @表示上一时刻交互作用总和, I_RTs表示当前时刻的交互作用。表 1所示为本文相关数学符号的定义。

下载CSV 表 1 数学符号定义 Table 1 Definition of mathematical symbols

问题1(时间交互偏置问题) 寻找社区C(V, E, W)⊆G, 其为k个连通群落集, 使得:1)∀e∈E, 其中, e是活跃或者半活跃边; 2)活跃偏密度度量指标ρ(C)最大化。

为求解连接的k群落约束, 首先给出clique的定义:clique是一个完全连通的子图, P_C是相邻clique集, 这意味着两者共享k－1个节点。例如, 对于k群落, 如果k=3可视为三角形, 则k=3情形下的P_C可以被可视化为连接三角形。

在已有研究中, 边缘的相关性权重表示网络边缘的活跃程度。在Twitter网络中, 边缘加权为40, 意味着它含有40个交互过程, 并且很可能被视为活跃边缘。但非活跃边缘也有可能是重要边缘, 比如其多数邻居是高度活跃边缘的情况。本文定义了一个邻居顶点的活跃边缘, 称为偏置活跃边缘。在以往研究中, 边缘加权值3通常认为是不活跃的, 然而, 如果其具有活跃邻居, 则它可能成为偏置的活跃边缘, 因为该边缘将通过传播这些邻居的权重来重新定义加权值。

在检测时间交互偏置的社区检测背景下, 可以认为弱连接边非常重要。虽然在当前时间间隔中其影响很小, 但是在后续社区检测过程中, 其影响可能被放大, 即如果它们的邻域节点高度交互, 它们可能在一定时间之后变得活跃。因此, 本文提出一种影响传播模型来解决第1个约束, 即e可以是活跃的或接近活跃的边缘, 它决定边缘的潜在权重并重新定义活跃边缘。

2 时间交互偏置社区检测传播模型

考虑图的每个边缘e, 本文模型通过2个步骤确定边缘的权重。第1步基于以下标准对边缘e的权重w(e)进行归一化^[10-11]:

$ N(e)=\left\{\begin{array}{l} {1, w(e) \geqslant n} \\ {w(e) / n, m \leqslant w(e)<n} \\ {0, 其他} \end{array}\right. $

(1)

其中, 0≤N(e)≤1, 非零值参数表示不同的活跃程度。当N(e)=1时, 表示边缘的活跃程度为100%。式(1)中的参数m和n是实数, 且满足m < n, 其作为活跃参数, 以使权重在0~1区间内进行归一化, 这些参数可以根据社会网络数据集进行经验选择。本文采用一个简单的方式来衡量边缘, 衡量标准是观察到的边缘相互作用值, 其他更复杂的方法(如高斯分布)也适用。

定义1(活跃边缘e_i) 当N(e)=1时, 社区的边缘e_i称为活跃边缘^[12]。

定义2(近似活跃边缘) 活跃边缘e_i在h跳内的相邻边缘称为近似活跃边缘。

本文模型中的第2步是基于活跃边缘e_i向其邻居节点e传播归一化权重, 过程如下:

$ U(e)=\lambda^{h} \cdot N\left(e_{i}\right) $

(2)

其中, λ(0 < λ < 1)是一个衰减因子, h是当前边缘和其邻居节点之间的跳数, N(e_i)是e_i活跃邻居的权重。对于边缘e_i的h跳内的下邻域边缘, 重复计算U(e), 然后, 将U(e)的结果存储在一个散列表中, 该散列表被用来计算边缘e的最终权重f(e), 表示为^[13]:

$ f(e)=1-\prod\limits_{e \in E} U(e) $

(3)

f(e)将哈希表中的值相乘, 以确定边缘e的新权重。

该学习模型考虑边缘的邻居节点, 有助于基于邻居的活跃度来重新定义边缘权重。此外, 通过非活跃边缘的相邻边缘权重来计算时间交互的边缘权重, 因此, 其不仅考虑当前时间间隔, 而且关注相邻边缘的影响概率。

示例1 考虑图 1所示的具体示例, 其中, 线上数字表示权重, 方框中数字表示归一化权重。图 1(a)所示为原始加权图。利用N(e)从0到1重新定义权重, 当执行式(3)(∀e∈E∧N(e)≠1)时, 将结果存储在哈希表中, 如图 1(b)所示, 此处省略了一些细节以避免混乱。使用哈希表来计算每个边的最终权重, 如图 1(c)所示, 其中, 采用f(e)进行计算。本文考虑k群落的基本定义以检测重叠社区。

	Download: JPG larger image
图 1 权重赋值示例 Fig. 1 Example of weight assignment

定义3(活跃偏置密度) 活跃偏置社区的密度指标可表示为:

$ \rho(C)=\sum\limits_{e \in C} f(e) /|C| $

(4)

活跃偏置社区的密度为社区内权重的总和除以社区的大小|C|, 可基于阈值限制群落来评估社区的质量。因此, 基于C群落可进行社区发现, 其中, ρ(C)可实现最大化。

示例2 考虑图 2所示的示例, 设有一个重构的加权图, 在图中找到所有的群落并利用式(4)计算它们的偏置密度值。然后, 利用式(4)计算P_Cs的偏置密度值, 结果如图中线上数字。P_Cs仅在其偏置密度得分高于每个社区的偏置密度分数时形成一个社区; 否则, 每个群落本身就是社区。图 2给出2种情况:左侧的2个P_Cs在联合时具有较小的密度值, 右侧部分是交互作用情况。颜色深浅表示密度值大小。

	Download: JPG larger image
图 2 社区偏置密度值 Fig. 2 Community bias density

问题2(基于群落的图划分) 查找社区集R, 其中, ∀r∈R包含2个约束:1)节点和边属于群落结构; 2)分布在处理器组(P)上的均衡数据(节点和边缘)负载。

上述问题中的第2个约束是对处理器上的分区进行平衡, 并确保每个处理器具有可接受的数据量。该问题是NP难问题, 可采用启发式算法进行求解。本文分配每个P_C到一个分区, 分区数量等于处理器的数量, 每个分区将被分配给处理器。

定义4(目标函数J) 如果满足如下3个条件, 可将P_Cs均匀分配到可用分区:1)分区R的数量大于处理器P的数量, 即R≥P; 2)每个分区r∈R⊂G具有几乎相同数量的P_Cs; 3)目标函数J取值最小。

为满足上述3个条件, 为每个未赋值的参数p_c∈P_Cs进行如下的赋值计算:

$ J(r)=\sum\left(P^{e}-\bar{E}\right)+\sum\left(P^{v}-\bar{V}\right) $

(5)

其中, E是p_ci集和每个处理器额外数据集中的边缘总数。额外数据集保存所有的邻接边缘, E可表示为:

$ \bar{E}=\left|\operatorname{Edges}\left(p_{c i} \cup p_{c i}^{\Delta}\right)\right| $

(6)

其中, p_ci是连通群落, 其属于P_C集, p_ci^Δ是p_ci的额外数据, 是距离p_ci中边缘h跳内的加权边缘集, 参数h是任意大于0的常数, 可以根据需要调整大小。V是p_ci集和每个处理器额外数据集中的顶点总数, 其计算如下:

$ \bar{V}=| \text { Vertics }\left(p_{c i} \cup p_{c i}^{Δ}\right) | $

(7)

示例3 考虑图 3(a)所示的示例。为对该图进行分割, 首先找到群落然后查找P_Cs, 其中, P_Cs见图 3(b)虚线部分所示。假定处理器数量P=2, 需要2个分区, 每个处理器分配一个分区。为将3个P_Cs尽可能均匀地划分为2个分区, 需要计算目标函数J。首先将P_C1分配给分区1, 将P_C2分配给分区2, 而对于P_C3的分配, 将根据目标函数J的取值进行设置。当添加P_C3到分区1中的P_C1时, 目标函数J的计算结果为54。当添加P_C3到分区2中的P_C2时, 目标函数J的计算结果为44。基于该计算结果, P_C3的分区方式将采取后一种情形, 将其分配给处理器2。

	Download: JPG larger image
图 3 P_Cs图分割过程示例 Fig. 3 Example of P_Cs diagram segmentation process

3 算法框架

图 4所示为本文算法框架, 该算法分为3个阶段:1)基于P_Cs和目标函数J进行图分割, 此处不属于群落的节点和边缘将被消除; 2)计算每个分区的影响传播模型; 3)利用TIB社区检测方法检测社区。算法开始时, 输入社区检测的图模型G=(V, E, W), 并给定处理器的数量, 输出是社区划分集。

	Download: JPG larger image
图 4 本文算法框架 Fig. 4 Algorithm framework

本文社区检测算法各阶段的详细过程如下:

1) 图分割, 该过程的计算步骤如算法1所示。算法输入是无向加权图、邻域跳数以及处理器P的数目。首先, 查找群落(第1行)和P_Cs(第2行)。然后, 收集P_Cs中每个边缘h跳范围内的邻域节点(第3行~第7行), 以计算影响传播模型。接着, 分配一些P_Cs到分区, 如果有6个分区, 则分配6个P_Cs(第9行)。随后, 基于目标函数J的计算结果, 将剩余的P_Cs分配到分区中(第10行~第13行)。当所有P_Cs在分区上被平均分配时, 算法的分区划分过程结束(第14行~第15行)。

算法1 图分割算法

1.输入:G(V, E, W), hops, P

2.C←FindCliques(G);

3.P_C←FindPercolatedCliques(C);

4.h←1;

5.for e∈P_C and h < hops do

6.NP←FindNeighbours(e);

7.h←h+1;

8.end for

9.repeat

10.将n个P_Cs分配给n个处理器P_s;

11.if P_C_i未赋值给P_i then

12.J(P_i, P_Ci+n);

13.将具有最低评估值的P_Ci赋值给P_i;

14.end if

15.until所有P_Cs赋值给P_i;

16.return P集合

2) 影响传播模型计算。算法2给出了影响传播模型的计算过程。首先, 利用P(e)对权重进行初始化和规范化(第2行~第4行)。对于每个P(e) < 1的边缘e(第5行), 进行如下初始化操作:(1)h, 从边缘到邻域节点的跳数; (2)N, 包含e邻域的集合; (3)e的哈希表(第6行)。然后, 使用广度优先搜索找到e的邻居并将它们存储在N中。接着, 计算U(e)并将其存储在N中, 此过程重复执行直到最大跳数约束h < 4(第7行~第11行)。随后, 采用哈希表中的U(e)权重集作为输入(第13行), 并输出边缘e的f(e)值(第14行), 该过程重复进行, 直到所有边缘被处理, 然后输出具有偏置权重的集合W(第16行)。

算法2 影响传播模型计算算法

1.输入:集合P

2.W←{ };

3.for all e∈E do

4.P(e)←w(e);

5.end for

6.for所有e满足P(e) < 1 do

7.h←1, N←{ }HashTable={ };

8.while h < 4 do

9.N←FindNeighbours(e);

10.HashTable←U(e);

11.h←h+1;

12.end while;

13.end for

14.for all U(e)∈HashTable do

15.W←compute f(e);

16.end for

17.return G(V, E, W)

3) TIB群落检测。该过程计算算法输入为社区图模型G=(V, E, W), 算法基于连通群落识别重叠的社区结构。如图 2(a)所示, 首先获得一组不能进一步扩展到超出大小k的所有最大群落。在文献[10]中, 考虑共享k－1个节点的所有相邻群落, 群落选取的标准是密度指标I(G)大于阈值θ, I(G)计算如下:

$ I(G)=\left(\prod\limits_{e \in E} \omega_{e}\right)^{|E|} $

(8)

该函数允许k群落包含比阈值弱的连接, 因此, 所产生的社区包含强度大于I的k群落。

TIB群落检测的计算过程如算法3所示。本文采用前述ρ(C)指标替代I(G)进行算法设计, 偏置密度测量指标可找到不一定相连的TIB社区群落。然后, 计算P_Cs的密度值ρ(C)并作为最大可达的k群落(第3行~第8行)。同时, 计算ρ(p_li), ∀p_li∈P_L, 通过密度比对确定最终的TIB社区识别结果(第9行~第17行)。

算法3 TIB群落检测算法

1.输入:G(V, E, W), k;

2.C_L←{ }, P_L←{ };

3.C_L←FindClique(G, k);

4.for all c_li∈C_L do

5.D←ρ(c_li);

6.if c_li∪c_l(i+1) do

7.P_L[p_li]←c_li∪c_l(i+1);

8.D←ρ(p_li);

9.end if

10.for all c_li∈p_ci do

11.if D[p_li]≥D[c_li] do

12.C←p_li;

13.else

14.C←c_li, c_l(i+1);

15.end if

16.end for

17.end for

18.return TIB社区集C={C₀, C₁, …}

4 实验结果与分析

本文选取的社区检测质量评价标准为标准化互信息(NMI)评价指标和F₁评估指标。NMI可评估检测社区的相似性, F₁可对社区检测精度进行评估。

4.1 实验对象生成

本文选取的实验对象生成方法是MMSB和LFR, 具体生成策略可见文献[14]。根据网络参数的设定, 对生成网络的稀疏程度进行调整, 以获得不同特性的网络, 具体如下:

1) MMSB对象生成方法:该社区生成方法的基础是概率理论, 得到p和q间的社区连接, 其具有Y(p, q)分布特性^[15]:

$ Y(p, q) \sim \text { Bernoulli }\left( \boldsymbol{Z}_{p \rightarrow q}^{\mathrm{T}} \boldsymbol{\beta Z} _{p \leftarrow q}\right) $

(9)

其中, 参数β为社区检测过程中所使用的交互矩阵, Z为社区检测过程中所呈现出的分布形式, 其具有多项式特性^[16]:

$ Z_{p \rightarrow q} \sim \text { Multinomial }\left(\vec{\pi}_{q}\right) $

(10)

$ \vec{\pi}_{q} \sim \text { Dirichlet }(\vec{\alpha}) $

(11)

其中, 参数α的作用是对生成模型社区的重叠度进行控制。根据实验结果, 如果要获得稀疏的重叠社区网络模型, 可将模块度指标调整为大于等于0.5;反之, 如果要获得稠密的重叠社区网络模型, 可将模块度指标调整为小于0.5。表 2所示为采用MMSB方法生成的网络实验对象的属性数据。

下载CSV 表 2 采用MMSB方法生成的网络对象属性 Table 2 Properties of network objects generated by MMSB method

2) LFR对象生成方法:该社区网络生成方法同MMSB对象生成方法相似, 可基于模块度参数的设置控制社区网络模型的稀疏度, 其参数设定如表 3所示。

下载CSV 表 3 采用LFR方法生成的网络对象属性 Table 3 Properties of network objects generated by LFR method

图 5所示为实验对象模型结构, 其中, 图 5(a)、图 5(b)分别对应表 2的第1行和表 3的第3行参数。

	Download: JPG larger image
图 5 实验对象模型结构 Fig. 5 Model structures of experimental objects

4.2 稳定性对比结果

利用F₁评价指标对社区发现过程进行质量评估, 其指标形式为^[17-18]:

$ \frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}=\frac{2 T_{P}}{2 T_{P}+F_{P}+F_{N}} $

(12)

其中, 参数F_P是真实网络中为正值但社区检测结果为负值的比例, 参数F_N是真实网络中为负值但社区检测结果为正值的比例, 参数T_P是真实网络中为正值且社区检测结果为正值的比例, P表示社区检测的准确率, R表示社区检测的召回率。

为验证算法的有效性, 本文选取文献[19-20]中的2种重叠社区检测算法作为对比。F₁评估指标实验结果如图 6所示。在通常情况下, F₁评估结果取值区间在0~1之间, 该指标取值越大, 表明算法的稳定性越高。从图 6可以看出, 本文算法的F₁值优于文献[19-20]2种对比算法, 这表明本文算法的社区检测稳定性更优。同时, 在F₁评估实验结果的变化趋势上, 3种对比算法均随着社区数量的增加而呈现出逐渐降低的趋势, 这说明3种算法在进行社区检测的过程中, 其稳定性与社区数量存在一定的关联性, 社区数量越多, 算法稳定性越差。

	Download: JPG larger image
图 6 3种算法的F₁测试结果对比 Fig. 6 Comparison of F₁ test results of three algorithms

4.3 准确性对比结果

对算法的社区检测准确性进行实验分析, 选取NMI作为评估指标。对于社区A和B, NMI具体定义为:

$ N_{\mathrm{NMI}}=\frac{-2 \sum\limits_{i=1}^{C_{A}} \sum\limits_{j=1}^{C_{B}} C_{i j} \cdot \log _{a}\left(\frac{C_{i j} N}{\boldsymbol{C}_{i} \boldsymbol{C}_{j}}\right)}{\sum\limits_{i=1}^{C_{A}} C_{i} \cdot \log _{a}\left(\frac{C_{i .}}{N}\right)+\sum\limits_{j=1}^{C_{B}} C_{i j} \cdot \log _{a}\left(\frac{C_{. j}}{N}\right)} $

(13)

其中, 参数N表示社区检测网络中的顶点数, 参数C表示社区检测模型所形成的混淆参数矩阵, C_i表示i顶点所在社区检测模型形成的混淆参数矩阵，C_j表示j顶点所在社区检测模型形成的混淆参数矩阵，参数C_i.(C_.j)表示矩阵C中顶点数之和，参数C_ij表示同时属于不同类型社区的顶点数。C_A和C_B是社区划分数量。NMI值越大, 表示社区相似度越高。仍然选取文献[19-20]中的2种重叠社区检测算法作为对比, 实验结果如图 7所示。

	Download: JPG larger image
图 7 3种算法的NMI测试结果对比 Fig. 7 Comparison of NMI test results of three algorithms

从图 7可以看出, 随着网络顶点数量的增加, 3种算法的社区识别精度均呈现出下降的趋势。对于相同规模的网络, 网络越紧密表示网络的重叠情况越严重, 本文算法NMI精度虽然随着顶点数量的增加而下降, 但是降低的幅度不大, 即该算法的社区检测精度和稳定性更强。

4.4 真实社区网络检测结果

利用API网络数据爬取工具进行真实数据集构建, 数据采集平台为新浪微博, 在网络中设定一定量的种子账户, 获取网络的数据特征, 具体过程为:1)选取5个相邻的账户作为种子账户; 2)基于深度搜索策略对新浪微博中的相邻顶点进行关注主题的抓取; 3)基于基准网络对抓取过程中的参数进行调整。

通过上述数据抓取过程构建的新浪微博网络主题为78组, 顶点为900个, 微博数据交互信息为5万多条。实验程序选取Java语言进行模型构建, 对比算法仍然选取文献[19-20]中的2种重叠社区检测算法, 算法性能的评价指标为准确率、召回率及F₁值。

对于由网络数据爬取工具获得的新浪微博数据, 其边缘数高度依赖于数据爬取的稀疏度, 文献[19-20]算法以及本文算法对所抓取数据的检测结果如图 8所示。

	Download: JPG larger image
图 8 3种算法对新浪微博数据的检测结果对比 Fig. 8 Comparison of detection results of three algorithms for Sina Weibo data

从图 8可以看出, 在低密度社区检测情况下, 3种算法的检测结果差别不大, 特别是和文献[20]算法相比, 本文算法优势并不明显。但是, 随着社区稀疏度的增加, 社区之间的重叠和交互程度提升, 本文算法因为考虑到了弱连接重叠社区的时间交互偏置影响传播问题, 所以其综合性能上升速度较快, 而文献[19-20]算法性能变化幅度较小。上述实验结果验证了本文算法在社区发现上的性能优势。

5 结束语

为提高弱连接重叠社区的检测识别准确率, 本文提出一种基于时间交互偏置影响传播模型的社区检测算法。通过设计图分割问题的目标函数对计算资源进行均衡优化，同时构建一种影响传播模型，以提高对弱连接用户的识别能力，实验结果验证了该方法良好的社区检测性能。下一步将对用户交互过程中的时间间隔模型进行研究, 结合影响传播模型和时间间隔参数, 以提高密集活跃社区的检测识别性能。

参考文献

[1]	KARIMI-MAJD A M, FATHIAN M, AMIRI B. A hybrid artificial immune network for detecting commu-nities in complex networks[J]. Computing, 2015, 97(5): 483-507. DOI:10.1007/s00607-014-0433-6
[2]	YONGSIRIWIT K, ASSY N, GAALOUL W. A semantic framework for configurable business process as a service in the cloud[J]. Journal of Network and Computer Applications, 2015, 59: 168-184.
[3]	ARCHANA V, DANIEL Y J Y, KEVIN A P, et al. Bayesian community detection in the space of group-level functional differences[J]. IEEE Transactions on Medical Imaging, 2016, 35(8): 1862-1866.
[4]	ZHAO Guofeng, YE Fei, YAO Yong'an, et al. Design and implementation of a multi-pattern string matching algorithm in cloud center network intrusion detection system[J]. Netinfo Security, 2018, 18(1): 52-57. (in Chinese) 赵国锋, 叶飞, 姚永安, 等. 一种面向云中心网络入侵检测的多模式匹配算法[J]. 信息网络安全, 2018, 18(1): 52-57. DOI:10.3969/j.issn.1671-1122.2018.01.008
[5]	SHI Lei, ZHANG Lefei, ZHAO Lingli, et al. Adaptive laplacian eigenmap-based dimension reduction for ocean target discrimination[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(7): 902-906. DOI:10.1109/LGRS.2016.2553046
[6]	AALST W M P, VERBEEKH M W. Process discovery and conformance checking using passages[J]. Fundamenta Informaticae, 2014, 131(1): 103-138.
[7]	GUPTA M, SUREKA A, PADMANABHUNI S.Process mining multiple repositories for software defect resolution from control and organizational perspective[C]//Proceedings of the 11th Working Conference on Mining Software Repositories.New York, USA: ACM Press, 2012: 122-131.
[8]	AHMET E S, BUĞRA G, GABRIELA J S, et al. SONIC:streaming overlapping community detection[J]. Data Mining and Knowledge Discovery, 2016, 30(4): 819-847.
[9]	YUICHI Y, MARC K, ANDREW R. Study of biological communities subject to imperfect detection:bias and precision of community N-mixture abundance models in small-sample situations[J]. Ecological Research, 2016, 31(3): 289-305. DOI:10.1007/s11284-016-1340-4
[10]	LUO Huilan, WAN Chengtao, KONG Fansheng. Salient region detection algorithm via KL divergence and multi-scale merging[J]. Journal of Electronics and Information Technology, 2016, 38(7): 1594-1601. (in Chinese) 罗会兰, 万成涛, 孔繁胜. 基于KL散度及多尺度融合的显著性区域检测算法[J]. 电子与信息学报, 2016, 38(7): 1594-1601.
[11]	LIU Jiajia, YU Yan, HU Hengwei, et al. Research on a protection mechanism based on virtual machine customization[J]. Netinfo Security, 2017, 17(1): 63-67. (in Chinese) 刘佳佳, 俞研, 胡恒伟, 等. 一种基于虚拟机定制的应用保护方法研究[J]. 信息网络安全, 2017, 17(1): 63-67. DOI:10.3969/j.issn.1671-1122.2017.01.010
[12]	LI Zhaoxing, HE Lile, LI Yunrui. A novel multiobjective particle swarm optimization algorithm for signed network community detection[J]. Applied Intelligence, 2016, 44(3): 621-633. DOI:10.1007/s10489-015-0716-4
[13]	CHEN M, SZYMANSKI B K. Fuzzy overlapping community quality metrics[J]. Social Network Analysis and Mining, 2015, 5(1): 1-14.
[14]	SONG Shasha, ZHOU Jinhe. Energy efficiency optimization routing algorithm based on complex gradient network[J]. Computer Engineering, 2018, 44(2): 88-91. (in Chinese) 宋莎莎, 周金和. 基于复杂梯度网络的能效优化路由算法[J]. 计算机工程, 2018, 44(2): 88-91. DOI:10.3969/j.issn.1000-3428.2018.02.015
[15]	BAO Guohua, WANG Shengyu, LI Yunfa. Research on data security protection methods based on privacy awareness in cloud computing[J]. Netinfo Security, 2017, 17(1): 84-89. (in Chinese) 包国华, 王生玉, 李运发. 云计算中基于隐私感知的数据安全保护方法研究[J]. 信息网络安全, 2017, 17(1): 84-89. DOI:10.3969/j.issn.1671-1122.2017.01.013
[16]	WANG S S, CHERN A, TSAO Y, et al. Wavelet speech enhancement based on nonnegative matrix factorization[J]. IEEE Signal Processing Letters, 2016, 23(8): 1101-1105. DOI:10.1109/LSP.2016.2571727
[17]	SU Wuge, TAO Zhongxiang, DONG Bo. The quality measure for infrared and visible image fusion based on the verge information[J]. Fire Control and Command Control, 2012, 37(1): 194-197. (in Chinese) 苏伍各, 陶忠祥, 董博. 边缘信息的红外与可见光图像融合评价[J]. 火力与指挥控制, 2012, 37(1): 194-197. DOI:10.3969/j.issn.1002-0640.2012.01.050
[18]	ARCHANA V, DANIEL Y J Y, KEVIN A P, et al. Bayesian community detection in the space of group-level functional differences[J]. IEEE Transactions on Medical Imaging, 2016, 35(8): 1862-1866.
[19]	CHEN M, NGUYEN T, SZYMANSKI B. On measuring the quality of a network community structure[J]. Social Computing, 2013, 52(3): 122-127.
[20]	CHEN W H, INCHEON P, HUNG P C. Constructing a global social service network for better quality of Web service discovery[J]. IEEE Transactions on Services Computing, 2015, 8(2): 284-298. DOI:10.1109/TSC.2013.20