基于K-L散度的恶意代码模型聚类检测方法

doi:10.3969/j.issn.1000-3428.2014.12.019

计算机工程 ›› 2014, Vol. 40 ›› Issue (12): 104-107,113. doi: 10.3969/j.issn.1000-3428.2014.12.019

基于K-L散度的恶意代码模型聚类检测方法

边根庆^a,龚培娇^a,邵必林^b

西安建筑科技大学 a.信息与控制工程学院; b.管理学院,西安710055

收稿日期:2013-11-18 修回日期:2014-02-10 出版日期:2014-12-15 发布日期:2015-01-16
作者简介:边根庆(1968-),男,副教授,主研方向:信息安全,海量信息处理;龚培娇(通讯作者),硕士研究生;邵必林,教授。
基金资助:
国家自然科学基金资助项目(61272458)。

Detection Method of Malicious Code Model Clustering Based on K-L Divergence

BIAN Genqing^a,GONG Peijiao^a,SHAO Bilin^b

a.School of Information and Control Engineering; b.School of Management, Xi’an University of Architecture and Technology,Xi’an 710055,China

Received:2013-11-18 Revised:2014-02-10 Online:2014-12-15 Published:2015-01-16

摘要/Abstract

摘要： 在云计算应用环境下,由于服务系统越来越复杂,网络安全漏洞和被攻击情况急剧增加,传统的恶意代码检测技术和防护模式已无法适应云存储环境的需求。为此,通过引入高斯混合模型,建立恶意代码的分层检测机制,使用信息增益和文档频率等方法分析和提取样本数据特征值,结合K-L散度特性,提出基于K-L散度的恶意代码模型聚类检测方法。采用KDDCUP99数据集,使用Weka开源软件完成数据预处理和聚类分析。实验结果表明,在结合信息增益和文档频率进行特征分析的前提下,与贝叶斯算法相比,该方法在虚拟环境中恶意代码的平均检测时间降低16.6%,恶意代码的平均检测率提高1.05%。

关键词: 恶意代码, 高斯混合模型, K-L散度, 模型聚类, 信息增益, 文档频率

Abstract: Under the environment of the cloud computing,the network security vulnerabilities and attack increase rapidly because the service system is more and more complex,and the traditional pattern of malicious code detection technology and protection can not meet the requirement of cloud storage environment.This paper introduces Gaussian Mixture Model(GMM) to build the layered detection mechanism of the malicious code,uses the methods of information gain and document frequency to analyze the malicious code feature,combining K-L Divergence(KLD) to put forward a method of model clustering on malicious code based on K-L divergence method,this method can improve the malicious code detection rate and accurate efficiency than other methods.This paper adopts KDDCUP99 data sets to complete the process of data preprocessing and cluster analysis using the Weka open-source software.Experimental results show that the average malicious code detection time proposed by this paper improves by 16.6% compared with Bayes-algorithm;and meanwhile the rate of malicious code detection increases by 1.05 % under the virtual environment.

Key words: malicious code, Gaussian Mixture Model(GMM), K-L Divergence(KLD), model clustering, information gain, document frequency

中图分类号:

TP309

边根庆,龚培娇,邵必林. 基于K-L散度的恶意代码模型聚类检测方法[J]. 计算机工程, 2014, 40(12): 104-107,113.

BIAN Genqing,GONG Peijiao,SHAO Bilin. Detection Method of Malicious Code Model Clustering Based on K-L Divergence[J]. Computer Engineering, 2014, 40(12): 104-107,113.

http://www.ecice06.com/CN/Y2014/V40/I12/104

参考文献

[1] 文伟平.恶意代码机理与防范技术研究[D].北京:中国科学院研究生院,2004.
[2] 刘智.恶意代码检测与遏制技术研究[D].成都:电子科技大学,2009.
[3] 王蕊,冯登国,杨铁,等.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012 23(2):378-393.
[4] 张福勇,齐德昱,胡镜林.基于C4.5决策树的嵌入型恶意代码检测方法[J].华南理工大学学报:自然科学版,2011,39(5):68-72.
[5] 王蕊,冯登国,杨铁,等.一种抗混淆的恶意代码变种识别系统[J].电子学报,2011,10(10):2322-2330.
[6] Khan H,Mirza F,Khayam S A.Determining Malicious Executable Distinguishing Attributes and Low-complexity Detection[J].Journal of Computer Virology,2011,7(2):95-105.
[7] 李晓冬,李毅超.基于AEC的恶意代码检测系统的设计与实现[J].计算机应用,2007,27(6):1371-1377.
[8] 孙广玲,唐降龙.基于分层高斯混合模型的半监督学习算法[J].计算机研究与发展,2004,41(1):156-161.
[9] Tang Y,Liu D,Guan X.Multi-resolution Image Segmen-tation Based on Gaussian Mixture Model[J].Journal of Systems Engineering and Electronics,2006,17(4):870-874.
[10] 王欢良,韩纪庆,郑铁然.高斯混合分布之间K-L散度的近似计算[J].自动化学报,2008,34(5):529-534.
[11] 王欢良,韩纪庆,郑贵滨.基于K-L散度模型聚类的快速说话人辨识方法[J].模式识别与人工智能,2010,23(6):856-861.
[12] Kim D S,Park J S.Network-based Intrusion Detection with Support Vector Machines[C]//Proceedings of Information Networking Conference.Berlin,Germany:Springer,2003:747-756.
[13] 饶鲜,董春曦,杨绍全.基于支持向量机的入侵检测系统[J].软件学报,2003,14(4):798-803.
[14] KDDcup1999Data[EB/OL].(1999-10-28).http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.
[15] 张新有,曾华燊,贾磊.入侵检测数据集KDD+CUP99研究[J].计算机工程与设计,2010,31(22):4809-4812.

选择文件类型/文献管理软件名称

选择包含的内容

基于K-L散度的恶意代码模型聚类检测方法

Detection Method of Malicious Code Model Clustering Based on K-L Divergence

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

[1]	蓝峥杰, 王烈, 聂雄. 一种基于词频‐逆文档频率和混合损失的表情识别算法[J]. 计算机工程, 2023, 49(1): 295-302,310.
[2]	李晨曦, 任建国. 基于点对群网络反馈机制的恶意代码传播模型[J]. 计算机工程, 2023, 49(1): 163-172.
[3]	王文欣, 贺煜航, 陈刚. 基于EM路由算法的医学图像分割UCaps网络[J]. 计算机工程, 2022, 48(2): 268-274.
[4]	张晓明, 郑理欣, 王会勇. 基于图排序和最大信息增益的领域实体抽取方法[J]. 计算机工程, 2022, 48(12): 140-149.
[5]	胡高珍, 徐胜军, 孟月波, 刘光辉, 冯峰, 段中兴. 基于边缘约束局部区域MRF的图像分割方法[J]. 计算机工程, 2021, 47(6): 253-261,270.
[6]	陈佳捷, 彭伯庄, 吴佩泽. 基于动态行为和机器学习的恶意代码检测方法[J]. 计算机工程, 2021, 47(3): 166-173.
[7]	何高峰, 司勇瑞, 徐丙凤. 针对Android移动应用的恶意加密流量标注方法研究[J]. 计算机工程, 2020, 46(7): 116-121,128.
[8]	赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
[9]	张墨华, 彭建华. 面向图像先验建模的可扩展高斯混合模型[J]. 计算机工程, 2020, 46(4): 220-227.
[10]	姚博凡, 邓红平, 蔡铭. 基于随机抽样GMM的城市交通运行状态模式分类[J]. 计算机工程, 2020, 46(12): 36-42.
[11]	郑文秀, 赵峻毅, 文心怡, 姚引娣. 基于瓶颈复合特征的声学模型建立方法[J]. 计算机工程, 2020, 46(11): 301-305,314.
[12]	朱文峰, 于舒娟, 何伟. 基于IG_CDmRMR的二阶段特征选择方法[J]. 计算机工程, 2019, 45(9): 183-187,193.
[13]	张景莲, 彭艳兵. 基于特征融合的恶意代码分类研究[J]. 计算机工程, 2019, 45(8): 281-286,295.
[14]	王旭仁,马慧珍,冯安然,许祎娜. 基于信息增益与主成分分析的网络入侵检测方法[J]. 计算机工程, 2019, 45(6): 175-180.
[15]	邓路佳,刘平山. 基于GMM-FMs的广告点击率预测研究[J]. 计算机工程, 2019, 45(5): 122-126.

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于K-L散度的恶意代码模型聚类检测方法

Detection Method of Malicious Code Model Clustering Based on K-L Divergence

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价