作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2019, Vol. 45 ›› Issue (8): 281-286,295. doi: 10.19678/j.issn.1000-3428.0051790

• 开发研究与工程应用 • 上一篇    下一篇

基于特征融合的恶意代码分类研究

张景莲1,2, 彭艳兵2   

  1. 1. 武汉邮电科学研究院, 武汉 430000;
    2. 南京烽火天地通信科技有限公司, 南京 210000
  • 收稿日期:2018-06-12 修回日期:2018-08-02 出版日期:2019-08-15 发布日期:2019-08-08
  • 作者简介:张景莲(1992-),女,硕士研究生,主研方向为网络安全、计算机视觉;彭艳兵,高级工程师、博士。
  • 基金资助:
    国家重点研发计划"现代服务业共性关键技术研发及应用示范"(2017YFB1400704)。

Research on Malware Code Classification Based on Features Fusion

ZHANG Jinglian1,2, PENG Yanbing2   

  1. 1. Wuhan Research Institute of Posts and Telecommunications, Wuhan 430000, China;
    2. Nanjing Fiberhome World Communication Technology Co., Ltd., Nanjing 210000, China
  • Received:2018-06-12 Revised:2018-08-02 Online:2019-08-15 Published:2019-08-08

摘要: 基于特征码匹配的静态分析方法提取的特征滞后于病毒发展,且不能检测出未知病毒。为此,从病毒反编译文件及其灰度图出发进行特征提取及融合,采用机器学习中的随机森林(RF)算法对恶意代码家族进行分类,提取恶意代码的操作码指令和灰度图纹理2个局部特征,并将颜色直方图作为恶意代码的全局特征。实验结果表明,融合恶意代码特征与RF算法可实现恶意代码家族的有效分类,平均准确率达到99.59%。

关键词: 恶意代码, 机器学习, 灰度图纹理, 颜色直方图, 随机森林

Abstract: The features extracted by the static analysis method based on feature code matching often lag behind the development of the virus and cannot detect unknown viruses.Therefore,the feature extraction and fusion are carried out from the virus decompilation file and theirs grayscale image.The Random Forest(RF) algorithm in machine learning is used to classify the malware code family,extract the two local features of the opcode instructions and grayscale texture of the malware code,and use the color histogram as the global feature of the malware code.Experimental results show that the fusion of malware code features and RF algorithm can achieve effective classification of malware code families,and the average accuracy rate is 99.59%.

Key words: malware code, machine learning, grayscale texture, color histogram, Random Forest(RF)

中图分类号: