计算机工程 ›› 2010, Vol. 36 ›› Issue (23): 113-115,118.doi: 10.3969/j.issn.1000-3428.2010.23.037

• 安全技术 • 上一篇    下一篇

基于客户端的恶意网页收集系统

陆璐,全君林,李玮超   

  1. (华南理工大学计算机科学与工程学院, 广州 510006)
  • 出版日期:2010-12-05 发布日期:2010-12-14
  • 作者简介:陆璐(1971-),男,副教授、博士,主研方向:远程监控,软件测试,网络安全;全君林、李玮超,硕士研究生
  • 基金项目:
    广州市科技攻关与广东省自然科学基金联合基金资助项目

Clientbased Malicious Webpage Collection System

LU Lu,QUAN Junlin,LI Weichao   

  1. (School of Computer Science & Engineering, South China University of Technology, Guangzhou 510006, China)
  • Online:2010-12-05 Published:2010-12-14

摘要: 设计一个基于客户端的恶意网页收集系统。系统通过设置主题爬虫,有针对性地获取可能包含恶意脚本的网页文件,通过分析恶意代码常见的挂木马方式与恶意代码样本,设计正则表达式来提取网页恶意代码的特征码,利用相应算法扫描并匹配利用爬虫获取的网页文件,如发现网页文件中包含可疑的恶意脚本,则将它的域名URL、恶意网页路径与恶意代码脚本类型存入恶意网页库中,以实现恶意网页的搜集。

关键词: 恶意网页, 主题爬虫, 特征码, 匹配算法, 收集系统

Abstract: This paper designs a clientbased malicious webpage collection system. By setting theme spider, it accesses the webpage file which may contain malicious script. By analyzing the common features of malicious codes, it designs regular expressions to extract character code of malicious codes, and uses algorithm to match and scan the webpage file extracted. If the webpage file contains suspect malicious scripts, domain URL, path of malicious webpage and type of malicious code scripts will be recorded in malicious webpage database to realize collection of malicious webpages.

Key words: malicious webpage, focused crawler, character code, match algorithm, collection system

中图分类号: