一种基于WatiJ的Deep Web蜘蛛研究

doi:10.3969/j.issn.1000-3428.2011.04.095

计算机工程 ›› 2011, Vol. 37 ›› Issue (4): 264-266. doi: 10.3969/j.issn.1000-3428.2011.04.095

一种基于WatiJ的Deep Web蜘蛛研究

刘邵斌，张祖平，龙军

(中南大学信息科学与工程学院，长沙 410083)

出版日期:2011-02-20 发布日期:2011-02-17
作者简介:刘邵斌(1983－)，男，硕士研究生，主研方向：垂直搜索；张祖平，教授、博士、博士生导师；龙军，副教授、博士
基金资助:
国家自然科学基金资助项目(60873081, 60970095, M0921 005)；湖南省自然科学基金资助项目(07JJ6122)

Research on WatiJ-based Spider for Deep Web

LIU Shao-bin, ZHANG Zu-ping, LONG Jun

(School of Information Science and Engineering, Central South University, Changsha 410083, China)

Online:2011-02-20 Published:2011-02-17

摘要/Abstract

摘要： Deep Web中相当一部分内容因为动态网页存在而不能进行有效抓取。为此，设计并实现一种基于Web自动化测试工具——WatiJ的Deep Web网络蜘蛛。阐述利用WatiJ实现用户提交查询表单、循环点击翻页按钮等拟人交互方式的原理，通过实例给出动态网页抓取的关键步骤。实验结果表明，该蜘蛛是针对授权数据源进行动态网页抓取的一种有效解决方案。

关键词: 动态网页, 自动化测试, 网络蜘蛛

Abstract: As to the problems that a significant part of information can not be crawled effectively because of the dynamic Webs, a Web spider for the deep Web based on automated test tools called WatiJ is designed. The principle of using WatiJ to imitate users to submit query forms, continued next page is described, key steps of the crawling for the dynamic Webs are introduced by examples. Proved by the experiments, this spider is an effective one for crawling dynamic Webs in authorized data source.

Key words: dynamic webpage, automated test, Web spider

中图分类号:

N945

刘邵斌, 张祖平, 龙军. 一种基于WatiJ的Deep Web蜘蛛研究[J]. 计算机工程, 2011, 37(4): 264-266.

LIU Shao-Bin, ZHANG Jie-Beng, LONG Jun. Research on WatiJ-based Spider for Deep Web[J]. Computer Engineering, 2011, 37(4): 264-266.

http://www.ecice06.com/CN/Y2011/V37/I4/264

[1]	王津, 左春, 张正. 基于样本程序的自动化测试工具[J]. 计算机工程, 2020, 46(3): 198-205,213.
[2]	丁世举,顾乃杰,黄章进,侯津. 基于文字识别与页面布局的APP控件识别算法[J]. 计算机工程, 2019, 45(6): 89-95.
[3]	刘宪忠,孙妍,张淑舫. 面向弹载计算机的ATE通用平台设计与实现[J]. 计算机工程, 2018, 44(7): 60-66,73.
[4]	王琦,孙文辉. 基于程序变异分析的软件错误定位[J]. 计算机工程, 2017, 43(12): 55-59.
[5]	庞东贺, 冯刚, 左德承, 张展, 杨孝宗. 基于STAF的故障注入自动化测试平台[J]. 计算机工程, 2012, 38(7): 34-36,39.
[6]	刘鹏, 秦巍, 周永辉, 郭义琪. 基于动态网页的Word报告自动生成方法[J]. 计算机工程, 2012, 38(5): 279-280,284.
[7]	张馨, 薛质, 范磊. 基于最小集合覆盖的网络连通性自动化测试[J]. 计算机工程, 2012, 38(24): 65-69.
[8]	杨广亮, 龚晓锐, 姚刚, 韩心慧. 一个面向Android的隐私泄露检测系统[J]. 计算机工程, 2012, 38(23): 1-6.
[9]	张永强, 王强. 基于Tcl的智能卡软件测试方法[J]. 计算机工程, 2011, 37(8): 50-51.
[10]	贾丽;许静;金鑫;田禾. 基于控件约束关系的Web功能测试系统[J]. 计算机工程, 2010, 36(5): 46-48,5.
[11]	汲业, 陈燕, 杨健, 慕蓉. 生活服务领域垂直搜索引擎的设计与实现[J]. 计算机工程, 2010, 36(24): 24-26.
[12]	李秉智, 刘保林, 杨富良. 基于TDSCDMA的虚拟外场测试平台[J]. 计算机工程, 2010, 36(23): 104-106.
[13]	张林才, 梁正友, 王红霞. 基于ProActive的P-Spider1.0改进[J]. 计算机工程, 2010, 36(17): 288-290.
[14]	喻钢, 熊静, 徐中伟. 通用的安全苛求软件安全性测试方法[J]. 计算机工程, 2010, 36(17): 28-29.
[15]	方宏;吕太之. 动态网页信息提取技术在求职搜索中的应用[J]. 计算机工程, 2009, 35(24): 265-267.

选择文件类型/文献管理软件名称

选择包含的内容

一种基于WatiJ的Deep Web蜘蛛研究

Research on WatiJ-based Spider for Deep Web

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种基于WatiJ的Deep Web蜘蛛研究

Research on WatiJ-based Spider for Deep Web

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价