基于Linux的网络爬虫系统

doi:10.3969/j.issn.1000-3428.2010.01.097

计算机工程 ›› 2010, Vol. 36 ›› Issue (1): 280-282. doi: 10.3969/j.issn.1000-3428.2010.01.097

基于Linux的网络爬虫系统

王锋，王伟，张璟，罗作民

(西安理工大学计算机科学与工程学院，西安 710048)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-01-05 发布日期:2010-01-05

Web Crawler System Based on Linux

WANG Feng, WANG Wei, ZHANG Jing, LUO Zuo-min

(College of Computer Science and Engineering, Xi’an University of Technology, Xi’an 710048)

Received:1900-01-01 Revised:1900-01-01 Online:2010-01-05 Published:2010-01-05

摘要/Abstract

摘要： 针对目前影响爬虫程序效率的诸多关键因素，在研究爬虫程序内部运行机理的基础上，进行架构优化，改进爬虫程序中的相关算法。在Linux网络环境下，通过对实现的爬虫程序运行进行检测，反馈出该解决方案和改进之处具有可行性，提高了页面抓取的效率和爬虫程序的整体性能。

关键词: 网络爬虫, URL调度, DNS解析, 哈希算法

Abstract: In view of current key aspects that affect the crawler system efficiency, through research of crawler system interior movement mechanism, this paper optimizes the overhead construction and improves its algorithm. In the Linux network environment, through movement examination of the crawler system, it may feed back several kinds of solutions and improvement place which are feasible, and it also enhances the efficiency and the crawler system overall performance.

Key words: Web crawler, URL dispatch, DNS resolution, Hash algorithm

中图分类号:

N945.15

王锋;王伟;张璟;罗作民. 基于Linux的网络爬虫系统[J]. 计算机工程, 2010, 36(1): 280-282.

WANG Feng; WANG Wei; ZHANG Jing; LUO Zuo-min. Web Crawler System Based on Linux[J]. Computer Engineering, 2010, 36(1): 280-282.

https://www.ecice06.com/CN/Y2010/V36/I1/280

[1]	代亚兰,何朗,黄樟灿. 基于稀疏自编码的无监督图像哈希算法[J]. 计算机工程, 2019, 45(5): 222-225,236.
[2]	王松松,高伟勋,徐逸凡. 基于路径与词林编码的词语相似度计算方法[J]. 计算机工程, 2018, 44(10): 160-167.
[3]	周文乐,朱明,陈天昊. 一种基于网站聚合和语义知识的电影推荐方法[J]. 计算机工程, 2014, 40(8): 277-281.
[4]	刘志，张晶. 基于哈希算法的脏数据回写磁盘实时调优策略[J]. 计算机工程, 2014, 40(6): 5-7,12.
[5]	吴晶, 陈仪香, 刘道明. 基于网络论坛的股市分析方法[J]. 计算机工程, 2012, 38(13): 254-256,259.
[6]	周权, 王奕, 李仁发. 基于FPGA的可重构JH算法设计与实现[J]. 计算机工程, 2012, 38(11): 208-210.
[7]	唐朝伟, 李俊, 苗光胜, 杜欣慧. 基于DOM树的视频元数据抽取系统[J]. 计算机工程, 2012, 38(08): 268-270.
[8]	姚林, 张永库. NoSQL的分布式存储与扩展解决方法[J]. 计算机工程, 2012, 38(06): 40-42.
[9]	笱程成, 赵荣彩, 单征, 田双鹏. 基于计数布隆过滤器的负载均衡算法[J]. 计算机工程, 2010, 36(17): 111-113,116.
[10]	沈寿忠;张玉清. 基于爬虫的XSS漏洞检测工具设计与实现[J]. 计算机工程, 2009, 35(21): 151-154.
[11]	白鹤;汤迪斌;王劲林. 分布式多主题网络爬虫系统的研究与实现[J]. 计算机工程, 2009, 35(19): 13-16,1.
[12]	黎浩宏. 一种新型索引结构[J]. 计算机工程, 2008, 34(16): 85-86.

选择文件类型/文献管理软件名称

选择包含的内容

基于Linux的网络爬虫系统

Web Crawler System Based on Linux

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 12

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于Linux的网络爬虫系统

Web Crawler System Based on Linux

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 12

编辑推荐

Metrics

本文评价