分布式多主题网络爬虫系统的研究与实现

doi:10.3969/j.issn.1000-3428.2009.19.005

计算机工程 ›› 2009, Vol. 35 ›› Issue (19): 13-16,1. doi: 10.3969/j.issn.1000-3428.2009.19.005

分布式多主题网络爬虫系统的研究与实现

白鹤1,2，汤迪斌1,2，王劲林2

(1. 中国科学院研究生院，北京 100039； 2. 中国科学院声学研究所国家网络新媒体工程技术研究中心，北京 100190)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-10-05 发布日期:2009-10-05

Research and Implementation of Distributed and Multi-topic Web Crawler System

BAI He1,2, TANG Di-bin1,2, WANG Jin-lin2

(1. Graduate University of Chinese Academy of Sciences, Beijing 100039; 2. National Network New Media Technology Engineering Center, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190)

Received:1900-01-01 Revised:1900-01-01 Online:2009-10-05 Published:2009-10-05

摘要/Abstract

摘要： 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略，解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法，解决基于目标导向、负载均衡的URL分配问题，增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法，可以高效地支持URL查询、插入和重复性检测。

关键词: 网络爬虫, 多主题, 分布式

Abstract: This paper proposes an architecture of distributed Web crawler system based on data-trapper. It implements a multi-topic schema based on classics-label, so that one crawler can contain different topics adaptively and designs a two-tiered weighted task partition algorithm that realizes target-guided URL configuration based on Agents’ load while providing better dynamic scalability. It improves URL storage with Trie tree, which efficiently supports URL search, insertion and repetition judgment.

Key words: Web crawler, multi-topic, distributed

中图分类号:

TP393

白鹤;汤迪斌;王劲林. 分布式多主题网络爬虫系统的研究与实现[J]. 计算机工程, 2009, 35(19): 13-16,1.

BAI He; TANG Di-bin; WANG Jin-lin. Research and Implementation of Distributed and Multi-topic Web Crawler System[J]. Computer Engineering, 2009, 35(19): 13-16,1.

http://www.ecice06.com/CN/Y2009/V35/I19/13

[1]	苏瑞国, 阳建, 秦继伟, 武晓雄, 贾振红. 基于物联网区块链的轻量级共识算法研究[J]. 计算机工程, 2023, 49(2): 175-180.
[2]	丁庆丰, 李晋国. 一种物联网环境下的分布式异常流量检测方案[J]. 计算机工程, 2022, 48(8): 152-159.
[3]	黄华威, 孔伟, 彭肖文, 郑子彬. 区块链分片技术综述[J]. 计算机工程, 2022, 48(6): 1-10.
[4]	王劲松, 杨唯正, 赵泽宁, 魏佳佳. 基于有向无环图的区块链技术综述[J]. 计算机工程, 2022, 48(6): 11-23.
[5]	陈凰, 陈睿, 邝祝芳, 黄华军. 一种频率域相关性分布式扩散最小均方算法[J]. 计算机工程, 2022, 48(5): 215-221.
[6]	杨珂, 张帆, 郭威, 赵博, 穆清. 一种拟态存储元数据随机性问题解决方法[J]. 计算机工程, 2022, 48(2): 140-146,155.
[7]	柏财通, 崔翛龙, 李爱. 基于本地蒸馏联邦学习的鲁棒语音识别技术[J]. 计算机工程, 2022, 48(10): 103-109.
[8]	魏秀然, 王峰. 基于协调器与遗传算法的云存储数据复制策略[J]. 计算机工程, 2021, 47(8): 124-130,139.
[9]	易培淮, 李卫东, 林韬, 邹佳恒, 邓子艳, 刘言. GPU在缪子快速模拟中的应用[J]. 计算机工程, 2021, 47(8): 100-108.
[10]	马佳佳, 张志强, 曹素珍, 窦凤鸽, 丁晓晖, 王彩芬. 基于雾节点的分布式属性基加密方案[J]. 计算机工程, 2021, 47(6): 38-43.
[11]	张本宏, 吴浩浩, 俞磊. 车载自组织网络中基于竞争的时分多址MAC协议[J]. 计算机工程, 2021, 47(5): 154-159.
[12]	李博文, 谢在鹏, 毛莺池, 徐媛媛, 朱晓瑞, 张基. 一种基于分布式编码的同步梯度下降算法[J]. 计算机工程, 2021, 47(4): 68-76,83.
[13]	张基, 谢在鹏, 毛莺池, 徐媛媛, 朱晓瑞, 李博文. MapReduce框架下结合分布式编码计算的容错算法[J]. 计算机工程, 2021, 47(4): 173-179.
[14]	郭佳程, 宁德军, 李泱丞, 沈建. 基于区块链的可信分布式能源共享网络研究[J]. 计算机工程, 2021, 47(3): 17-28.
[15]	郝志峰, 黄泽林, 蔡瑞初, 傅正佳, 温雯, 唐凯麟. 基于YARN的分布式资源动态调度与协同分配系统[J]. 计算机工程, 2021, 47(2): 226-232.

选择文件类型/文献管理软件名称

选择包含的内容

分布式多主题网络爬虫系统的研究与实现

Research and Implementation of Distributed and Multi-topic Web Crawler System

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

分布式多主题网络爬虫系统的研究与实现

Research and Implementation of Distributed and Multi-topic Web Crawler System

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价