一种增量式并行Web信息采集方法

doi:10.3969/j.issn.1000-3428.2006.20.036

计算机工程 ›› 2006, Vol. 32 ›› Issue (20): 97-99. doi: 10.3969/j.issn.1000-3428.2006.20.036

一种增量式并行Web信息采集方法

杨天奇，周　晔

(暨南大学计算机科学系，广州 510632)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2006-10-20 发布日期:2006-10-20

A Parallel System of Incremental Web Information Gathering

YANG Tianqi, ZHOU Ye

(Department of Computer Science, Jinan University, Guangzhou 510632)

Received:1900-01-01 Revised:1900-01-01 Online:2006-10-20 Published:2006-10-20

摘要/Abstract

摘要： 提出了一个基于多线程并行的增量式Web信息采集结构模型，并加以实现，该模型以线程并行的方式对Web页面同时采集，实现了全面、高效并且灵活的信息搜集，在系统实现过程中，采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交，页面分析过程为各个线程源源不断地提供下载源，而指纹判别算法保证了并行采集过程中的同步，有效地去除了冗余。对该系统作了测试，实验证明，该系统能有效地提高信息采集性能。

关键词: Web, 信息采集, 搜索引擎, 并行

Abstract: This paper gets into the research on how to crawl information effectively in some sections of Web, which is also called parallel Web crawling technology, and brings forward a structure design model of the parallel incremental Web crawler. In order to download Web pages in parallel, the means of multiple thread and the latest character of Java language are adopted, meanwhile the paper adopts the right means for URL dispatching to make sure that threads would work in parallel with page analysis. In order to reduce redundancy, the method chooses footprint algorithm and extracts URL for threads to download. The test result proves the expect. It can effectively improve information gathering performance.

Key words: Web, Information gathering, Search engine, Parallel

杨天奇;周　晔. 一种增量式并行Web信息采集方法[J]. 计算机工程, 2006, 32(20): 97-99.

YANG Tianqi; ZHOU Ye. A Parallel System of Incremental Web Information Gathering[J]. Computer Engineering, 2006, 32(20): 97-99.

https://www.ecice06.com/CN/Y2006/V32/I20/97

[1]	吴波, 龙廷艳, 万良, 夏云霓. MEC中基于改进粒子群优化算法的任务卸载策略[J]. 计算机工程, 2026, 52(4): 327-338.
[2]	刘荣龙, 李梓炜, 万悦, 吴嘉婧, 蒋子规. 面向Web3钓鱼网站的域名检测与网页分析方法[J]. 计算机工程, 2026, 52(1): 76-85.
[3]	潘顺杰, 于俊洋, 王龙葛, 李涵, 翟锐. 基于RDD重用度的Spark自适应缓存优化策略[J]. 计算机工程, 2025, 51(7): 190-198.
[4]	张文帅, 李会民, 李京, 潘必才. 一种集成于超算作业调度系统应用的并行参数优化方法[J]. 计算机工程, 2025, 51(7): 59-67.
[5]	鲜港, 杨文祥, 张晓蓉, 喻杰, 田永强. 基于作业路径的存储系统作业感知条带优化方法[J]. 计算机工程, 2025, 51(3): 34-44.
[6]	姬晨晨, 陈永青, 韩孟之. 基于国产加速器的三维卷积前向算子优化[J]. 计算机工程, 2025, 51(2): 250-258.
[7]	祁永强, 胡杞澍. 基于MA-PPA的露天煤矿智能巡视机器人路径规划研究[J]. 计算机工程, 2025, 51(11): 366-376.
[8]	黄赟, 陈若言, 马力, 蔡一鸣, 陆恒杨, 方伟. 基于并行预测模拟退火的贝叶斯网络结构学习[J]. 计算机工程, 2025, 51(10): 160-172.
[9]	李瑞, 文敏华, 范寅, 徐冬阳, 张战炳, 林新华. 基于拒绝采样的多起始点全局优化算法[J]. 计算机工程, 2025, 51(10): 150-159.
[10]	崔希, 田有亮, 杨科迪. 面向Web 3.0数字资产交易的三权分置确权方案[J]. 计算机工程, 2025, 51(10): 225-237.
[11]	郑雅洲, 刘万平, 黄东. 一种基于注意力机制的BERT-CNN-GRU检测方法[J]. 计算机工程, 2025, 51(1): 258-268.
[12]	杨太龙, 赵红朋, 张磊. 基于国产异构平台的奇异值分解法[J]. 计算机工程, 2024, 50(9): 216-225.
[13]	张磊, 赵光岳, 肖超恩, 王建新. Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现[J]. 计算机工程, 2024, 50(9): 208-215.
[14]	王华维, 刘若妍, 艾志玮, 曹轶. 基于多绘制管线的大规模并行体绘制性能优化技术[J]. 计算机工程, 2024, 50(8): 207-215.
[15]	徐权, 冷珏琳, 刘田田, 郑澎. 面向复杂装配体模型的两级并行曲面网格生成[J]. 计算机工程, 2024, 50(6): 321-327.

选择文件类型/文献管理软件名称

选择包含的内容

一种增量式并行Web信息采集方法

A Parallel System of Incremental Web Information Gathering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种增量式并行Web信息采集方法

A Parallel System of Incremental Web Information Gathering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价