Deep Web Sources Focused Crawler

doi:10.3969/j.issn.1000-3428.2008.07.019

Computer Engineering ›› 2008, Vol. 34 ›› Issue (7): 56-58.

• Software Technology and Database • Previous Articles Next Articles

Deep Web Sources Focused Crawler

LIN Chao, ZHAO Peng-peng, CUI Zhi-ming

(Institute of Intelligent Information Processing and Application, Suzhou University, Suzhou 215006)

Received:1900-01-01 Revised:1900-01-01 Online:2008-04-05 Published:2008-04-05

Deep Web数据源聚焦爬虫

林　超，赵朋朋，崔志明

(苏州大学智能信息处理及应用研究所，苏州 215006)

Abstract

Abstract: A lot of pages on Internet are generated dynamically by the back-end databases, which can not be reached by the traditional search engines called Deep Web. This paper proposes an algorithm of Deep Web sources focused crawling. When evaluating the importance of hyperlinks, it takes into consideration relevance among page, topic, and link-related information. Experiments indicate that this method is effective.

Key words: Deep Web sourtes, focused crawler, Bayes classifier

摘要： Internet上有大量页面是由后台数据库动态产生的，这部分页面不能通过传统的搜索引擎访问，被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时，综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。

关键词: Deep Web数据源, 聚焦爬虫, 贝叶斯分类器

CLC Number:

TP311

LIN Chao; ZHAO Peng-peng; CUI Zhi-ming. Deep Web Sources Focused Crawler[J]. Computer Engineering, 2008, 34(7): 56-58.

林　超;赵朋朋;崔志明. Deep Web数据源聚焦爬虫[J]. 计算机工程, 2008, 34(7): 56-58.

/ Recommend / Download Citations

URL:

https://www.ecice06.com/EN/Y2008/V34/I7/56

[1]	DONG Yi, LIU Jingfa, LIU Wenjie. Focused Crawler Strategy Based on Multi-Objective Ant Colony Algorithm [J]. Computer Engineering, 2020, 46(9): 274-282.
[2]	LIU Jingfa,LI Xin,JIANG Shengyi. Focused Crawler for Rainstorm Disaster Strategy Based on Web Space Evolutionary Algorithm [J]. Computer Engineering, 2019, 45(2): 184-190.
[3]	ZHAO Zhongquan,LIU Dan. Web Proxy Server Cache Optimization Based on Tree Augmented Naive Bayes Classifier [J]. Computer Engineering, 2017, 43(1): 115-119.
[4]	MA Leilei,LI Hongwei,LIAN Shiwei,LIANG Rupeng,CHEN Hu. A Strategy of Disaster Focused Crawler Based on Ontology Semantics [J]. Computer Engineering, 2016, 42(11): 50-56.
[5]	LIU Hui, HUANG Kuan-Na, TU Jian-Qiao. Crawling Strategy of Deep Web Crawler [J]. Computer Engineering, 2012, 38(11): 284-286.
[6]	OU Yang-Jia, LIN Pi-Yuan. Webpage Content Extraction Based on DBSCAN [J]. Computer Engineering, 2011, 37(3): 64-66,69.
[7]	LIU Lu, QUAN Jun-Lin, LI Wei-Chao. Clientbased Malicious Webpage Collection System [J]. Computer Engineering, 2010, 36(23): 113-115,118.
[8]	CENG An-Piao, FAN Hui-Lian. Search Strategy of Focused Crawler Based on Genetic Algorithm [J]. Computer Engineering, 2010, 36(11): 167-169.
[9]	LI Jian-gang; WU Xiao-jun. Improvement of Classifier Performance Based on Box-Cox Transformation [J]. Computer Engineering, 2009, 35(23): 172-174.
[10]	LI Jue; TONG Xue-feng; ZHU Xiu-ming. Bayes Classifier with Smaller Eigenvalues Resetting by Threshold Based on Database [J]. Computer Engineering, 2008, 34(5): 204-206.
[11]	BAI Li-yuan; HUANG Hui; LIU Su-hua; YAN Qiu-ling. Naive Bayes Classifier Based on Bootstrap Average [J]. Computer Engineering, 2007, 33(15): 190-192.
[12]	NIE Xiangfei; LI Chunguang; GUO Jun. Face Detection Based on Empirical Mode Decomposition and Matching Pursuit [J]. Computer Engineering, 2007, 33(14): 30-32.
[13]	NIE Xiangfei; GUO Jun. Face Detection Based on Gabor Wavelets [J]. Computer Engineering, 2006, 32(21): 44-46.
[14]	CHEN Jingnian;;HUANG Houkuan; TIAN Fengzhan; QIAO Zhufeng. Naive Bayes Classifiers Learned from Incomplete Data [J]. Computer Engineering, 2006, 32(17): 86-88.
[15]	WANG Xuren;;XU Rongsheng. Intrusion Detection System Based on Machine Learning [J]. Computer Engineering, 2006, 32(14): 107-108,.

Please choose a citation manager

Content to export

Deep Web Sources Focused Crawler

Deep Web数据源聚焦爬虫

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments

模态框（Modal）标题

Please choose a citation manager

Content to export

Deep Web Sources Focused Crawler

Deep Web数据源聚焦爬虫

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments