基于搜索引擎的Deep Web数据源发现

doi:10.3969/j.issn.1000-3428.2011.05.026

计算机工程 ›› 2011, Vol. 37 ›› Issue (5): 77-79,82. doi: 10.3969/j.issn.1000-3428.2011.05.026

基于搜索引擎的Deep Web数据源发现

王海龙¹，胡景芝²，赵朋朋^1,3，崔志明^1,3

(1. 苏州大学智能信息处理及应用研究所，江苏苏州 215006；2. 苏州大学材料与化学化工学部，江苏苏州 215123；3. 江苏省现代企业信息化应用支撑软件工程技术研发中心，江苏苏州 215104)

出版日期:2011-03-05 发布日期:2012-10-31
作者简介:王海龙(1985－)，男，硕士研究生，主研方向：Web数据挖掘，Deep Web；胡景芝，硕士研究生；赵朋朋，博士；崔志明，教授、博士、博士生导师
基金资助:
国家自然科学基金资助项目(60970015)；2008年江苏省重大科技支撑与自主创新计划基金资助项目(BE2008044)

Deep Web Data Source Discovery Based on Search Engine

WANG Hai-long ¹, HU Jing-zhi ², ZHAO Peng-peng ^1,3, CUI Zhi-ming ^1,3

(1. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China; 2. College of Chemistry, Chemistry Engineering and Materials Science, Soochow University, Suzhou 215123, China; 3. Jiangsu Province Support Software Engineering R & D Center for Modern Information Technology Application in Enterprise, Suzhou 215104, China)

Online:2011-03-05 Published:2012-10-31

摘要/Abstract

摘要： 提出一种利用搜索引擎发现数据源的方法。为向搜索引擎提交高质量的关键词，将本体作为等级化组织词汇的架构引入到初始词构建过程。对所有词汇按在当前领域中出现频率高低进行分类，并根据搜索引擎返回接口集元素数量进行二次分类，确保关键词是对发现数据源查询接口贡献较大的词汇。在不同领域上的测试结果表明，该方法能发现相当数量的查询接口，从而验证其有效性。

关键词: 数据源发现, 深层网, 本体

Abstract: This paper proposes a method for the data source discovery using the search engine. In order to submit high quality key words to the search engine, the paper introduces the ontology to the initial word construction process, classifies all the words according to their frequency in the current domain, and reclassifies these words in accordance with the element quantity of the returned collection, ensures that the key word contributes greatly to the discovery of the data source query interface. Test results in different domains show that the approach proposed can discover a large amount of query interfaces, and its validty is verified.

Key words: data source discovery, Deep Web, ontology

中图分类号:

TP311

王海龙, 胡景芝, 赵朋朋, 崔志明. 基于搜索引擎的Deep Web数据源发现[J]. 计算机工程, 2011, 37(5): 77-79,82.

WANG Hai-Long, HU Jing-Zhi, DIAO Peng-Peng, CUI Zhi-Meng. Deep Web Data Source Discovery Based on Search Engine[J]. Computer Engineering, 2011, 37(5): 77-79,82.

http://www.ecice06.com/CN/Y2011/V37/I5/77

[1]	杨艳丽, 宋礼鹏. 融合社交网络威胁的攻击图生成方法[J]. 计算机工程, 2021, 47(5): 104-116.
[2]	东熠, 刘景发, 刘文杰. 基于多目标蚁群算法的主题爬虫策略[J]. 计算机工程, 2020, 46(9): 274-282.
[3]	安敬民, 李冠宇. 基于图熵极值理论的领域概念聚类方法[J]. 计算机工程, 2020, 46(6): 88-93.
[4]	王鑫, 傅强, 王林, 徐大为, 王昊奋. 知识图谱可视化查询技术综述[J]. 计算机工程, 2020, 46(6): 1-11.
[5]	朱文跃,刘炜,刘宗田. 基于事件本体的新闻个性化推荐[J]. 计算机工程, 2019, 45(6): 267-272,279.
[6]	蒋猛,禹明刚,王智学. 多策略自适应大规模本体映射算法[J]. 计算机工程, 2019, 45(3): 14-19.
[7]	王光, 姜丽, 董帅含, 李丰. 融合本体语义与用户属性的协同过滤算法[J]. 计算机工程, 2019, 45(10): 215-220.
[8]	杜胜浩,钱晓捷. 基于刻面与本体标识的语义Web服务发现方法[J]. 计算机工程, 2018, 44(8): 224-229,236.
[9]	李新福,徐筱,田学东. 基于Ontology扩展查询的数学表达式检索模型[J]. 计算机工程, 2018, 44(5): 155-161.
[10]	宫云宝,甘亮,黄九鸣. 基于概率软逻辑模型的实体解析[J]. 计算机工程, 2017, 43(8): 188-192,199.
[11]	郭竹为,刘胜全,刘艳,赵美玲,符贤哲. 基于最大公共子图的本体映射方法研究[J]. 计算机工程, 2017, 43(5): 197-203,209.
[12]	鲜学丰,崔志明,方立刚,顾才东,孙逊. 面向Deep Web本地化数据集成的数据源两层选择模型[J]. 计算机工程, 2017, 43(3): 32-39.
[13]	王汉博,孙启霖. 基于路径特征的复杂本体匹配[J]. 计算机工程, 2017, 43(2): 227-233,240.
[14]	韩道军,甘甜,叶曼曼,沈夏炯. 基于形式概念分析的本体构建方法研究[J]. 计算机工程, 2016, 42(2): 300-306.
[15]	叶施仁,孙宁. 基于概念聚类的领域本体图中文文本分类[J]. 计算机工程, 2016, 42(12): 181-187.

选择文件类型/文献管理软件名称

选择包含的内容

基于搜索引擎的Deep Web数据源发现

Deep Web Data Source Discovery Based on Search Engine

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于搜索引擎的Deep Web数据源发现

Deep Web Data Source Discovery Based on Search Engine

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价