作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (5): 77-79,82. doi: 10.3969/j.issn.1000-3428.2011.05.026

• 软件技术与数据库 • 上一篇    下一篇

基于搜索引擎的Deep Web数据源发现

王海龙1,胡景芝 2,赵朋朋1,3,崔志明1,3   

  1. (1. 苏州大学智能信息处理及应用研究所,江苏 苏州 215006;2. 苏州大学材料与化学化工学部,江苏 苏州 215123;3. 江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104)
  • 出版日期:2011-03-05 发布日期:2012-10-31
  • 作者简介:王海龙(1985-),男,硕士研究生,主研方向:Web数据挖掘,Deep Web;胡景芝,硕士研究生;赵朋朋,博士;崔志明,教授、博士、博士生导师
  • 基金资助:
    国家自然科学基金资助项目(60970015);2008年江苏省重大科技支撑与自主创新计划基金资助项目(BE2008044)

Deep Web Data Source Discovery Based on Search Engine

WANG Hai-long 1, HU Jing-zhi  2, ZHAO Peng-peng  1,3, CUI Zhi-ming  1,3   

  1. (1. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China; 2. College of Chemistry, Chemistry Engineering and Materials Science, Soochow University, Suzhou 215123, China; 3. Jiangsu Province Support Software Engineering R & D Center for Modern Information Technology Application in Enterprise, Suzhou 215104, China)
  • Online:2011-03-05 Published:2012-10-31

摘要: 提出一种利用搜索引擎发现数据源的方法。为向搜索引擎提交高质量的关键词,将本体作为等级化组织词汇的架构引入到初始词构建过程。对所有词汇按在当前领域中出现频率高低进行分类,并根据搜索引擎返回接口集元素数量进行二次分类,确保关键词是对发现数据源查询接口贡献较大的词汇。在不同领域上的测试结果表明,该方法能发现相当数量的查询接口,从而验证其有效性。

关键词: 数据源发现, 深层网, 本体

Abstract: This paper proposes a method for the data source discovery using the search engine. In order to submit high quality key words to the search engine, the paper introduces the ontology to the initial word construction process, classifies all the words according to their frequency in the current domain, and reclassifies these words in accordance with the element quantity of the returned collection, ensures that the key word contributes greatly to the discovery of the data source query interface. Test results in different domains show that the approach proposed can discover a large amount of query interfaces, and its validty is verified.

Key words: data source discovery, Deep Web, ontology

中图分类号: