作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2012, Vol. 38 ›› Issue (5): 56-58. doi: 10.3969/j.issn.1000-3428.2012.05.015

• 软件技术与数据库 • 上一篇    下一篇

基于DOM树与领域本体的Web抽取方法

郭建兵1,2,崔志明1,陈 明1,2,赵朋朋1   

  1. (1. 苏州大学智能信息处理及应用研究所,江苏 苏州 215006;2. 苏州普达新信息技术有限公司,江苏 苏州 215021)
  • 收稿日期:2011-09-13 出版日期:2012-03-05 发布日期:2012-03-05
  • 作者简介:郭建兵(1986-),男,硕士研究生,主研方向:Web信息集成;崔志明,教授、博士生导师;陈 明,硕士研究生; 赵朋朋,博士
  • 基金资助:
    国家自然科学基金资助项目(60970015, 61003054);江苏省企业博士创新基金资助项目(BK2009563);江苏省高校自然科学 研究基金资助项目(10KJB520018);苏州市科技型企业技术创新专项基金资助项目(SG201043)

Web Extraction Method Based on DOM Tree and Domain Ontology

GUO Jian-bing 1,2, CUI Zhi-ming 1, CHEN Ming 1,2, ZHAO Peng-peng 1   

  1. (1. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China; 2. Suzhou Production Information Technology Co. Ltd., Suzhou 215021, China)
  • Received:2011-09-13 Online:2012-03-05 Published:2012-03-05

摘要: 为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。

关键词: 自动抽取, DOM树, 领域本体, 数据区域定位, 简单树匹配

Abstract: To solve the problem of automatic extraction from different DeepWeb result page structures, this paper proposes a method which combines the Web structure and the content of Web pages. This method uses the characteristics of data content and the DOM tree nodes which are marked by the domain ontology library positioning data area. An improved simple tree matching algorithm is used to identify data records. Experimental results show that the F-measure value of this method is 2.93%~6.67% higher than that of traditional methods.

Key words: automatic extraction, DOM tree, domain ontology, data area positioning, simple tree matching

中图分类号: