作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2006, Vol. 32 ›› Issue (9): 78-80.

• 软件技术与数据库 • 上一篇    下一篇

基于子树匹配的交互式 Web 数据抽取方法

张慧颖,曲著伟   

  1. 天津大学管理学院,天津300072
  • 出版日期:2006-05-05 发布日期:2006-05-05

Approach for Interactive Web Data Extraction Based on Sub-tree Matching

ZHANG Huiying, QU Zhuwei   

  1. School of Management, Tianjin University, Tianjin 300072
  • Online:2006-05-05 Published:2006-05-05

摘要: 查询相关的Web 页面中的数据记录之间具有极高的代码结构相似性,Web 数据记录对应的DOM 子树之间自然也就具有很高的结构相似性。针对查询相关的Web 页面的特点,提出了一种基于DOM 子树匹配的交互式Web 数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。

关键词: Web 数据抽取;Top-down 树匹配;DOM

Abstract: There is high structural comparability among the HTML codes of Web data rows in query-related Web pages. Naturally, the structures of sub DOM trees are similar to each other. An approach based on sub-tree matching algorithm for interactive query-related Web data extraction is represented. The result of the experiment shows high accuracy in terms of recall and precision.

Key words: Web data extraction; Top-down tree matching; DOM