基于DOM树与领域本体的Web抽取方法

doi:10.3969/j.issn.1000-3428.2012.05.015

计算机工程 ›› 2012, Vol. 38 ›› Issue (5): 56-58. doi: 10.3969/j.issn.1000-3428.2012.05.015

基于DOM树与领域本体的Web抽取方法

郭建兵^1,2，崔志明¹，陈明^1,2，赵朋朋¹

(1. 苏州大学智能信息处理及应用研究所，江苏苏州 215006；2. 苏州普达新信息技术有限公司，江苏苏州 215021)

收稿日期:2011-09-13 出版日期:2012-03-05 发布日期:2012-03-05
作者简介:郭建兵(1986－)，男，硕士研究生，主研方向：Web信息集成；崔志明，教授、博士生导师；陈明，硕士研究生；赵朋朋，博士
基金资助:
国家自然科学基金资助项目(60970015, 61003054)；江苏省企业博士创新基金资助项目(BK2009563)；江苏省高校自然科学研究基金资助项目(10KJB520018)；苏州市科技型企业技术创新专项基金资助项目(SG201043)

Web Extraction Method Based on DOM Tree and Domain Ontology

GUO Jian-bing ^1,2, CUI Zhi-ming ¹, CHEN Ming ^1,2, ZHAO Peng-peng¹

(1. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China; 2. Suzhou Production Information Technology Co. Ltd., Suzhou 215021, China)

Received:2011-09-13 Online:2012-03-05 Published:2012-03-05

摘要/Abstract

摘要： 为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题，提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点，按照结果页面展示规律定位数据区域，根据改进的简单树匹配算法，定位数据区域及数据记录。实验结果表明，该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。

关键词: 自动抽取, DOM树, 领域本体, 数据区域定位, 简单树匹配

Abstract: To solve the problem of automatic extraction from different DeepWeb result page structures, this paper proposes a method which combines the Web structure and the content of Web pages. This method uses the characteristics of data content and the DOM tree nodes which are marked by the domain ontology library positioning data area. An improved simple tree matching algorithm is used to identify data records. Experimental results show that the F-measure value of this method is 2.93%~6.67% higher than that of traditional methods.

Key words: automatic extraction, DOM tree, domain ontology, data area positioning, simple tree matching

中图分类号:

TP391.1

郭建兵, 崔志明, 陈明, 赵朋朋. 基于DOM树与领域本体的Web抽取方法[J]. 计算机工程, 2012, 38(5): 56-58.

GUO Jian-Bing, CUI Zhi-Meng, CHEN Meng, DIAO Peng-Peng. Web Extraction Method Based on DOM Tree and Domain Ontology[J]. Computer Engineering, 2012, 38(5): 56-58.

https://www.ecice06.com/CN/Y2012/V38/I5/56

[1]	安敬民, 李冠宇. 基于图熵极值理论的领域概念聚类方法[J]. 计算机工程, 2020, 46(6): 88-93.
[2]	叶施仁,孙宁. 基于概念聚类的领域本体图中文文本分类[J]. 计算机工程, 2016, 42(12): 181-187.
[3]	莫媛媛，郭剑毅，余正涛，蒋年树，线岩团. 基于CCRF的领域本体概念上下位关系抽取[J]. 计算机工程, 2014, 40(6): 138-141.
[4]	王永明, 张英俊, 谢斌红, 潘理虎, 陈立潮. 基于模糊聚类优化的语义Web服务发现[J]. 计算机工程, 2013, 39(7): 219-223.
[5]	胡璇, 杨春晖, 黄茂生. 航电系统软件需求知识本体构建及评价[J]. 计算机工程, 2013, 39(3): 56-62.
[6]	黄武冠，朱明，尹文科. 基于DOM树和视觉特征的网页信息自动抽取[J]. 计算机工程, 2013, 39(10): 309-312.
[7]	张晨, 汪永益, 王雄, 施凡. 基于网页DOM树比对的SQL注入漏洞检测[J]. 计算机工程, 2012, 38(18): 111-115.
[8]	韦婷婷, 聂登国, 王驹, 蒋运承. 基于领域本体的文本分类方法[J]. 计算机工程, 2012, 38(15): 62-65.
[9]	叶琼, 李绍稳, 张友华, 刘恺. 农业领域本体概念的云化方法研究[J]. 计算机工程, 2012, 38(14): 287-289.
[10]	唐朝伟, 李俊, 苗光胜, 杜欣慧. 基于DOM树的视频元数据抽取系统[J]. 计算机工程, 2012, 38(08): 268-270.
[11]	徐小良, 陈金奎, 吴优. 基于聚类优化的Web服务发现方法[J]. 计算机工程, 2011, 37(9): 68-70.
[12]	陈宇, 朱建锋, 吴毅坚, 赵文耘. 一种基于领域本体的新术语扩充方法[J]. 计算机工程, 2011, 37(7): 24-27,43.
[13]	高雅田, 李春生, 富宇. 基于关系数据分析的知识服务模型[J]. 计算机工程, 2011, 37(5): 56-58.
[14]	齐红, 张亮亮, 李昕. 基于玉米本体的语义检索系统[J]. 计算机工程, 2011, 37(4): 34-36.
[15]	张功亮, 陈钰, 周茜, 朱悠悠, 赵晓飞. 基于领域本体的信息语义相关检索[J]. 计算机工程, 2011, 37(20): 33-35.

选择文件类型/文献管理软件名称

选择包含的内容

基于DOM树与领域本体的Web抽取方法

Web Extraction Method Based on DOM Tree and Domain Ontology

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于DOM树与领域本体的Web抽取方法

Web Extraction Method Based on DOM Tree and Domain Ontology

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价