基于数据区域发现的信息抽取规则生成方法

doi:10.3969/j.issn.1000-3428.2009.22.020

计算机工程 ›› 2009, Vol. 35 ›› Issue (22): 59-61. doi: 10.3969/j.issn.1000-3428.2009.22.020

基于数据区域发现的信息抽取规则生成方法

曲著伟1,2，李敏强1

(1. 天津大学管理学院，天津 300072；2. 浙江财经学院信息学院，杭州 310018)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-11-20 发布日期:2009-11-20

Information Extraction Rule Generation Method Based on Data Area Discovery

QU Zhu-wei1,2, LI Min-qiang1

(1. School of Management, Tianjin University, Tianjin 300072;2. Information School, Zhejiang University of Finance & Economics, Hangzhou 310018)

Received:1900-01-01 Revised:1900-01-01 Online:2009-11-20 Published:2009-11-20

摘要/Abstract

摘要： 提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法，以网页DOM 树为基础，自动发现和分离Web数据区域所对应的DOM子树，将其分解为数据记录子树集合，综合数据记录子树的结构特点生成抽取规则。实验结果显示，该方法具有较高的抽取准确率和查全率。

关键词: 信息抽取, 抽取规则生成, Web数据区域, 树匹配

Abstract: This paper proposes an automatic method for detecting the structure characteristic of Web data records and generating Web information extraction rules. Based on Web DOM tree, Web data area is identified from Web DOM tree automatically and segmented into data records, and extraction rules are generated by synthesizing the structure of Web data records. Experimental result shows that the method gains high accuracy in terms of recall and precision.

Key words: information extraction, extraction rule generation, Web data area, tree matching

中图分类号:

TP311.12

曲著伟;李敏强. 基于数据区域发现的信息抽取规则生成方法[J]. 计算机工程, 2009, 35(22): 59-61.

QU Zhu-wei; LI Min-qiang. Information Extraction Rule Generation Method Based on Data Area Discovery[J]. Computer Engineering, 2009, 35(22): 59-61.

http://www.ecice06.com/CN/Y2009/V35/I22/59

[1]	衡红军, 苗菁. 语义与句法信息加强的二元标记实体关系联合抽取[J]. 计算机工程, 2023, 49(4): 77-84.
[2]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[3]	张军莲, 张一帆, 汪鸣泉, 黄永健. 基于图卷积神经网络的中文实体关系联合抽取[J]. 计算机工程, 2021, 47(12): 103-111.
[4]	何阳宇, 晏雷, 易绵竹, 李宏欣. 融合CRF与规则的老挝语军事领域命名实体识别方法[J]. 计算机工程, 2020, 46(8): 297-304.
[5]	李雁群,何云琪,钱龙华,周国栋. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82.
[6]	王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124.
[7]	李明耀,杨静. 基于依存分析的开放式中文实体关系抽取方法[J]. 计算机工程, 2016, 42(6): 201-207.
[8]	许志坚，孙蕾. 基于数据富集区域的Web内容自动抽取[J]. 计算机工程, 2013, 39(9): 192-195.
[9]	郭建兵, 崔志明, 陈明, 赵朋朋. 基于DOM树与领域本体的Web抽取方法[J]. 计算机工程, 2012, 38(5): 56-58.
[10]	李庆诚, 张安站, 宫晓利, 张金. 类纸阅读器在线读物系统的研究与实现[J]. 计算机工程, 2012, 38(3): 261-264.
[11]	于龙, 蹇强. 面向主题的信息抽取需求描述与分析[J]. 计算机工程, 2012, 38(23): 57-59.
[12]	胡丽娟, 梁久祯. 基于层次关联边条件随机场的Web对象抽取[J]. 计算机工程, 2012, 38(20): 45-48.
[13]	黄云, 洪佳明, 覃遵跃. 大型网络中近似子图匹配研究[J]. 计算机工程, 2012, 38(18): 50-52.
[14]	孙容容, 刘椿年. 全过程动画自动生成中的中文文本处理[J]. 计算机工程, 2012, 38(01): 185-187,191.
[15]	许细清, 林世平. Web文档评价对象抽取研究[J]. 计算机工程, 2011, 37(6): 30-31.

选择文件类型/文献管理软件名称

选择包含的内容

基于数据区域发现的信息抽取规则生成方法

Information Extraction Rule Generation Method Based on Data Area Discovery

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于数据区域发现的信息抽取规则生成方法

Information Extraction Rule Generation Method Based on Data Area Discovery

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价