基于子树广度的Web信息抽取

doi:10.3969/j.issn.1000-3428.2009.03.031

计算机工程 ›› 2009, Vol. 35 ›› Issue (3): 89-90,9. doi: 10.3969/j.issn.1000-3428.2009.03.031

基于子树广度的Web信息抽取

王权，施韶亭

(甘肃省科学技术情报研究所，兰州 730000)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-02-05 发布日期:2009-02-05

Web Information Extraction Based on Sub-tree Breadth

WANG Quan, SHI Shao-ting

(Institute of Science & Technology Information of Gansu, Lanzhou 730000)

Received:1900-01-01 Revised:1900-01-01 Online:2009-02-05 Published:2009-02-05

摘要/Abstract

摘要： 提出一种新的网页信息抽取方法，基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献网站进行信息抽取实验，已应用到甘肃省科技文献共享平台。实验结果证明，该方法能不依赖科技文献网页的来源而自动地抽取相关信息，并能保证较高的数据抽取回召率和查准率。

关键词: 子树广度, 信息抽取, 跨库检索

Abstract: This paper proposes a new method which can extract the useful information from the different document sites automatically based on the breadth of a sub-tree. Experimental evaluation on a large of Web pages from different document Web sites has done and this method has been applied to the platform of gansu science & technology document sharing successfully. Experimental result shows this method automatically extracts the information ignoring where Web sites the pages come from and has high accuracy in terms of recall and precision．

Key words: sub-tree breadth, information extraction, cross-search

中图分类号:

TP393

王权;施韶亭. 基于子树广度的Web信息抽取[J]. 计算机工程, 2009, 35(3): 89-90,9.

WANG Quan; SHI Shao-ting. Web Information Extraction Based on Sub-tree Breadth[J]. Computer Engineering, 2009, 35(3): 89-90,9.

http://www.ecice06.com/CN/Y2009/V35/I3/89

[1]	衡红军, 苗菁. 语义与句法信息加强的二元标记实体关系联合抽取[J]. 计算机工程, 2023, 49(4): 77-84.
[2]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[3]	张军莲, 张一帆, 汪鸣泉, 黄永健. 基于图卷积神经网络的中文实体关系联合抽取[J]. 计算机工程, 2021, 47(12): 103-111.
[4]	何阳宇, 晏雷, 易绵竹, 李宏欣. 融合CRF与规则的老挝语军事领域命名实体识别方法[J]. 计算机工程, 2020, 46(8): 297-304.
[5]	李雁群,何云琪,钱龙华,周国栋. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82.
[6]	王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124.
[7]	李明耀,杨静. 基于依存分析的开放式中文实体关系抽取方法[J]. 计算机工程, 2016, 42(6): 201-207.
[8]	李庆诚, 张安站, 宫晓利, 张金. 类纸阅读器在线读物系统的研究与实现[J]. 计算机工程, 2012, 38(3): 261-264.
[9]	于龙, 蹇强. 面向主题的信息抽取需求描述与分析[J]. 计算机工程, 2012, 38(23): 57-59.
[10]	胡丽娟, 梁久祯. 基于层次关联边条件随机场的Web对象抽取[J]. 计算机工程, 2012, 38(20): 45-48.
[11]	孙容容, 刘椿年. 全过程动画自动生成中的中文文本处理[J]. 计算机工程, 2012, 38(01): 185-187,191.
[12]	许细清, 林世平. Web文档评价对象抽取研究[J]. 计算机工程, 2011, 37(6): 30-31.
[13]	卓林, 杨舟, 赵朋朋, 崔志明. 基于二维混合条件随机场的Web记录抽取模型[J]. 计算机工程, 2011, 37(5): 59-61,64.
[14]	杨文涛, 赵娟, 南凯. 一种文献元数据搜索与共享系统[J]. 计算机工程, 2011, 37(23): 37-39.
[15]	吴中彪, 刘椿年. 面向中文短信的信息抽取方法[J]. 计算机工程, 2011, 37(21): 49-51.

选择文件类型/文献管理软件名称

选择包含的内容

基于子树广度的Web信息抽取

Web Information Extraction Based on Sub-tree Breadth

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于子树广度的Web信息抽取

Web Information Extraction Based on Sub-tree Breadth

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价