基于知识图谱的Web信息抽取系统

doi:10.3969/j.issn.1000-3428.2017.06.020

计算机工程

基于知识图谱的Web信息抽取系统

王辉¹,郁波²,洪宇 ³,肖仰华²

(1.上海电力学院经济与管理学院,上海 200082; 2.复旦大学计算机科学技术学院,上海200433;3.东华大学计算机科学与技术学院,上海 201620)

收稿日期:2016-05-23 出版日期:2017-06-15 发布日期:2017-06-15
作者简介:王辉(1980—),女,副教授,主研方向为数据挖掘;郁波、洪宇,硕士研究生;肖仰华,副教授、博士、博士生导师。
基金资助:
上海市科技创新行动计划基础研究项目(15JC1400900);上海市自然科学基金(13ZR1417700)。

Web Information Extraction System Based on Knowledge Graph

WANG Hui ¹,YU Bo ²,HONG Yu³,XIAO Yanghua ²

(1.School of Economics and Management,Shanghai University of Electric Power,Shanghai 200082,China; 2.School of Computer Science,Fudan University,Shanghai 200433,China;3.School of Computer Science and Technology,Donghua University,Shanghai 201620,China)

Received:2016-05-23 Online:2017-06-15 Published:2017-06-15

摘要/Abstract

摘要： 为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务。

关键词: 知识图谱, 多领域, Web信息抽取, 网页自动标注, 容错, 包装器归纳框架

Abstract: In order to effectively extract huge amounts of Web information in multiple fields,a Web information extraction system is designed based on Chinese knowledge graph,CN-DBpedia.Firstly,webpage data items with noise are automatically labeled based on knowledge graph.Then,correct wrappers are induced and learned from labeling sets with errors by a fault-tolerant wrapper induction framework.Experimental results demonstrate that,compared with traditional information extraction method by manual annotation,the proposed system has higher precision and recall rate.It can significantly reduce human participation during the extraction process and flexibly apply to large-scale webpage information extraction tasks in multiple fields.

Key words: knowledge graph, multi-field, Web information extraction, automatic webpage labeling, fault-tolerance, wrapper induction framework

中图分类号:

TP18

王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2017.06.020.

WANG Hui,YU Bo,HONG Yu,XIAO Yanghua. Web Information Extraction System Based on Knowledge Graph[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2017.06.020.

http://www.ecice06.com/CN/Y2017/V43/I6/118

参考文献

参考文献［1］孟小峰.Web数据管理研究综述［J］.计算机研究与发展,2001,38(4):385-395. ［2］陈钊,张冬梅.Web信息抽取技术综述［J］.计算机应用研究,2010,27(12):4401-4405. ［3］李明耀,杨静.基于依存分析的开放式中文实体关系抽取方法［J］.计算机工程,2016,42(6):201-207. ［4］复旦大学知识工场实验室.CN-DBpedia［EB/OL］.［2016-04-11］.http://gdm.fudan.edu.cn/CKGraph/. ［5］刘峤,李杨,段宏,等.知识图谱构建技术综述［J］.计算机研究与发展,2016,53(3):582-600. ［6］Banko M,Cafarella M J,Soderland S,et al.Open Information Extraction from the Web［C］//Proceedings of the 20th International Joint Conference on Artificial Intelligence.Hyderabad,India:［s.n.］,2007:2670-2676. ［7］Kushmerick N.Wrapper Induction for Information Extraction［C］//Proceedings of IJCAI’97.Nagoya,Japan:［s.n.］,1997:729-735. ［8］Muslea I,Minton S,Knoblock C.Hierarchical Wrapper Induction for Semistructured Information Sources［J］.Autonomous Agents and Multi-Agent Systems,2001,4(1):93-114. ［9］Soderland S.Learning Information Extraction Rules for Semi-structured and Free Text［J］.Machine Learning,1999,34(1-3):233-272. ［10］Song Dandan,Wu Yunpeng,Liao Lejian,et al.A Dynamic Learning Framework to Thoroughly Extract Structured Data from Web Pages Without Human Efforts［C］//Proceedings of ACM SIGKDD Workshop on Mining Data Semantics.New York,USA:ACM Press,2012:1-8. ［11］Dalvi N,Bohannon P,Sha Fei.Robust Web Extraction:An Approach Based on a Probabilistic Tree-edit Model［C］//Proceedings of the 35th SIGMOD International Conference on Management of Data.New York,USA:ACM Press,2009:335-348. ［12］Parameswaran A,Dalvi N,Garcia-Molina H,et al.Optimal Schemes for Robust Web Extraction［J］.Proceedings of the VLDB Endowment,2011,4(11):980-991. ［13］Dalvi N,Kumar R,Soliman M A.Automatic Wrappers for Large Scale Web Extraction［J］.Proceedings of the VLDB Endowment,2011,4(4):219-230. ［14］Rajaraman A,Ullman J D.Mining of Massive Datasets［M］.Cambridge,UK:Cambridge University Press,2011:1-17. ［15］Bohannon P,Dalvi N,Filmus Y,et al.Automatic Web-scale Information Extraction［C］//Proceedings of 2012 ACM SIGMOD International Conference on Management of Data.New York,USA:ACM Press,2012:609-612. 编辑金胡考

[1]	王春东, 王翔宇. 多层次实用拜占庭容错算法改进[J]. 计算机工程, 2023, 49(8): 29-36.
[2]	马坤, 安敬民, 李冠宇. 动态聚合实体和关系上下文的知识图谱补全[J]. 计算机工程, 2023, 49(8): 77-84, 95.
[3]	代祖华, 刘园园, 狄世龙. 语义增强的图神经网络方面级文本情感分析[J]. 计算机工程, 2023, 49(6): 71-80.
[4]	叶琪, 张一乾, 阮彤, 杜渂. 基于语义和结构置信度的知识图谱质量校验方法[J]. 计算机工程, 2023, 49(5): 48-55.
[5]	唐彦, 卢镘旭. 基于知识图谱与深度涟漪网络的推荐系统[J]. 计算机工程, 2023, 49(5): 63-72,80.
[6]	邹长龙, 安敬民, 李冠宇. 基于邻域聚合与CNN的知识图谱实体类型补全[J]. 计算机工程, 2023, 49(3): 134-141.
[7]	马月坤, 张可心, 高唱. 体现辨证论治差异的不孕症知识图谱构建方法研究[J]. 计算机工程, 2023, 49(3): 280-287,295.
[8]	翟社平, 张宇航, 柏晓夏. 融合实体邻域信息的知识图谱嵌入负采样方法[J]. 计算机工程, 2023, 49(3): 95-104.
[9]	刘泽坤, 王峰, 贾海蓉. 结合动态信用机制的PBFT算法优化方案[J]. 计算机工程, 2023, 49(2): 191-198.
[10]	李盼, 解庆, 李琳, 刘永坚. 知识增强的图神经网络序列推荐模型[J]. 计算机工程, 2023, 49(2): 70-80.
[11]	张晓晖, 马慧芳, 王文涛, 高子皓. 基于跨会话知识图谱的图注意力网络推荐方法[J]. 计算机工程, 2023, 49(2): 136-142,149.
[12]	张亮, 刘百祥. 区块链与秘密分享融合技术综述[J]. 计算机工程, 2022, 48(8): 1-11.
[13]	吴天波, 周欣, 程军军, 朱晗, 何小海. 基于位置和注意力联合表示的知识图谱问答[J]. 计算机工程, 2022, 48(8): 98-104,112.
[14]	付林, 刘钊, 邱晨, 高峰. 基于特征联合与多注意力的实体关系链接[J]. 计算机工程, 2022, 48(8): 53-61.
[15]	蒋雪瑶, 力维辰, 刘井平, 李直旭, 肖仰华. 基于多模态模式迁移的知识图谱实体配图[J]. 计算机工程, 2022, 48(8): 70-76.

选择文件类型/文献管理软件名称

选择包含的内容

基于知识图谱的Web信息抽取系统

Web Information Extraction System Based on Knowledge Graph

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于知识图谱的Web信息抽取系统

Web Information Extraction System Based on Knowledge Graph

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价