作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (5): 59-61,64. doi: 10.3969/j.issn.1000-3428.2011.05.020

• 软件技术与数据库 • 上一篇    下一篇

基于二维混合条件随机场的Web记录抽取模型

卓 林1,杨 舟1,赵朋朋1,2,崔志明1,2   

  1. (1. 苏州大学智能信息处理及应用研究所,江苏 苏州 215006; 2. 江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215006)
  • 出版日期:2011-03-05 发布日期:2012-10-31
  • 作者简介:卓 林(1986-),男,硕士研究生,主研方向:Web信息抽取,信息集成;杨 舟,硕士研究生;赵朋朋,博士;崔志明,教授、博士生导师
  • 基金资助:
    国家自然科学基金资助项目(60970015);2008年江苏省重大科技支撑与自主创新基金资助项目(BE2008044);江苏省基础研究计划企业博士创新基金资助项目(BK2009563)

Web Records Extraction Model Based on 2D Mixed Conditional Random Fields

ZHUO Lin 1, YANG Zhou  1, ZHAO Peng-peng  1,2, CUI Zhi-ming  1,2   

  1. (1. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China; 2. Jiangsu Province Support Software Engineering R & D Center for Modern Information Technology Application in Enterprise, Suzhou 215006, China)
  • Online:2011-03-05 Published:2012-10-31

摘要: 提出一种基于混合二维条件随机场的Web记录抽取模型,以克服线性链条件随机场不能充分利用Web实体间二维依赖关系的缺点,且训练条件随机场模型时无需大量手工标注的样本数据。对当当网上的742个数据记录进行抽取,对比同等情况下的其他模型。实验结果表明,混合二维条件随机场模型在抽取TDS数据集时展现了更优越的性能。

关键词: 条件随机场, 混合条件随机场, 信息抽取, Web记录

Abstract: This paper presents a model of two-dimensional Mix Conditional Random Fields(MCRF) which are used for the extraction of Web records. It overcomes the shortcomings of linear-chain conditional random that it can not take full advantage of dependencies between the various elements of Web entities. Meanwhile, it solves the problem that training CRF model often requires large number of hand-labeling sample data. In the experiment, it tries to extract 742 data records from Dangdang online, and compared with other models under the same conditions. Experimental results show a more superior performance during extracting TDS.

Key words: Conditional Random Fields(CRF), Mixed CRF(MCRF), information extraction, Web records

中图分类号: