作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2012, Vol. 38 ›› Issue (20): 45-48. doi: 10.3969/j.issn.1000-3428.2012.20.012

• 软件技术与数据库 • 上一篇    下一篇

基于层次关联边条件随机场的Web对象抽取

胡丽娟,梁久祯   

  1. (江南大学物联网工程学院,江苏 无锡 214122)
  • 收稿日期:2011-12-22 修回日期:2012-01-31 出版日期:2012-10-20 发布日期:2012-10-17
  • 作者简介:胡丽娟(1986-),女,硕士研究生,主研方向:Web信息抽取与检索;梁久祯,教授
  • 基金资助:
    国家自然科学基金资助项目(61170121)

Web Object Extraction Based on Hierarchical Correlative-chain Conditional Random Fields

HU Li-juan, LIANG Jiu-zhen   

  1. (School of Internet of Things Engineering, Jiangnan University, Wuxi 214122, China)
  • Received:2011-12-22 Revised:2012-01-31 Online:2012-10-20 Published:2012-10-17

摘要: 提出一种基于层次关联边条件随机场(HCC-CRFs)模型的Web对象抽取方法。将数据块检测和属性标注合并为标签分配问题,避免误差传播现象。通过在数据块之间增加条件依赖关系,使HCC-CRFs模型能充分利用Web页面的内容层次结构。实验结果表明,该方法具有较好的抽取效果。

关键词: Web对象, 信息抽取, 数据块检测, 属性标注, 条件随机场, 层次关联边

Abstract: This paper presents a Web object extraction method based on Hierarchical Correlative-chain Conditional Random Fields(HCC-CRFs) model. This method performs data record detection and attributes labeling simultaneously to avoid error propagation. It can get the most out of the content hierarchy of Web page by adding more conditional dependencies between data record. Experimental results show this method has good extraction effect.

Key words: Web object, information extraction, data block detection, attribute labeling, Conditional Random Fields(CRFs), hierarchical correlative-chain

中图分类号: