一种针对商品数据记录的自动抽取方法

doi:10.3969/j.issn.1000-3428.2010.23.088

计算机工程 ›› 2010, Vol. 36 ›› Issue (23): 262-265. doi: 10.3969/j.issn.1000-3428.2010.23.088

一种针对商品数据记录的自动抽取方法

杨舟1，卓林1，赵朋朋1,2，崔志明1,2

（1.苏州大学智能信息处理及应用研究所，江苏苏州 215006; 2.江苏省现代企业信息化应用支撑软件工程技术研发中心，江苏苏州 215104）

出版日期:2010-12-05 发布日期:2010-12-14
作者简介:杨舟(1985-)，男，硕士研究生，主研方向：Web信息抽取，信息集成；卓林，硕士研究生；赵朋朋，博士；崔志明，教授、博士生导师
基金资助:
国家自然科学基金资助项目（60970015）；2008年江苏省重大科技支撑与自主创新基金资助项目（BE2008044）；江苏省基础研究计划企业博士创新基金资助项目(BK2009563)

Automatic Extraction Method for Product Data Records

YANG Zhou1，ZHUO Lin1，ZHAO Pengpeng1,2，CUI Zhiming1,2

(1.Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China; 2.Jiangsu Province Support Software Engineering R&D Center for Modern Information

Online:2010-12-05 Published:2010-12-14

摘要/Abstract

摘要： 提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点，通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值，依据节点值的相似度对节点进行分组，再从不同分组中过滤出包含数据记录节点的集合，从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。

关键词: Web信息抽取, 数据抽取, 信息集成, 商品数据记录

Abstract: This paper proposes an automatic extraction method for Product Data Record(PDR) of list page on Ecommerce website. According to the characteristics of the product records, it calculates value for each node in the DOM tree of page by the node type information of text, image, layout and so on, classifies these nodes according to their similarity of value, and gets the final node collection which contains data record, so that the data records of the whole page are extracted. Experimental results show that the method is effective and with high efficiency.

Key words: Web information extraction, data extraction, information integration, Product Data Record(PDR)

中图分类号:

TP393

杨舟, 卓林, 赵朋朋, 崔志明. 一种针对商品数据记录的自动抽取方法[J]. 计算机工程, 2010, 36(23): 262-265.

YANG Zhou, ZHUO Lin, DIAO Peng-Peng, CUI Zhi-Meng. Automatic Extraction Method for Product Data Records[J]. Computer Engineering, 2010, 36(23): 262-265.

http://www.ecice06.com/CN/Y2010/V36/I23/262

[1]	王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124.
[2]	邓松. 实体信息集成检索的深网数据源选择[J]. 计算机工程, 2016, 42(10): 75-79.
[3]	彭远浩,潘久辉. 基于日志分析的增量数据捕获方法研究[J]. 计算机工程, 2015, 41(6): 56-60,65.
[4]	李庆诚, 张安站, 宫晓利, 张金. 类纸阅读器在线读物系统的研究与实现[J]. 计算机工程, 2012, 38(3): 261-264.
[5]	于龙, 蹇强. 面向主题的信息抽取需求描述与分析[J]. 计算机工程, 2012, 38(23): 57-59.
[6]	刘伟, 严华梁. 一种统一的Web新闻对象自动抽取方法[J]. 计算机工程, 2012, 38(11): 167-169.
[7]	夏纯中, 宋顺林. 一种基于动态带宽分配的企业服务总线模型[J]. 计算机工程, 2011, 37(21): 1-3.
[8]	阳王东, 周勇, 王涛, 李长云. 一种基于消息总线的交通信息集成模型[J]. 计算机工程, 2010, 36(14): 278-280.
[9]	陈　波;王延章. 一种基于主动学习的相似记录匹配方法[J]. 计算机工程, 2009, 35(3): 211-213.
[10]	陈波;王延章. 基于赋权二部图的记录簇匹配模型及其算法[J]. 计算机工程, 2009, 35(24): 60-62.
[11]	茅维华;唐守国;高淑娟;白雪松. 基于SOA架构的业务协同关键技术平台[J]. 计算机工程, 2009, 35(19): 280-282.
[12]	姚全珠;白敏;黄蔚. 基于模型驱动的ETL模型映射方法[J]. 计算机工程, 2009, 35(19): 91-93,9.
[13]	宫继兵;唐杰. 基于Ontology的视频描述信息抽取系统[J]. 计算机工程, 2009, 35(18): 34-36.
[14]	康灵燕;王建林;左泽军. 基于OPC-XML的过程信息集成方法研究[J]. 计算机工程, 2009, 35(10): 283-285.
[15]	罗如柏;周世生;赵金娟. 基于JDF的印刷制造信息集成规范研究[J]. 计算机工程, 2009, 35(10): 251-253.

选择文件类型/文献管理软件名称

选择包含的内容

一种针对商品数据记录的自动抽取方法

Automatic Extraction Method for Product Data Records

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种针对商品数据记录的自动抽取方法

Automatic Extraction Method for Product Data Records

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价