作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2012, Vol. 38 ›› Issue (08): 268-270. doi: 10.3969/j.issn.1000-3428.2012.08.085

• 开发研究与设计技术 • 上一篇    下一篇

基于DOM树的视频元数据抽取系统

唐朝伟 1,李 俊 1,苗光胜 2,杜欣慧 1   

  1. (1. 重庆大学通信工程学院,重庆 400044;2. 中国科学院声学研究所高性能网络实验室,北京 100190)
  • 收稿日期:2011-06-23 出版日期:2012-04-20 发布日期:2012-04-20
  • 作者简介:唐朝伟(1966-),男,研究员、博士后,主研方向:移动互联网,计算机视觉;李 俊,硕士研究生;苗光胜,助理研究员、博士;杜欣慧,硕士研究生
  • 基金资助:

    国家科技重大专项基金资助项目(2011ZX002-4, 2011ZX 03002-005-02);重庆大学研究生教育改革基金资助项目(2010JGXM 015)

Video Metadata Extraction System Based on DOM Tree

TANG Chao-wei 1, LI Jun 1, MIAO Guang-sheng 2, DU Xin-hui 1   

  1. (1. College of Communication Engineering, Chongqing University, Chongqing 400044, China; 2. High Performance Network Lab, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China)
  • Received:2011-06-23 Online:2012-04-20 Published:2012-04-20

摘要: 目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统。

关键词: 网络爬虫, 信息采集, URL调度, 增量更新, DOM树

Abstract: Most of the extraction methods mainly focus on the extraction of the subject information block, and pay no attention on the individual information piece. A video metadata extraction system based on DOM tree is proposed to solve this problem. Combining with the node type of Web DOM tree, it extracts the metadata of Web pages thorough individual subject information block by improving the links filter functions of Heritrix and queue management strategy of URL. Experimental results show that the average precision ratio of Web page and the average extraction ratio of the system are 95.7% and 98.4%, greatly higher than the similar systems.

Key words: Web crawler, information collection, URL schedule, incremental update, DOM tree

中图分类号: