基于DOM树的视频元数据抽取系统

doi:10.3969/j.issn.1000-3428.2012.08.085

计算机工程 ›› 2012, Vol. 38 ›› Issue (08): 268-270.

基于DOM树的视频元数据抽取系统

唐朝伟 ¹，李俊 ¹，苗光胜 ²，杜欣慧 ¹

(1. 重庆大学通信工程学院，重庆 400044；2. 中国科学院声学研究所高性能网络实验室，北京 100190)

收稿日期:2011-06-23 出版日期:2012-04-20 发布日期:2012-04-20
作者简介:唐朝伟(1966－)，男，研究员、博士后，主研方向：移动互联网，计算机视觉；李俊，硕士研究生；苗光胜，助理研究员、博士；杜欣慧，硕士研究生
基金资助:
国家科技重大专项基金资助项目(2011ZX002-4, 2011ZX 03002-005-02)；重庆大学研究生教育改革基金资助项目(2010JGXM 015)

Video Metadata Extraction System Based on DOM Tree

TANG Chao-wei ¹, LI Jun ^1, MIAO Guang-sheng ², DU Xin-hui ¹

(1. College of Communication Engineering, Chongqing University, Chongqing 400044, China; 2. High Performance Network Lab, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China)

Received:2011-06-23 Online:2012-04-20 Published:2012-04-20

摘要/Abstract

摘要： 目前多数抽取方法主要针对主题信息块的提取，未深入到各单独信息块。为此，设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略，结合网页DOM树节点类型，从各单独信息块中抽取网页元数据。实验结果表明，该系统的网页平均查准率为95.7%，平均抽取准确率为98.4%，高于同类系统。

关键词: 网络爬虫, 信息采集, URL调度, 增量更新, DOM树

Abstract: Most of the extraction methods mainly focus on the extraction of the subject information block, and pay no attention on the individual information piece. A video metadata extraction system based on DOM tree is proposed to solve this problem. Combining with the node type of Web DOM tree, it extracts the metadata of Web pages thorough individual subject information block by improving the links filter functions of Heritrix and queue management strategy of URL. Experimental results show that the average precision ratio of Web page and the average extraction ratio of the system are 95.7% and 98.4%, greatly higher than the similar systems.

Key words: Web crawler, information collection, URL schedule, incremental update, DOM tree

中图分类号:

TP311

唐朝伟, 李俊, 苗光胜, 杜欣慧. 基于DOM树的视频元数据抽取系统[J]. 计算机工程, 2012, 38(08): 268-270.

TANG Chao-Wei, LI Dun, MIAO Guang-Qing, DU Xin-Hui. Video Metadata Extraction System Based on DOM Tree[J]. Computer Engineering, 2012, 38(08): 268-270.

https://www.ecice06.com/CN/Y2012/V38/I08/268

[1]	马超, 宋琛. 计及电力数据安全的智能合约上链方法及防篡改技术研究[J]. 计算机工程, 2024, 50(10): 240-254.
[2]	王豫新, 高美凤. 一种改进的固件增量更新算法[J]. 计算机工程, 2020, 46(10): 210-215.
[3]	江航,卢暾,顾寒苏,丁向华,顾宁. 一种动态实时高校建筑能耗异常检测方法[J]. 计算机工程, 2017, 43(4): 15-20,27.
[4]	程广,王晓峰. 基于MapReduce的并行关联规则增量更新算法[J]. 计算机工程, 2016, 42(2): 21-25,32.
[5]	高梦超,胡庆宝,程耀东,周旭,李海波,杜然. 基于众包的社交网络数据采集模型设计与实现[J]. 计算机工程, 2015, 41(4): 36-40.
[6]	周文乐,朱明,陈天昊. 一种基于网站聚合和语义知识的电影推荐方法[J]. 计算机工程, 2014, 40(8): 277-281.
[7]	颜一鸣，郭鑫. 一种基于Hadoop的动态树增量更新方法[J]. 计算机工程, 2014, 40(3): 67-70,92.
[8]	朱征宇, 崔明, 刘琳. 基于GPS终端的实时路况信息采集方法研究[J]. 计算机工程, 2013, 39(7): 21-25.
[9]	杨斌, 李军军, 郝杨杨. 物联网海量多维信息的按需采集决策问题研究[J]. 计算机工程, 2013, 39(3): 111-117.
[10]	郭建兵, 崔志明, 陈明, 赵朋朋. 基于DOM树与领域本体的Web抽取方法[J]. 计算机工程, 2012, 38(5): 56-58.
[11]	刘永文, 李天瑞, 陈红梅, 高子喆, 谷小广. 覆盖广义粗糙集中近似集增量更新方法研究[J]. 计算机工程, 2012, 38(2): 156-158.
[12]	张晨, 汪永益, 王雄, 施凡. 基于网页DOM树比对的SQL注入漏洞检测[J]. 计算机工程, 2012, 38(18): 111-115.
[13]	吴晶, 陈仪香, 刘道明. 基于网络论坛的股市分析方法[J]. 计算机工程, 2012, 38(13): 254-256,259.
[14]	陈欣, 高建华. 基于用户会话的Web测试集约简[J]. 计算机工程, 2011, 37(6): 35-37.
[15]	黄伟, 郭鑫, 周清平. 支持实时增量更新的闭子树聚类算法[J]. 计算机工程, 2011, 37(24): 25-27.

选择文件类型/文献管理软件名称

选择包含的内容

基于DOM树的视频元数据抽取系统

Video Metadata Extraction System Based on DOM Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于DOM树的视频元数据抽取系统

Video Metadata Extraction System Based on DOM Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价