基于多模态特征融合的新闻故事单元分割

doi:10.3969/j.issn.1000-3428.2012.24.038

计算机工程 ›› 2012, Vol. 38 ›› Issue (24): 161-165. doi: 10.3969/j.issn.1000-3428.2012.24.038

基于多模态特征融合的新闻故事单元分割

刘嘉琦 ¹，封化民 ^1,2，闫建鹏 ¹

(1. 西安电子科技大学通信工程学院，西安 710071；2. 北京电子科技学院，北京 100070)

收稿日期:2011-11-22 修回日期:2012-02-10 出版日期:2012-12-20 发布日期:2012-12-18
作者简介:刘嘉琦(1987－)，男，硕士研究生，主研方向：视频检索，视频语义提取；封化民，教授、博士；闫建鹏，硕士研究生
基金资助:
国家自然科学基金资助项目(60972139)；北京市自然科学基金资助项目(4092041)

News Story Unit Segmentation Based on Multi-modal Feature Fusion

LIU Jia-qi¹, FENG Hua-min ^1,2, YAN Jian-peng ¹

(1. School of Telecommunication Engineering, Xidian University, Xi’an 710071, China; 2. Beijing Electronic Science and Technology Institution, Beijing 100070, China)

Received:2011-11-22 Revised:2012-02-10 Online:2012-12-20 Published:2012-12-18

摘要/Abstract

摘要： 对新闻视频进行结构分析，提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流，选择静音区间为音频候选点，将镜头边界切变点作为视频候选点，做主持人镜头和主题字幕的探测，挑选主持人镜头为候选区间，并记录主题字幕的起始位置和结束位置，利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕，对新闻视频进行故事单元分割。实验结果表明，该方法的查全率为83.18%，查准率为83.92%。

关键词: 新闻视频, 多模态特征, 字幕, 音频, 故事单元分割

Abstract: News story unit segmentation method based on multi-modal feature fusion is proposed in this paper by analyzing news video structure. News video is divided into audio stream and video stream. Mute intervals are detected as audio candidate points, and the shot segmentations for news video are detected and shot boundary points are chosen as video candidate points, anchorperson shot and topic caption are detected. Story units are detected by fusing audio candidate points, video candidate points, anchorperson shot and topic caption based on time axis. Experimental results show that this method can get 83.18% in recall and 83.92% in precision.

Key words: news videom, ulti-modal feature, caption, audio, story unit segmentation

中图分类号:

TP391

刘嘉琦, 封化民, 闫建鹏. 基于多模态特征融合的新闻故事单元分割[J]. 计算机工程, 2012, 38(24): 161-165.

LIU Jia-Qi, BIAN Hua-Min, YAN Jian-Feng. News Story Unit Segmentation Based on Multi-modal Feature Fusion[J]. Computer Engineering, 2012, 38(24): 161-165.

https://www.ecice06.com/CN/Y2012/V38/I24/161

[1]	陈国莲, 冯梓洋, 曹均阔. 基于多模态空间特征融合的网络欺凌检测研究[J]. 计算机工程, 2026, 52(3): 255-263.
[2]	陈诗航, 孙玉宝. 基于模态仿射融合的语音控制说话人脸视频对抗生成[J]. 计算机工程, 2026, 52(2): 393-403.
[3]	庞鑫, 葛凤培, 李艳玲. 声景识音：数字化时代声学场景分类的探索与前沿[J]. 计算机工程, 2025, 51(6): 1-19.
[4]	崔晓丹, 刘达维, 刘逸凡, 赵志滨, 任酉贵, 闫永明. 新闻类短视频关键帧摘要模型的研究与实现[J]. 计算机工程, 2023, 49(8): 182-189.
[5]	林梦琪, 张晓梅. 基于行为足迹的多模态融合身份认证[J]. 计算机工程, 2021, 47(10): 116-124.
[6]	余恒, 王让定, 严迪群, 张雪垣. 基于采样值排序的音频可逆隐写算法[J]. 计算机工程, 2021, 47(1): 123-128,138.
[7]	袁凤强,王晓晨,王中元,陈丹,姜林. 基于音调调整的AVS-P10带宽扩展优化方案[J]. 计算机工程, 2018, 44(10): 286-291.
[8]	孙宁,赵维平,陈美,李超. 一种改进的Philips音频指纹检索算法[J]. 计算机工程, 2018, 44(1): 280-284.
[9]	廖传奇,涂卫平. 基于空间位置信息的三维音频编码技术研究[J]. 计算机工程, 2017, 43(1): 303-308,315.
[10]	罗永恩,胡继承,徐茜. 基于超图的多模态关联特征处理方法[J]. 计算机工程, 2017, 43(1): 226-230.
[11]	甄辉,王欧阳,姚剑,何江山,黄海,耿晨歌. 一种基于智能手机的数据通信方法设计与应用[J]. 计算机工程, 2016, 42(9): 315-321.
[12]	刘迪,关欣,李锵,滕建辅. 基于鲁棒主成分分析的音乐信号降噪[J]. 计算机工程, 2016, 42(9): 292-296,304.
[13]	王欧阳,甄辉,姚剑. 基于智能手机的胎心率检测系统[J]. 计算机工程, 2016, 42(4): 288-294.
[14]	胡霞,杨玉红,姜林. 基于原子预选择的音频匹配追踪算法[J]. 计算机工程, 2016, 42(11): 285-289.
[15]	吕亚平,高戈,陈怡,张康. 基于高斯混合模型的感知域音频编码方法[J]. 计算机工程, 2015, 41(10): 265-269.

选择文件类型/文献管理软件名称

选择包含的内容

基于多模态特征融合的新闻故事单元分割

News Story Unit Segmentation Based on Multi-modal Feature Fusion

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于多模态特征融合的新闻故事单元分割

News Story Unit Segmentation Based on Multi-modal Feature Fusion

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价