基于三流DBN模型的听视觉情感识别

doi:10.3969/j.issn.1000-3428.2012.05.049

计算机工程 ›› 2012, Vol. 38 ›› Issue (5): 161-162,166. doi: 10.3969/j.issn.1000-3428.2012.05.049

基于三流DBN模型的听视觉情感识别

吕兰兰¹，蒋冬梅¹，王风娜²，Hichem Sahli²，Werner Verhelst²

(1. 西北工业大学陕西省语音与图像信息处理重点实验室，西安 710072；2. 布鲁塞尔自由大学电子与信息工程系，布鲁塞尔 1050)

收稿日期:2011-07-07 出版日期:2012-03-05 发布日期:2012-03-05
作者简介:吕兰兰(1984－)，女，硕士研究生，主研方向：听视觉语音处理；蒋冬梅，教授；王风娜，博士；Hichem Sahli、 Werner Verhelst，教授
基金资助:
国家自然科学基金资助项目(60703104)；陕西省自然科学基金资助项目(SJ08F28)；西北工业大学基础研究基金资助项目 (JC200943)

Audio Visual Emotion Recognition Based on Triple Stream DBN Model

LV Lan-lan ¹, JIANG Dong-mei ¹, WANG Feng-na ², Hichem Sahli ², Werner Verhelst ²

(1. Shaanxi Provincial Key Laboratory on Speech, Image and Information Processing, Northwestern Polytechnical University, Xi’an 710072, China; 2. Department of Electronics and Informatics, Vrije Universiteit Brussel, Brussels 1050, Belgium)

Received:2011-07-07 Online:2012-03-05 Published:2012-03-05

摘要/Abstract

摘要： 为更好地对听视觉情感信息之间的关联关系进行建模，提出一种三流混合动态贝叶斯网络情感识别模型(T_AsyDBN)。采用MFCC特征及基于基频和短时能量的局域韵律特征作为听觉输入流，在状态层同步。将面部几何特征和面部动作参数特征作为视觉输入流，与听觉输入流在状态层异步。实验结果表明，该模型优于有状态异步约束的听视觉双流DBN模型，6种情感的平均识别率从 52.14%提高到63.71%。

关键词: 动态贝叶斯网络, 听视觉融合, 情感识别, 异步约束, 权重

Abstract: This paper presents a triple stream Dynamic Bayesian Networks(DBN) model(T_AsyDBN) for audio visual emotion recognition, in which the two audio streams are synchronous at the state level, while they are asynchronous with the visual stream within controllable constraints. MFCC features and local prosodic features are extracted as audio features, while dimensional geometric features as well facial action units’ coefficients are extracted as visual features. Emotion recognition experiments show that by adjusting the asynchrony % to 63.71%.constraint, T_AsyDBN performs better than the two stream audio visual DBN model(Asy_DBN), with average recognition rate improves from 52.14

Key words: Dynamic Bayesian Networks(DBN), audio visual fusion, emotion recognition, asynchrony constraint, weight

中图分类号:

TP18

吕兰兰, 蒋冬梅, 王风娜, Hichem Sahli, Werner Verhelst. 基于三流DBN模型的听视觉情感识别[J]. 计算机工程, 2012, 38(5): 161-162,166.

LV Lan-Lan, JIANG Dong-Mei, WANG Feng-Na, Hichem Sahli, Werner Verhelst. Audio Visual Emotion Recognition Based on Triple Stream DBN Model[J]. Computer Engineering, 2012, 38(5): 161-162,166.

https://www.ecice06.com/CN/Y2012/V38/I5/161

[1]	王永旗, 王雷. 基于跨模态增强与时间步门控的多模态情感识别[J]. 计算机工程, 2026, 52(6): 258-267.
[2]	李亮, 肖名志, 陈曦. 区块链技术的去中心化新闻检索与聚合架构研究[J]. 计算机工程, 2026, 52(5): 303-325.
[3]	苗茹, 李祎, 周珂, 张俨娜, 常然然, 孟更. 一种改进的Faster R-CNN遥感图像多目标检测模型研究[J]. 计算机工程, 2025, 51(8): 292-304.
[4]	张玉博, 杨帆, 郭亚, 杨文慧. 基于视觉大模型的垃圾分类轻量化算法研究[J]. 计算机工程, 2025, 51(7): 140-151.
[5]	廖丁丁, 刘俊峰, 曾君, 邱晓欢. 一种基于块平均正交权重修正的连续学习算法[J]. 计算机工程, 2025, 51(6): 57-64.
[6]	王亚, 甘青松, 沈琦, 宋余庆, 刘毅, 韩凯, 刘哲. 基于动态联合加权的带钢表面缺陷分类方法[J]. 计算机工程, 2025, 51(6): 286-296.
[7]	张睿, 张雪英, 陈桂军, 黄丽霞. 基于GC特征和脑区频段Transformer模型的EEG情感识别[J]. 计算机工程, 2025, 51(6): 311-319.
[8]	蓝章礼, 邢彩卓, 张洪. 基于改进YOLOv5s的被遮挡交通标志检测算法[J]. 计算机工程, 2025, 51(5): 361-369.
[9]	王梦珍, 张德生, 张晓. 基于加权局部密度的双超球支持向量机算法[J]. 计算机工程, 2025, 51(5): 188-195.
[10]	刘文杰, 陈亮, 任智杰. 基于图神经网络与元学习的小样本关系推理模型[J]. 计算机工程, 2025, 51(5): 124-132.
[11]	杜晨阳, 张雪英, 黄丽霞, 李娟. 基于改进高效通道注意力机制的多特征语音情感识别[J]. 计算机工程, 2025, 51(4): 97-106.
[12]	董红亮, 钮焱, 孙杨, 李军. 基于记忆胶囊与注意力的语音情感识别[J]. 计算机工程, 2025, 51(4): 169-177.
[13]	牛渲文, 杜晔, 杨明松, 李昂, 黎妹红. 基于层次联邦与动态权重的卫星网络异常检测方法[J]. 计算机工程, 2025, 51(12): 210-220.
[14]	费煜哲, 蔡欣, 赵鸣博, 杨圣豪. 基于隐式表达的服装三维重建[J]. 计算机工程, 2024, 50(5): 220-228.
[15]	薛羽, 卢畅畅. 基于有偏采样的连续进化神经架构搜索[J]. 计算机工程, 2024, 50(2): 91-97.

选择文件类型/文献管理软件名称

选择包含的内容

基于三流DBN模型的听视觉情感识别

Audio Visual Emotion Recognition Based on Triple Stream DBN Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于三流DBN模型的听视觉情感识别

Audio Visual Emotion Recognition Based on Triple Stream DBN Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价