作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2022, Vol. 48 ›› Issue (1): 85-92. doi: 10.19678/j.issn.1000-3428.0060346

• 人工智能与模式识别 • 上一篇    下一篇

一种基于层次化R-GCN的会话情绪识别方法

赖河蒗1,2, 李玲俐2, 胡婉玲1, 颜学明3   

  1. 1. 华南师范大学 计算机学院, 广州 510631;
    2. 广东司法警官职业学院 信息管理系, 广州 510520;
    3. 广东外语外贸大学 信息科学与技术学院, 广州 510006
  • 收稿日期:2020-12-21 修回日期:2021-01-21 发布日期:2021-02-03
  • 作者简介:赖河蒗(1985-),男,博士研究生,主研方向为情感分析、服务计算理论与技术;李玲俐(通信作者),教授;胡婉玲,硕士研究生;颜学明,博士。
  • 基金资助:
    国家自然科学基金青年基金项目(62006053);广东省教育厅特色创新类项目(2018KQNCX072);2020年度广东省普通高校青年创新人才项目(2020KQNCX186);2020年度广东省普通高校特色创新项目(2020KTSCX273);广东省高等教育学会“十三五”规划2019年度高校青年教师高等教育学研究课题(19GGZ070);广东司法警官职业学院第四届院级课题(2020YB16)。

Method for Conversational Emotion Recognition Using Hierarchical R-GCN

LAI Helang1,2, LI Lingli2, HU Wanling1, YAN Xueming3   

  1. 1. School of Computer Science, South China Normal University, Guangzhou 510631, China;
    2. Department of Information Management, Guangdong Justice Police Vocational College, Guangzhou 510520, China;
    3. School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou 510006, China
  • Received:2020-12-21 Revised:2021-01-21 Published:2021-02-03

摘要: 会话情绪识别包括说话者自身情绪影响以及说话者之间情绪影响这2个重要因素,为了充分考虑上述影响因素以提高会话情绪识别效果,提出一种基于层次化关系图卷积神经网络(HRGCN)的识别方法。使用一个基础神经网络对会话序列的特征数据进行优化,按照不同的说话者划分出2个不同的会话子序列,采用2个局部关系图卷积神经网络(R-GCN)分别对2个子序列进行局部建模,按照会话发生的时间顺序重新整合局部建模后的2个子序列,并利用全局R-GCN对其进行全局建模。通过对输入的多模态特征数据的分层次建模,使得会话序列捕获到更多的上下文信息。在IEMOCAP数据集上的实验结果表明,与当前流行的循环神经网络LSTM、GRU等相比,HRGCN方法的会话情绪识别性能较高,准确率与F1值分别达到84.48%与84.40%。

关键词: 基础神经网络, 关系图卷积神经网络, 会话, 情绪识别, 人工智能

Abstract: Conversational emotion recognition should consider not only the emotions of the speakers themselves, but also the emotions passing between speakers.This paper proposes an emotion recognition method based on Hierarchical Relational Graph Convolutional Network(HRGCN), which considers both two types of emotions to improve the recognition performance.The method employs a Basic Neural Network(BNN) to optimize the feature data of the conversational sequence, and divides the sequence into two different conversational subsequences according to the speaker.Two local Relational Graph Convolutional Networks(R-GCN) are used for local modelling of these two subsequences respectively, and the two locally modeled subsequences are reconcatenated in chronological order of the conversation.Furthermore, the global R-GCN is used to model the reconcatenated sequence globally.through hierarchical modeling of the input multimodal feature data, HRGCN can capture more contextual information.The experimental results on the IEMOCAP dataset show that HRGCN displays an accuracy of 84.48% and a F1 score of 84.40%, higher than LSTM, GRU and other mainstream recurrent neural networks.

Key words: Basic Neural Network(BNN), Relational Graph Convolutional Network(R-GCN), conversation, emotion recognition, artificial intelligence

中图分类号: