作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2021, Vol. 47 ›› Issue (3): 284-290. doi: 10.19678/j.issn.1000-3428.0057081

• 开发研究与工程应用 • 上一篇    下一篇

融合马尔科夫决策过程与信息熵的对话策略

朱映波1, 赵阳洋2, 王佩2, 尹凯2, 王振宇2   

  1. 1. 天翼爱音乐文化科技有限公司, 广州 510081;
    2. 华南理工大学 软件学院, 广州 510006
  • 收稿日期:2019-12-31 修回日期:2020-03-11 发布日期:2020-03-18
  • 作者简介:朱映波(1971-),男,教授级高级工程师、博士,主研方向为数字音乐版权保护、大数据;赵阳洋,博士研究生;王佩,硕士;尹凯,硕士研究生;王振宇,教授、博士。
  • 基金资助:
    广东省自然科学基金“面向在线社会网络的信息传播结构分析与宏观预测”(2019A1515011792);广东省应用型科技研发专项资金重点项目“面向移动互联网用户大数据分析及推荐平台的产业化应用”(2015B010131003);广州市科技项目“基于大数据分析的移动音乐智能搜索与推荐平台”(201802010025)。

Dialogue Strateqy Integrating Markov Decision Process and Information Entropy

ZHU Yingbo1, ZHAO Yangyang2, WANG Pei2, YIN Kai2, WANG Zhenyu2   

  1. 1. iMusic Culture and Technology Co., Ltd., Guangzhou 510081, China;
    2. School of Software Engineering, South China University of Technology, Guangzhou 510006, China
  • Received:2019-12-31 Revised:2020-03-11 Published:2020-03-18

摘要: 对话策略是人机对话系统中的重要组成成分,其性能的优劣直接影响对话系统的性能。在面对完全没有数据的冷启动场景时,收集对话数据进行对话策略学习的过程非常复杂和耗时。为在冷启动场景下能够保持良好性能,提出一种融合马尔科夫决策过程与信息熵的对话算法。利用马尔科夫决策过程快速获得下一步最优对话状态,并结合知识库通过引入属性信息熵方法排除多个状态值函数相同的最优状态,从而获取最优的系统响应动作。在音乐搜索领域数据集上的实验结果表明,与随机策略、基于规则和基于信息熵的算法相比,该算法分别缩短了2.24、0.84和0.03个对话轮次,且能够有效提高对话任务完成率。

关键词: 对话系统, 对话策略, 冷启动, 信息熵, 马尔科夫决策过程

Abstract: Dialogue strategy is an important component in the human-machine dialogue system,and its performance directly affects the performance of the dialogue system.In a cold start scenario without any data,it is complex and time-consuming to collect dialogue data for dialogue strategy learning.In order to maintain good performance in cold start scenarios,this paper proposes a dialogue strategy algorithm that combines Markov Decision Process(MDP) and information entropy.The MDP is used to quickly obtain the next optimal dialogue state.On this basis,the attribute information entropy method is introduced and combined with the knowledge base to exclude the optimal state of multiple functions of the same state value to help the system make the optimal system response action.Experimental results on the data set in the music search field show that compared with random strategy,rule-based and information entropy-based algorithms,the proposed algorithm reduces 2.24,0.84 and 0.03 dialogue rounds respectively,and can effectively improve the completion rate of dialogue tasks.

Key words: dialogue system, dialogue strategy, cold start, information entropy, Markov Decision Process(MDP)

中图分类号: