作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2018, Vol. 44 ›› Issue (10): 281-285,291. doi: 10.19678/j.issn.1000-3428.0048134

• 多媒体技术及应用 • 上一篇    下一篇

基于迁移学习的低资源度维吾尔语语音识别

王俊超1,黄浩1,徐海华2,胡英1   

  1. 1.新疆大学 信息科学与工程学院,乌鲁木齐 830046; 2.南洋理工大学 Temasek实验室,新加坡 639798
  • 收稿日期:2017-07-27 出版日期:2018-10-15 发布日期:2018-11-14
  • 作者简介:王俊超(1994—),男,硕士研究生,主研方向为语音识别;黄浩,教授、博士;徐海华,高级研究员、博士;胡英,讲师、博士。
  • 基金资助:

    国家自然科学基金(61365005,61663044,61761041)。

Low-resource Uyghur Speech Recognition Based on Transfer Learning

WANG Junchao1,HUANG Hao1,XU Haihua2,HU Ying1   

  1. 1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China; 2.Temasek Laboratories,Nanyang Technological University,Singapore 639798,Singapore
  • Received:2017-07-27 Online:2018-10-15 Published:2018-11-14

摘要:

语音识别中通常需要用较大的数据量来训练声学模型,而使用资源匮乏的维吾尔语数据训练的深度神经网络声学模型性能较差。针对该问题,根据深度神经网络模型能够进行迁移学习的特点,提出用少量维吾尔语数据重新训练由其他资源丰富语料训练而成的基础声学模型,从而构建一个性能更好的维吾尔语声学模型。实验结果表明,相比于基线系统迁移学习的训练方法,该方法能够显著提高维吾尔语的语音识别率。

关键词: 语音识别, 声学模型, 维吾尔语, 低资源度, 深度神经网络, 迁移学习

Abstract:

In speech cognition,a substantial amount of data is required for acoustic model training,so the performance of the Deep Neural Network(DNN) acoustic model trained on a scarce amount of data is limited.Aiming at this problem,this paper proposes a transfer learning method to improve the Uyghur speech recognition starting from models trained by other resource-rich speech databases,so as to get a better acoustic model for Uyghur speech recognition.Experimental result shows that the above method can significantly improve the Uyghur speech recognition performance compared with the baseline models trained only on Uyghur speech database.

Key words: speech recognition;acoustic model, Uyghur, low-resource, Deep Neural Network(DNN), transfer learning

中图分类号: