发音特征在维汉语音识别中的应用

doi:10.3969/j.issn.1000-3428.2012.23.044

计算机工程 ›› 2012, Vol. 38 ›› Issue (23): 177-180. doi: 10.3969/j.issn.1000-3428.2012.23.044

发音特征在维汉语音识别中的应用

秦春香，黄浩

(新疆大学信息科学与工程学院，乌鲁木齐 830046)

收稿日期:2012-03-13 出版日期:2012-12-05 发布日期:2012-12-03
作者简介:秦春香(1986－)，女，硕士，主研方向：语音识别技术；黄浩，副教授、博士
基金资助:
国家自然科学基金资助项目(60965002)；新疆高校科研计划培育基金资助项目(XJEDU2008S15)；新疆大学博士科研启动基金资助项目(BS090143)

Application of Articulatory Feature in Uygur and Mandarin Speech Recognition

QIN Chun-xiang, HUANG Hao

(College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Received:2012-03-13 Online:2012-12-05 Published:2012-12-03

摘要/Abstract

摘要： 采用传统谱特征作为输入进行语音识别通常会受到声学环境差异的影响。为此，提出汉语和维语音素和音位的对应规则，并将这种规则应用于基于发音特征的语音识别系统。训练神经网络多层感知器，获取语音信号各类发音特征的后验概率，将其与美尔频率倒谱系数(MFCC)拼接后送入隐马尔科夫模型进行声学模型训练。将不同发音特征分别与传统MFCC特征进行组合并给出测试结果。实验结果表明，当汉语声带状况和送气发音特征与传统MFCC组合时，以及维语的发音方式和声带状况特征与MFCC组合之后，系统误识率较低。

关键词: 维汉语音识别, 多层感知器, 声学模型, 美尔频率倒谱系数, 特征组合

Abstract: Speech recognition based on traditional spectral feature is liable to be influenced by the acoustic conditions of the environment. Articulatory Feature(AF) is robust to such conditions. In this paper, the rules of phonetic mapping to AF of Mandarin and Uighur speech are derived. The neural networks are trained to obtain posterior probability of AF. The features are combined with Mel Frequency Cepstral Coefficient(MFCC) and are used to train the hidden Markov based acoustic model. Experimental results show that by combining the MFCC with the feature of voicing or aspiration in Mandarin, the feature of voicing or manner in Uighur, significant error reductions can be obtained.

Key words: Uygur and Mandarin speech recognition, Multilayer Perceptron(MLP), acoustic model, Mel Frequency Cepstral Coefficient(MFCC), feature combination

中图分类号:

TP391

秦春香, 黄浩. 发音特征在维汉语音识别中的应用[J]. 计算机工程, 2012, 38(23): 177-180.

QIN Chun-Xiang, HUANG Gao. Application of Articulatory Feature in Uygur and Mandarin Speech Recognition[J]. Computer Engineering, 2012, 38(23): 177-180.

http://www.ecice06.com/CN/Y2012/V38/I23/177

[1]	陈俊月, 郝文宁, 张紫萱, 唐新德, 康睿智, 莫斐. 基于改进句子相似度算法的释义识别研究[J]. 计算机工程, 2020, 46(9): 76-82.
[2]	张欠欠, 王静, 刘红敏. 基于环采样的特征组合二值描述子算法[J]. 计算机工程, 2019, 45(12): 189-195.
[3]	谷兴龙, 谢珺, 靳红伟, 续欣莹. 基于词特征与语义特征的评价对象识别[J]. 计算机工程, 2019, 45(11): 218-224.
[4]	王俊超,黄浩,徐海华,胡英. 基于迁移学习的低资源度维吾尔语语音识别[J]. 计算机工程, 2018, 44(10): 281-285,291.
[5]	周毅书,梁鹏,张海涛,周建雄,刘琦. 一种基于高阶特征表示的图像分类方法[J]. 计算机工程, 2016, 42(4): 318-321.
[6]	刘静,郭建,贺遵亮. 基于Gist 和PHOG 特征的场景分类[J]. 计算机工程, 2015, 41(4): 232-235,240.
[7]	肖佳林，赵聿晴，王英. 基于HMM与SVM的语音活动检测[J]. 计算机工程, 2014, 40(1): 203-208.
[8]	顾迎节, 金忠. 基于可见光与红外数据融合的地形分类[J]. 计算机工程, 2013, 39(2): 187-191.
[9]	李冠宇, 孟猛. 藏语拉萨话大词表连续语音识别声学模型研究[J]. 计算机工程, 2012, 38(5): 189-191.
[10]	武晓敏, 达瓦?伊德木草, 吾守尔?斯拉木. 自然语料缺乏的民族语言连续语音识别[J]. 计算机工程, 2012, 38(12): 129-131.
[11]	周萍, 唐李珍. 基于信息融合的短语音说话人识别方法研究[J]. 计算机工程, 2011, 37(2): 169-171.
[12]	齐晓倩, 陈鸿昶, 黄海. 基于K-L距离的两步固定音频检索方法[J]. 计算机工程, 2011, 37(19): 160-162.
[13]	孔维功;张国杰;张效军. MFCC中DCT结构的设计与实现[J]. 计算机工程, 2009, 35(5): 265-267.
[14]	张睿;刘晓霞. 基于URN的特征冲突过滤方法[J]. 计算机工程, 2009, 35(21): 45-47.
[15]	刘海燕;郑雪峰;程仁峰;王　颖. 基于心理声学模型的音频水印能量与可靠性研究[J]. 计算机工程, 2008, 34(4): 34-36.

选择文件类型/文献管理软件名称

选择包含的内容

发音特征在维汉语音识别中的应用

Application of Articulatory Feature in Uygur and Mandarin Speech Recognition

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

发音特征在维汉语音识别中的应用

Application of Articulatory Feature in Uygur and Mandarin Speech Recognition

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价