汉语普通话易混淆音素的识别

doi:10.3969/j.issn.1000-3428.2009.23.069

计算机工程 ›› 2009, Vol. 35 ›› Issue (23): 201-203. doi: 10.3969/j.issn.1000-3428.2009.23.069

汉语普通话易混淆音素的识别

李晨冲1,2，董滨2，潘复平2，曾兴雯1，颜永红2

(1. 西安电子科技大学通信工程学院，西安 710071；2. 中国科学院声学研究所中科信利语音实验室，北京 100190)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-12-05 发布日期:2009-12-05

Recognition of Easily Confused Mandarin Phone

LI Chen-chong1,2, DONG Bin2, PAN Fu-ping2, ZENG Xing-wen1, YAN Yong-hong2

(1. School of Telecommunication Engineering, Xidian University, Xi’an 710071; 2. ThinkIT Speech Lab, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190)

Received:1900-01-01 Revised:1900-01-01 Online:2009-12-05 Published:2009-12-05

摘要/Abstract

摘要： 针对汉语普通话语音识别中易混淆音素的声学特征，把小波包分解理论应用在感觉加权线性预测(PLP)特征中，提出一种新的特征参数提取算法，可以更精确地描述易混淆音素的频谱特征。使用高斯混合模型对新的声学特征进行分类，从而达到区分的目的。实验结果证明，新的特征参数识别结果优于使用传统PLP特征参数的识别结果，识别错误率下降30%以上。

关键词: 小波包分解, 感觉加权线性预测, 语音识别

Abstract: Aiming at the acoustic features of some easily confused mandarin speech recognition, this paper directs towards revising the Perceptual Linear Predictive(PLP) acoustic feature of these consonants by applying wavelet packet decomposition theory, in which a new feature extraction algorithm is proposed. The new feature can describe frequency spectrum of the easily confused phones more accurately. It uses Gaussian Mixture Modeling(GMM) to classify the new feature for phone discrimination. Experimental results show that the distinguishing error rates of those easily confused consonants are decreased greatly more than 30% compared with traditional PLP feature.

Key words: wavelet packet decomposition, Perceptual Linear Predictive(PLP), speech recognition

中图分类号:

TN912

李晨冲;董滨;潘复平;曾兴雯;颜永红. 汉语普通话易混淆音素的识别[J]. 计算机工程, 2009, 35(23): 201-203.

LI Chen-chong; DONG Bin; PAN Fu-ping; ZENG Xing-wen; YAN Yong-hong. Recognition of Easily Confused Mandarin Phone[J]. Computer Engineering, 2009, 35(23): 201-203.

http://www.ecice06.com/CN/Y2009/V35/I23/201

[1]	李宜亭, 屈丹, 杨绪魁, 张昊, 沈小龙. 基于分解门控注意力单元的高效Conformer模型[J]. 计算机工程, 2023, 49(5): 73-80.
[2]	柏财通, 崔翛龙, 李爱. 基于本地蒸馏联邦学习的鲁棒语音识别技术[J]. 计算机工程, 2022, 48(10): 103-109.
[3]	柏财通, 高志强, 李爱, 崔翛龙. 基于门控网络的军事装备控制指令语音识别研究[J]. 计算机工程, 2021, 47(7): 301-306.
[4]	马鹏, 王泽宇, 钟卫东, 王绪安. 基于改进小波包分解的相关功耗攻击降噪方法[J]. 计算机工程, 2020, 46(7): 129-135,142.
[5]	王俊超,黄浩,徐海华,胡英. 基于迁移学习的低资源度维吾尔语语音识别[J]. 计算机工程, 2018, 44(10): 281-285,291.
[6]	胡文君,傅美君,潘文林. 基于Kaldi的普米语语音识别[J]. 计算机工程, 2018, 44(1): 199-205.
[7]	张乐,张雪英,孙颖,张卫. 基于聚合经验模态分解的情感语音特征提取[J]. 计算机工程, 2017, 43(8): 306-309,315.
[8]	项秉伟,景新幸,杨海燕. 基于噪声分类与补偿的车载语音识别[J]. 计算机工程, 2017, 43(3): 220-224.
[9]	吴伟民,李泽熊,林志毅,吴汪洋. 改进飞蛾捕焰算法在网络流量预测中的应用[J]. 计算机工程, 2017, 43(10): 153-159,166.
[10]	崔建国,高波,蒋丽英,于明月,郑蔚. LSSVM与HMM在航空发动机状态预测中的应用研究[J]. 计算机工程, 2017, 43(10): 310-315.
[11]	商雄伟,张志祥,邱舒婷. 一种通用的限定领域智能语音导学系统设计方法[J]. 计算机工程, 2016, 42(6): 299-304.
[12]	任瑶,李国富,应小刚,王晓丹. 基于小波包熵与SVM的导轨摩擦磨损状态识别[J]. 计算机工程, 2016, 42(11): 281-284.
[13]	赵彩光,张树群,雷兆宜. 基于改进对比散度的GRBM 语音识别[J]. 计算机工程, 2015, 41(5): 213-218.
[14]	鲜晓东,吕建中,樊宇星. 基于密度与距离参数的CHMM声学模型初值估计[J]. 计算机工程, 2015, 41(10): 318-321.
[15]	张震，赵庆卫，颜永红. 基于语音识别与特征的无监督语音模式提取[J]. 计算机工程, 2014, 40(5): 262-265.

选择文件类型/文献管理软件名称

选择包含的内容

汉语普通话易混淆音素的识别

Recognition of Easily Confused Mandarin Phone

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

汉语普通话易混淆音素的识别

Recognition of Easily Confused Mandarin Phone

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价