Speaker Adaptive Training of Appling MAP Estimation           for Covariance

doi:10.3969/j.issn.1000-3428.2006.20.075

Computer Engineering ›› 2006, Vol. 32 ›› Issue (20): 203-204.

• Artificial Intelligence and Recognition Technology • Previous Articles Next Articles

Speaker Adaptive Training of Appling MAP Estimation for Covariance

HUANG Yingchun1, WANG Huanliang2, FENG Tao2

(1. Institute of Electronics, Chinese Academy of Sciences, Beijing 100080; 2. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001)

Received:1900-01-01 Revised:1900-01-01 Online:2006-10-20 Published:2006-10-20

应用MAP方差估计的话者自适应训练方法

黄盈椿1，王欢良2，冯涛2

(1. 中国科学院电子学研究所，北京 100080；2. 哈尔滨工业大学计算机科学与技术学院，哈尔滨 150001)

Abstract

Abstract: Recently there has been a growing interest in speaker adaptive training(SAT). However, errors can often arise when estimating covariance matrices in the original SAT framework due to the lack of observations in some Gauss components. This paper presents a novel approach which applies maximum a posteriori (MAP) covariance-estimating into original SAT. Experimental results in Switchboard corpus demonstrate that the proposed method can deliver significant reductions in word error rate (WER) and raise the robustness of SAT process.

Key words: Speech recognition, Speaker adaptation, Speaker adaptive training(SAT), Maximum a posteriori(MAP)

摘要： 近年来话者自适应训练(SAT)方法日益受到重视。然而在实际中此方法通常因为部分方差的估计失误而导致识别性能下降。该文提出了一种应用最大后验概率(MAP)估计方差的全新SAT方法，它能够根据后验概率动态地调整模型的方差，从而解决上述问题。在Switchboard数据库上的实验显示，新方法能够显著地提高识别性能，并且有效地提升系统的稳定性。

关键词: 语音识别, 话者自适应, 话者自适应训练, MAP

HUANG Yingchun; WANG Huanliang; FENG Tao. Speaker Adaptive Training of Appling MAP Estimation for Covariance[J]. Computer Engineering, 2006, 32(20): 203-204.

黄盈椿;王欢良;冯涛. 应用MAP方差估计的话者自适应训练方法[J]. 计算机工程, 2006, 32(20): 203-204.

/ Recommend / Download Citations

URL:

https://www.ecice06.com/EN/Y2006/V32/I20/203

[1]	LI Yiting, QU Dan, YANG Xukui, ZHANG Hao, SHEN Xiaolong. Efficient Conformer Model Based on Factorized Gated Attention Unit [J]. Computer Engineering, 2023, 49(5): 73-80.
[2]	Dechun ZHAO, Yang SHU, Ling LI, Huan CHEN, Zihao ZHANG. Speech Recognition Transformer Decoding Acceleration Method with Discarding Redundant Blocks [J]. Computer Engineering, 2023, 49(10): 105-111, 119.
[3]	BAI Caitong, CUI Xiaolong, LI Ai. Robust Speech Recognition Technology Based on Federal Learning with Local Distillation [J]. Computer Engineering, 2022, 48(10): 103-109.
[4]	FENG Junjie,ZHANG Gong. ISAR Imaging Algorithm for Parameter Iterative Minimization Sparse Signal Recovery [J]. Computer Engineering, 2018, 44(10): 228-234.
[5]	WANG Junchao,HUANG Hao,XU Haihua,HU Ying. Low-resource Uyghur Speech Recognition Based on Transfer Learning [J]. Computer Engineering, 2018, 44(10): 281-285,291.
[6]	HU Wenjun,FU Meijun,PAN Wenlin. Primi Speech Recognition Based on Kaldi [J]. Computer Engineering, 2018, 44(1): 199-205.
[7]	ZHANG Le,ZHANG Xueying,SUN Ying,ZHANG Wei. Feature Extraction of Emotional Speech Based on Ensemble Empirical Mode Decomposition [J]. Computer Engineering, 2017, 43(8): 306-309,315.
[8]	XIANG Bingwei,JING Xinxing,YANG Haiyan. Vehicular Speech Recognition Based on Noise Classification and Compensation [J]. Computer Engineering, 2017, 43(3): 220-224.
[9]	SHANG Xiongwei,ZHANG Zhixiang,QIU Shuting. A Design Method for General Intelligent Spoken Tutoring System in Limited Domain [J]. Computer Engineering, 2016, 42(6): 299-304.
[10]	ZHAO Caiguang,ZHANG Shuqun,LEI Zhaoyi. Speech Recognition of Gaussian-Bernoulli Restricted Boltzmann Machine Based on Improved Contrastive Divergence [J]. Computer Engineering, 2015, 41(5): 213-218.
[11]	XIAN Xiaodong,LV Jianzhong,FAN Yuxing. Initial Estimation of CHMM Acoustic Model Based on Density and Distance Parameter [J]. Computer Engineering, 2015, 41(10): 318-321.
[12]	ZHANG Zhen, ZHAO Qing-wei, YAN Yong-hong. Unsupervised Speech Pattern Extraction Based on Speech Recognition and Feature [J]. Computer Engineering, 2014, 40(5): 262-265.
[13]	YUAN Gao, LI Hai-Xiang, ZHENG Tie-Ran, HAN Ji-Qiang. Rapid Keyword Spotting Method Based on Feature Similarity of Adjacent Frames [J]. Computer Engineering, 2012, 38(7): 287-289.
[14]	LI Guan-Yu, MENG Meng. Research on Acoustic Model of Large-vocabulary Continuous Speech Recognition for Lhasa Tibetan [J]. Computer Engineering, 2012, 38(5): 189-191.
[15]	QIN Chun-Xiang, HUANG Gao. Application of Articulatory Feature in Uygur and Mandarin Speech Recognition [J]. Computer Engineering, 2012, 38(23): 177-180.

Please choose a citation manager

Content to export

Speaker Adaptive Training of Appling MAP Estimation for Covariance

应用MAP方差估计的话者自适应训练方法

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments

模态框（Modal）标题

Please choose a citation manager

Content to export

Speaker Adaptive Training of Appling MAP Estimation for Covariance

应用MAP方差估计的话者自适应训练方法

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments