Research on Uyghur Speech Recognition Based on Subword Unit

doi:10.3969/j.issn.1000-3428.2011.20.072

Computer Engineering ›› 2011, Vol. 37 ›› Issue (20): 208-210.

• Networks and Communications • Previous Articles Next Articles

Research on Uyghur Speech Recognition Based on Subword Unit

XUE Hua-jian ^1,2, DONG Xing-hua ^1,2, ZHOU Xi ¹, Turghun Osman ¹, LI Xiao ¹

(1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China; 2. Graduate University of Chinese Academy of Sciences, Beijing 100190, China)

Received:2011-03-30 Online:2011-10-20 Published:2011-10-20

基于子字单元的维吾尔语语音识别研究

薛化建 ^1,2，董兴华 ^1,2，周喜 ¹，吐尔洪•吾司曼 ¹，李晓 ¹

(1. 中国科学院新疆理化技术研究所，乌鲁木齐 830011；2. 中国科学院研究生院，北京 100190)

作者简介:薛化建(1979－)，男，博士研究生，主研方向：自然语言处理，语音识别；董兴华，博士研究生；周喜，副研究员、博士研究生；吐尔洪?吾司曼，硕士；李晓，研究员、博士生导师
基金资助:
中国科学院西部行动计划高新技术基金资助项目(KGC X2-YW-507)

Abstract

Abstract: To improve on accuracy of Uyghur speech recognition, based on analysis of Uyghur characteristics, the framework of Uyghur speech recognition based on subword is developed for the first time. Pronunciation model of Uyghur word is given. How to build subword pronouncing dictionary, subword language model and acoustic model is described. Experiments are completed on a speech corpus and an unsupervised Uyghur word segmentation method is utilized to produce subwords. Experimental results show that Uyghur speech recognition based on subword can gain better recognition results.

Key words: Uyghur, word segmentation, subword unit, Hidden Markov Model(HMM), continuous speech recognition

摘要： 为提高维吾尔语语音识别的识别率，在分析维吾尔语特点的基础上，设计一种基于子字单元的维吾尔语语音识别总体结构，指出维吾尔语单词的发音模型，给出构建子字发音字典的方法，及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验，采用一种非监督的词切分方法对维吾尔语单词进行词切分，生成子字。实验结果表明，基于子字单元的维吾尔语语音识别可以获得更好的识别结果。

关键词: 维吾尔语, 词切分, 子字单元, 隐马尔科夫模型, 连续语音识别

CLC Number:

TN912.34

XUE Hua-Jian, DONG Xin-Hua, ZHOU Chi, TU Er-Hong-?Wu-Ci-Man, LI Xiao. Research on Uyghur Speech Recognition Based on Subword Unit[J]. Computer Engineering, 2011, 37(20): 208-210.

薛化建, 董兴华, 周喜, 吐尔洪?吾司曼, 李晓. 基于子字单元的维吾尔语语音识别研究[J]. 计算机工程, 2011, 37(20): 208-210.

/ Recommend / Download Citations

URL:

https://www.ecice06.com/EN/Y2011/V37/I20/208

[1]	Jintao WANG, Ang QIN, Yuan ZHANG, Yifei CHEN, Tingfeng WANG, Chenglin XIE, Gang ZOU. Chinese Medical Entity Recognition Based on Attention Enhancement and Feature Fusion [J]. Computer Engineering, 2024, 50(7): 324-332.
[2]	Halidanmu ABUDUKELIMU, Yutao HOU, Dengfeng YAO, Abudukelimu ABULIZI, Jishang CHEN. Survey of Uyghur Machine Translation Research [J]. Computer Engineering, 2024, 50(1): 1-16.
[3]	ZHANG Boxu, PU Zhi, CHENG Xi. Research on Uyghur Text Classification Based on Prompt Learning [J]. Computer Engineering, 2023, 49(6): 292-299,313.
[4]	SONG Xuhui, YU Hongtao, LI Shaomei. Chinese Named Entity Recognition Based on Word Fusion of Graph Attention Network [J]. Computer Engineering, 2022, 48(10): 298-305.
[5]	CHEN Xi, YANG Yating, DONG Rui. Research on BERT Embedding for Chinese-Uyghur Machine Translation [J]. Computer Engineering, 2021, 47(12): 112-117.
[6]	LI Yuxia, SUN Yongqi, YAN Ru, ZHU Weiguo. Path Search Method Based on CNN Image Recognition and Semantic Reliability [J]. Computer Engineering, 2021, 47(1): 255-263,274.
[7]	SUN Zhongjun, ZHAI Jiangtao. A Network Application Identification Method for Encrypted Traffic [J]. Computer Engineering, 2020, 46(4): 151-156.
[8]	MUNIRE·Muhetare, LI Xiao, YANG Yating. Research on Influence of Uyghur Complex Morphology on Chinese-Uyghur Machine Translation [J]. Computer Engineering, 2020, 46(2): 309-314.
[9]	BAI Lingling, NING Zhenhu, XUE Fei, YANG Yongli. Application of Hidden Markov Model in Malicious Domain Name Detection [J]. Computer Engineering, 2019, 45(9): 161-168.
[10]	HUANG Juanjuan,XU Yuan,ZHU Qunxiong. 3D map matching algorithm for scenic spot based on improved hidden Markov model [J]. Computer Engineering, 2019, 45(6): 259-266.
[11]	WANG Yajuan,LI Xiao,YANG Yating,MI Chenggang. Research of Uyghur-Chinese Machine Translation System Combination Based on Paraphrase Information [J]. Computer Engineering, 2019, 45(4): 288-295,301.
[12]	SAIMAITI Maimaitimin, ESMAEL Abdurehim. Research on Uyghur Stop Words Extraction Method [J]. Computer Engineering, 2019, 45(10): 288-292,300.
[13]	Maimaitiayifu,SILAMU Wushouer,MUHETAER Palidan,YANG Wenzhong. Uyghur Named Entity Recognition Based on BiLSTM-CNN-CRF Model [J]. Computer Engineering, 2018, 44(8): 230-236.
[14]	WU Jianwei,LI Yanling,ZANG Hanlin. Cognitive Network Throughput Optimization Method Based on Improved Frame Structure [J]. Computer Engineering, 2018, 44(6): 45-49.
[15]	WANG Shuyuana,TIAN Shengwei,YU Long,FENG Guanjun,AISHAN Wumaier,LI Pu,ZHAO Jianguo. Identification of Uyghur Event Coreference Relationship Based on Stacked Denoising Autoencoder [J]. Computer Engineering, 2018, 44(6): 305-310.

Please choose a citation manager

Content to export

Research on Uyghur Speech Recognition Based on Subword Unit

基于子字单元的维吾尔语语音识别研究

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments

模态框（Modal）标题

Please choose a citation manager

Content to export

Research on Uyghur Speech Recognition Based on Subword Unit

基于子字单元的维吾尔语语音识别研究

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments