自然语料缺乏的民族语言连续语音识别

doi:10.3969/j.issn.1000-3428.2012.12.038

计算机工程 ›› 2012, Vol. 38 ›› Issue (12): 129-131.

自然语料缺乏的民族语言连续语音识别

武晓敏 ^a，达瓦•伊德木草^a,b，吾守尔•斯拉木 ^a,b

(新疆大学 a. 信息科学与工程学院；b. 多语种信息技术重点实验室，乌鲁木齐 830046)

收稿日期:2011-08-26 出版日期:2012-06-20 发布日期:2012-06-20
作者简介:武晓敏(1986－)，女，硕士研究生，主研方向：语音信号处理；达瓦?伊德木草，教授、博士；吾守尔?斯拉木，教授、博士生导师
基金资助:
国家自然科学基金资助面上项目(2011211A012, 608630 08)；新疆维吾尔自治区科技支疆基金资助项目(201091106)；博士启动基金资助项目(BS090144)

Continuous Speech Recognition for Natural Resource-deficient Minority Languages

WU Xiao-min ^a, Dawa•Idomuco ^a,b, Wushour•Silamu^a,b

(a. College of Information Science and Engineering; b. Key Laboratory of Multilingual Information Technology, Xinjiang University, Urumqi 830046, China)

Received:2011-08-26 Online:2012-06-20 Published:2012-06-20

摘要/Abstract

摘要： 以维吾尔语为例研究自然语料缺乏的民族语言连续语音识别方法。采用HTK通过人工标注的少量语料生成种子模型，引导大语音数据构建声学模型，利用palmkit工具生成统计语言模型，以Julius工具实现连续语音识别。实验用64个维语母语者自由发话的6 400个短句语音建立单音素声学模型，由100 MB文本、6万词词典生成基于词类的3-gram语言模型，测试结果表明，该方法的识别率为 72.5%，比单用HTK提高4.2个百分点。

关键词: 连续语音识别, 种子模型, 声学模型, 语言模型, 维吾尔语

Abstract: This paper discusses a continuous speech recognition approach for the resource-deficient languages, such as Uyghur. This approach tries a seed acoustic model using small training speech materials and creates final acoustic model using a larger speech materials and its transcription text by leading seed model. HTK is used for training acoustic model, and palmkit is used for creating language model, and the open-source speech recognition software Julius is applied for continuous speech recognition. In the test, the speech data of 6 400 sentences uttered by 64 native Uyghur speakers is used for training acoustic model and 100 MB text materials and a dictionary of 60 000 words are used for creating 3-garm language model based class. Experimental results show the rate of 72.5% for the real time sound recognition compared with the recognition result of 68.3% by HTK tool only.

Key words: continuous speech recognition, seed model, acoustic model, language model, Uyghur

中图分类号:

TP391

武晓敏, 达瓦?伊德木草, 吾守尔?斯拉木. 自然语料缺乏的民族语言连续语音识别[J]. 计算机工程, 2012, 38(12): 129-131.

WU Xiao-Min, DA Wa-?Yi-De-Mu-Cao, WU Shou-Er-?Shi-La-Mu. Continuous Speech Recognition for Natural Resource-deficient Minority Languages[J]. Computer Engineering, 2012, 38(12): 129-131.

https://www.ecice06.com/CN/Y2012/V38/I12/129

[1]	罗焕坤, 葛一烽, 刘帅. 大语言模型在数学推理中的研究进展[J]. 计算机工程, 2024, 50(9): 1-17.
[2]	杨冬菊, 黄俊涛. 基于大语言模型的中文科技文献标注方法[J]. 计算机工程, 2024, 50(9): 113-120.
[3]	陈宇航, 杨勇, 先木斯亚·买买提明, 帕力旦·吐尔逊, 樊小超, 任鸽, 刁宇峰. 基于主题感知和语义增强的作文自动评分方法[J]. 计算机工程, 2024, 50(8): 363-371.
[4]	杨兴睿, 马斌, 李森垚, 钟忺. 基于大语言模型的教育文本幂等摘要方法[J]. 计算机工程, 2024, 50(7): 32-41.
[5]	翟洁, 李艳豪, 李彬彬, 郭卫斌. 基于大语言模型的个性化实验报告评语自动生成与应用[J]. 计算机工程, 2024, 50(7): 42-52.
[6]	曾碧卿, 陈鹏飞, 姚勇涛. 融合思维链和低秩自适应微调的方面情感三元组抽取[J]. 计算机工程, 2024, 50(7): 53-62.
[7]	刘娟, 段友祥, 陆誉翕, 张鲁. 引入知识增强和对比学习的知识图谱补全[J]. 计算机工程, 2024, 50(7): 112-122.
[8]	陈佳玉, 王元龙, 张虎. 基于文本知识增强的问题生成模型[J]. 计算机工程, 2024, 50(6): 86-93.
[9]	隗昊, 刁宏悦, 孔亮宸, 邓耀臣. 东北亚舆情文本细粒度命名实体识别方法研究[J]. 计算机工程, 2024, 50(5): 354-362.
[10]	李敬灿, 肖萃林, 覃晓婷, 谢夏. 基于大语言模型与语义增强的文本关系抽取算法[J]. 计算机工程, 2024, 50(4): 87-94.
[11]	张洪程, 李林育, 杨莉, 伞晨峻, 尹春林, 颜冰, 于虹, 张璇. 基于对比学习与语言模型增强嵌入的知识图谱补全[J]. 计算机工程, 2024, 50(4): 168-176.
[12]	侯钰涛, 阿布都克力木·阿布力孜, 史亚庆, 马依拉木·木斯得克, 哈里旦木·阿布都克里木. 面向"一带一路"的低资源语言机器翻译研究[J]. 计算机工程, 2024, 50(4): 332-341.
[13]	陈志强, 仇瑜, 朱宇, 王晓英. 基于先验知识引导提示学习的自监督分类法补全[J]. 计算机工程, 2024, 50(12): 151-162.
[14]	王靖尧, 曹敏. 基于文本的行人图像检索的多样化数据扩充方法[J]. 计算机工程, 2024, 50(12): 276-287.
[15]	杨兴耀, 李志林, 张祖莲, 于炯, 陈嘉颖, 王东晓. 基于层间融合滤波器与社交神经引文网络的推荐算法[J]. 计算机工程, 2024, 50(11): 98-106.

选择文件类型/文献管理软件名称

选择包含的内容

自然语料缺乏的民族语言连续语音识别

Continuous Speech Recognition for Natural Resource-deficient Minority Languages

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

自然语料缺乏的民族语言连续语音识别

Continuous Speech Recognition for Natural Resource-deficient Minority Languages

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价