藏语拉萨话大词表连续语音识别声学模型研究

doi:10.3969/j.issn.1000-3428.2012.05.058

计算机工程 ›› 2012, Vol. 38 ›› Issue (5): 189-191.

藏语拉萨话大词表连续语音识别声学模型研究

李冠宇¹，孟猛²

(1. 西北民族大学中国民族信息技术研究院，兰州 730030； 2. 中国科学院自动化研究所数字内容技术与系统研究中心，北京 100190)

收稿日期:2011-11-08 出版日期:2012-03-05 发布日期:2012-03-05
作者简介:李冠宇(1973－)，男，讲师、硕士，主研方向：模式识别，中文信息处理；孟猛，助理研究员、博士
基金资助:
国家自然科学基金资助项目(60970071)；中央高校基本科研业务费专项基金资助项目(zyz2011100、ycx11009)

Research on Acoustic Model of Large-vocabulary Continuous Speech Recognition for Lhasa Tibetan

LI Guan-yu ¹, MENG Meng ²

(1. China Minorities Information Technology Institute, Northwest University for Nationalities, Lanzhou 730030, China; 2. Digital Content Technology and System Research Center, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China)

Received:2011-11-08 Online:2012-03-05 Published:2012-03-05

摘要/Abstract

摘要： 根据藏语的特点，提出藏语拉萨话大词表连续语音识别声学模型，利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元，在HTK平台上建立上下文相关的连续隐马尔可夫声学模型，以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明，在最优情况下，该模型词错误率只有7.8%。

关键词: 藏语, 拉萨话, 连续语音识别, 隐马尔可夫模型, HTK工具, 声学模型

Abstract: The characteristics of Tibetan are analyzed in this paper. The framework of auto speech recognition of Lhasa dialect is designed. Several feasible units for acoustic models are analyzed. Contextual continuous Hidden Markov Model(HMM) models based on phonemes and semi-syllables are established and trained on Hidden Markov Model Toolkit(HTK) platform respectively and large-vocabulary continuous speech recognition of Lhasa Tibetan is implemented. Experimental results show that Word Error Rate(WER) is 7.8% in the best case.

Key words: Tibetan, Lhasa, continuous speech recognition, Hidden Markov Model(HMM), Hidden Markov Model Toolkit(HTK), acoustic model

中图分类号:

TP391

李冠宇, 孟猛. 藏语拉萨话大词表连续语音识别声学模型研究[J]. 计算机工程, 2012, 38(5): 189-191.

LI Guan-Yu, MENG Meng. Research on Acoustic Model of Large-vocabulary Continuous Speech Recognition for Lhasa Tibetan[J]. Computer Engineering, 2012, 38(5): 189-191.

https://www.ecice06.com/CN/Y2012/V38/I5/189

[1]	孙中军, 翟江涛. 一种面向加密流量的网络应用识别方法[J]. 计算机工程, 2020, 46(4): 151-156.
[2]	白玲玲, 宁振虎, 薛菲, 杨永丽. 隐马尔可夫模型在恶意域名检测中的应用[J]. 计算机工程, 2019, 45(9): 161-168.
[3]	王俊超,黄浩,徐海华,胡英. 基于迁移学习的低资源度维吾尔语语音识别[J]. 计算机工程, 2018, 44(10): 281-285,291.
[4]	刘博,杜建强,聂斌,刘蕾,张鑫,郝竹林. 基于二阶HMM的中医诊断古文词性标注[J]. 计算机工程, 2017, 43(7): 211-216.
[5]	高振斌,白雪,杨松,何家骥. 基于隐马尔可夫模型的硬件木马检测方法[J]. 计算机工程, 2016, 42(9): 126-131.
[6]	王行甫,汪宇琪. 基于无约束空间中邻域信息的序列分类方法[J]. 计算机工程, 2016, 42(1): 311-315.
[7]	盛雅琦,张晗,吕晨,姬东鸿. 基于混合主题模型的文本蕴涵识别[J]. 计算机工程, 2015, 41(5): 180-184.
[8]	鲜晓东,吕建中,樊宇星. 基于密度与距离参数的CHMM声学模型初值估计[J]. 计算机工程, 2015, 41(10): 318-321.
[9]	黄振翔，彭波，吴娟，王儒朋. 基于DTW与混合判别特征检测器的手势识别[J]. 计算机工程, 2014, 40(5): 216-218,223.
[10]	华却才让, 赵海兴. 基于判别式的藏语依存句法分析[J]. 计算机工程, 2013, 39(4): 300-304.
[11]	冯涛, 黄开枝, 徐天顺. 基于隐马尔可夫模型的通信态势估计方法[J]. 计算机工程, 2013, 39(2): 6-11.
[12]	秦春香, 黄浩. 发音特征在维汉语音识别中的应用[J]. 计算机工程, 2012, 38(23): 177-180.
[13]	皮桂林, 赵晖. 维吾尔文手写体联机识别中延迟笔画处理方法[J]. 计算机工程, 2012, 38(18): 147-150.
[14]	冯涛, 郭云飞, 黄开枝, 吉江. 基于隐马尔可夫模型的行为轨迹还原算法[J]. 计算机工程, 2012, 38(18): 1-5.
[15]	胡琨, 陈益强, 刘军发. 基于隐状态排序的半异构无线定位方法[J]. 计算机工程, 2012, 38(17): 280-283.

选择文件类型/文献管理软件名称

选择包含的内容

藏语拉萨话大词表连续语音识别声学模型研究

Research on Acoustic Model of Large-vocabulary Continuous Speech Recognition for Lhasa Tibetan

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

藏语拉萨话大词表连续语音识别声学模型研究

Research on Acoustic Model of Large-vocabulary Continuous Speech Recognition for Lhasa Tibetan

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价