基于词级DPPM的连续语音关键词检测

doi:10.3969/j.issn.1000-3428.2014.05.051

计算机工程

基于词级DPPM的连续语音关键词检测

王勇，张连海

(解放军信息工程大学信息系统工程学院，郑州 450002)

收稿日期:2013-03-05 出版日期:2014-05-15 发布日期:2014-05-14
作者简介:王勇(1987－)，男，硕士研究生，主研方向：连续语音关键词检测；张连海，副教授。

Continuous Speech Keyword Detection Based on Word Level Discriminative Point Process Model

WANG Yong, ZHANG Lian-hai

(School of Information System Engineering, PLA Information Engineering University, Zhengzhou 450002, China)

Received:2013-03-05 Online:2014-05-15 Published:2014-05-14

摘要/Abstract

摘要： 提出一种基于词级区分性点过程模型的连续语音关键词检测方法。利用时间模式结构和多层感知器计算每个音素帧级后验概率，使用区分性点过程模型将一段时间内多个音素事件形成的点过程作为整体，把关键词检测看作二元分类问题，经分段和拼接构成超矢量，输入支持向量机分类器，判断该段语音是否为待检测关键词。该方法充分考虑语音信号上下文相关性，直接以词作为基本单元建模，提高了系统检测的准确性和鲁棒性。实验结果表明，对采样的语音，其关键词平均召回率和准确率分别可达71.5%和84.6%以上，并且结合相关语言模型知识，系统性能将会进一步提高。

关键词: 点过程模型, 音素后验概率, 时间模式, 关键词检测, 支持向量机, 区分性点过程模型

Abstract: This paper proposes a keyword detection method based on word level Discriminative Point Process Model(DPPM) in continuous speech. It computes frame-level phone posterior probability using temporal pattern and multilayer perception. DPPM sees point process produced by phone events of the duration as a whole. Then input Support Vector Machine(SVM) with super vector formed by segmenting and jointing the point process representation, so can distinguish whether the point process is produced by the keyword. Due to long range context dependencies, it is reasonable to expect that directly modeling entire words may permit a more accurate and robust decoding of the speech signal. Experimental results show that for speech, the average recall and precision rate of keywords are above 71.5% and 84.6%, and improves significantly with language model.

Key words: Point Process Model(PPM), phoneme posterior probability, time mode, keyword detection, Support Vector Machine(SVM), Discriminative Point Process Model(DPPM)

中图分类号:

TP391

王勇，张连海. 基于词级DPPM的连续语音关键词检测[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2014.05.051.

WANG Yong, ZHANG Lian-hai. Continuous Speech Keyword Detection Based on Word Level Discriminative Point Process Model[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2014.05.051.

http://www.ecice06.com/CN/Y2014/V40/I5/247

参考文献

参考文献 [1] Lee C H, Juang B H, Soong F K, et al. Word Recognition Using Whole Word and Subword Models[C]//Proc. of International Conference on Acoustics, Speech, and Signal Processing. [S. l.]: IEEE Press, 1989: 683-686. [2] Jansen A, Niyogi P. Point Process Models for Spotting Keywords in Continuous Speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(8): 1457- 1470. [3] Rose R C, Paul D B. A Hidden Markov Model Based Keyword Recognition System[C]//Proc. of International Conference on Acoustics, Speech, and Signal Processing. [S. l.]: IEEE Press, 1990: 129-132. [4] 王勇, 张连海. 基于点过程模型连续语音关键词检测[J]. 太赫兹科学与电子信息学报, 2013, (6): 958-963. [5] Vapnik V N. The Nature of Statistical Learning Theory[M]. New York, USA: Springer-Verlag, 2000. [6] 王炳锡, 屈丹, 彭煊. 实用语音识别基础[M]. 北京: 国防工业出版社, 2005. [7] Grezl F. Trap-based Probabilistic Features for Automatic Speech Recognition[D]. Brno, Czech: The Brno University of Technology at Czech, 2007. [8] Schwarz P. Phoneme Recognition Based on Long Temporal Context[D]. Brno, Czech: The Brno University of Technology at Czech, 2008. [9] 邓乃扬, 田英杰. 数据挖掘中的新方法：支持向量机[M]. 北京: 科学出版社, 2004. [10] 张翔, 肖小玲, 徐光祐. 基于样本之间紧密度的模糊支持向量机方法[J]. 软件学报, 2006, 17(5): 951-958. [11] Garofolo J S, Lamel L F, Fisher W M, et al. TIMIT Acoustic-phonetic Continuous Speech Corpus[D]. Philadelphia, USA: TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, 1993. [12] Lee K F. Speaker-independent Phone Recognition Using Hidden Markov Models[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1989, 37(11): 1641-1648. [13] Jurafsky D, Martin J M. 自然语言处理综论[M]. 孙志伟, 孙乐, 译. 北京: 电子工业出版社, 2005. 编辑顾逸斐

[1]	王志江, 秦品乐, 柴锐, 武峰, 程一彤, 史玥. 基于深度学习的牙齿嵌塞自动判别方法[J]. 计算机工程, 2022, 48(4): 307-313.
[2]	王海, 翁晨傲, 李克, 骆曦. 一种面向基站扇区方向角估计的改进SVM算法[J]. 计算机工程, 2021, 47(4): 120-126.
[3]	张冰玉, 潘晴, 田妮莉, Everett Xiaolin Wang. 一种基于多重特征融合的信源个数估计方法[J]. 计算机工程, 2021, 47(4): 115-119,126.
[4]	连晓伟, 马垚, 陈永乐, 张壮壮, 王建华. 基于载荷特征与统计特征的Shodan流量识别[J]. 计算机工程, 2021, 47(1): 117-122.
[5]	袁哲明, 杨晶晶, 陈渊. 基于最大信息系数与冗余分摊的特征选择方法[J]. 计算机工程, 2020, 46(8): 101-105.
[6]	付子爔, 徐洋, 吴招娣, 许丹丹, 谢晓尧. 基于增量学习的SVM-KNN网络入侵检测方法[J]. 计算机工程, 2020, 46(4): 115-122.
[7]	张瑞, 陈红卫. 基于特征优化与SVPSO的工控入侵检测[J]. 计算机工程, 2020, 46(4): 19-25.
[8]	鲁淑霞, 蔡莲香, 张罗幻. 基于动量加速零阶减小方差的鲁棒支持向量机[J]. 计算机工程, 2020, 46(12): 88-95,104.
[9]	张波, 周从华, 张付全, 张婷, 蒋跃明. 一种面向SNP选择的模糊聚类算法[J]. 计算机工程, 2019, 45(8): 66-74.
[10]	周梦妮, 牛焱, 曹锐, 阎鹏飞, 相洁. 基于相位同步的癫痫信号识别与分析[J]. 计算机工程, 2019, 45(7): 291-295,302.
[11]	易国洪,代瑜,冯智莉,黎慧源. 基于SVM与DOM重心半径模型的Web正文提取[J]. 计算机工程, 2019, 45(6): 206-210.
[12]	苗续芝,陈伟,毕方明,房卫东,张武雄. 基于改进FOA-SVM的矿井火灾图像识别[J]. 计算机工程, 2019, 45(4): 267-274.
[13]	张裕平, 龚晓峰, 雒瑞森. 基于稀疏化双向二维主成分分析的人脸识别[J]. 计算机工程, 2019, 45(12): 232-236.
[14]	胡畔, 乔林, 徐立波, 于元旗, 韩永辉. 基于特定目标提议框的自适应跟踪算法[J]. 计算机工程, 2019, 45(11): 269-274.
[15]	池亚平, 凌志婷, 王志强, 杨建喜. 基于支持向量机与Adaboost的入侵检测系统[J]. 计算机工程, 2019, 45(10): 183-188,202.

选择文件类型/文献管理软件名称

选择包含的内容

基于词级DPPM的连续语音关键词检测

Continuous Speech Keyword Detection Based on Word Level Discriminative Point Process Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于词级DPPM的连续语音关键词检测

Continuous Speech Keyword Detection Based on Word Level Discriminative Point Process Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价