基于Viterbi改进算法的高棉语分词研究

doi:10.3969/j.issn.1000-3428.2011.15.055

计算机工程 ›› 2011, Vol. 37 ›› Issue (15): 174-176. doi: 10.3969/j.issn.1000-3428.2011.15.055

基于Viterbi改进算法的高棉语分词研究

蒋艳荣¹，刘习文²，陈耿涛³

(1. 广东工业大学计算机学院，广州 510006；2. 湘潭大学机械工程学院，湖南湘潭 411105； 3. 广东国笔科技股份有限公司，广州 510620)

收稿日期:2011-01-10 出版日期:2011-08-05 发布日期:2011-08-05
作者简介:蒋艳荣(1976－)，男，讲师、博士，主研方向：文本识别，机器智能；刘习文，副教授、博士；陈耿涛，工程师
基金资助:
广东省自然科学基金资助项目(8151009001000041)

Research of Khmer Word Segmentation Based on Improved Viterbi Algorithm

JIANG Yan-rong¹, LIU Xi-wen², CHEN Geng-tao³

(1. Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China; 2. School of Mechanical Engineering, Xiangtan University, Xiangtan 411105, China; 3. Guangdong Guobi Corporation Ltd., Guangzhou 510620, China)

Received:2011-01-10 Online:2011-08-05 Published:2011-08-05

摘要/Abstract

摘要： 采用最大匹配算法对高棉语进行分词准确率较低，且难以正确识别词库中没有的新词。针对该问题，采用改进的Viterbi算法，利用自动机实现音节切分，通过最优选择及剪枝操作提高分词效率，以统计语言模型对未知新词进行数据平滑，提高识别正确率。实验结果表明，改进的Viterbi算法具有较高的分词效率和准确率。

关键词: Viterbi算法, 最大匹配算法, 分词, 高棉语, 剪枝, 统计语言模型

Abstract: The accuracy of Khmer words segmentation for maximum matching algorithm is relatively low, and it is difficult for this algorithm to recognize words that are not enrolled in its dictionary. To solve this problem, an improved Viterbi algorithm is proposed. Wherein automation is used for syllable segmentation, optimization selection and pruning methods are used to promote the segmentation efficiency, and the statistical language model is adopted to perform data smooth for unknown words in this approach. Experimental results indicate that the improved Viterbi algorithm has higher accuracy and efficiency.

Key words: Viterbi algorithm, maximum matching algorithm, word segmentation, Khmer, pruning, statistical language model

中图分类号:

TP391

蒋艳荣, 刘习文, 陈耿涛. 基于Viterbi改进算法的高棉语分词研究[J]. 计算机工程, 2011, 37(15): 174-176.

JIANG Yan-Rong, LIU Xi-Wen, CHEN Geng-Chao. Research of Khmer Word Segmentation Based on Improved Viterbi Algorithm[J]. Computer Engineering, 2011, 37(15): 174-176.

http://www.ecice06.com/CN/Y2011/V37/I15/174

[1]	付嘉豪, 杨嘉怡, 李爱国. 面向安防系统的高效用语义轨迹模式挖掘[J]. 计算机工程, 2023, 49(6): 62-70.
[2]	马嘉翔, 宋晓宁. 基于彩票假设的软剪枝算法[J]. 计算机工程, 2023, 49(5): 97-104.
[3]	杜明, 郝燕, 周军锋, 谭玉婷. 一种高效的周期团挖掘方法[J]. 计算机工程, 2023, 49(4): 68-76.
[4]	安志国, 彭政, 易满成, 刘健欣, 俞思帆. 神经网络滤波器竞争训练[J]. 计算机工程, 2023, 49(4): 120-124.
[5]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[6]	王国栋, 叶剑, 谢萦, 钱跃良. 基于梯度的自适应阈值结构化剪枝算法[J]. 计算机工程, 2022, 48(9): 113-120.
[7]	黎浩民, 李光平. 基于稀疏神经网络的图像超分辨率重建算法[J]. 计算机工程, 2022, 48(7): 247-253.
[8]	刘蒙蒙, 牛保宁, 杨茸. 关键词最优路径查询的分段拓展算法[J]. 计算机工程, 2022, 48(6): 79-88.
[9]	房志远, 石守东, 郑佳罄, 胡加钿. 融合弱层惩罚的卷积神经网络模型剪枝方法[J]. 计算机工程, 2022, 48(5): 67-73.
[10]	赵欣灿, 朱云, 毛伊敏. 基于MapReduce的高维数据频繁项集挖掘[J]. 计算机工程, 2022, 48(3): 81-89.
[11]	宋旭晖, 于洪涛, 李邵梅. 基于图注意力网络字词融合的中文命名实体识别[J]. 计算机工程, 2022, 48(10): 298-305.
[12]	卢鹏, 万莹, 邹国良, 陈金宇, 郑宗生, 王振华. 基于自适应分层阈值判断的神经网络模型压缩[J]. 计算机工程, 2022, 48(1): 112-118,126.
[13]	张江永, 徐智勇, 张建林, 许涛. 基于敏感度的YOLO网络集成剪枝算法[J]. 计算机工程, 2021, 47(9): 59-68.
[14]	杨民杰, 梁亚玲, 杜明辉. 基于参数子空间和缩放因子的YOLO剪枝算法[J]. 计算机工程, 2021, 47(2): 111-117.
[15]	季繁繁, 杨鑫, 袁晓彤. 基于深度神经网络二阶信息的结构化剪枝算法[J]. 计算机工程, 2021, 47(2): 12-18.

选择文件类型/文献管理软件名称

选择包含的内容

基于Viterbi改进算法的高棉语分词研究

Research of Khmer Word Segmentation Based on Improved Viterbi Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于Viterbi改进算法的高棉语分词研究

Research of Khmer Word Segmentation Based on Improved Viterbi Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价