基于上下文的二阶隐马尔可夫模型

doi:10.3969/j.issn.1000-3428.2010.10.080

计算机工程 ›› 2010, Vol. 36 ›› Issue (10): 231-232. doi: 10.3969/j.issn.1000-3428.2010.10.080

基于上下文的二阶隐马尔可夫模型

刘洁彬1，宋茂强1，赵方1，杨志宇2

(1. 北京邮电大学软件学院，北京 100876；2. 北京航天航空大学软件学院，北京 100083)

出版日期:2010-05-20 发布日期:2010-05-20

Second-order Hidden Markov Model Based on Context

LIU Jie-bin1, SONG Mao-qiang1, ZHAO Fang1, YANG Zhi-yu2

(1. College of Software Engineering, Beijing University of Posts and Telecommunications, Beijing 100876;2. College of Software, Beihang University, Beijing 100083)

Online:2010-05-20 Published:2010-05-20

摘要/Abstract

摘要： 为体现上下文信息对当前词汇词性的影响，在传统隐马尔可夫模型的基础上提出一种基于上下文的二阶隐马尔可夫模型，并应用于中文词性标注中。针对改进后的统计模型中由于训练数据过少而出现的数据稀疏问题，给出基于指数线性插值改进平滑算法，对参数进行有效平滑。实验表明，基于上下文的二阶隐马尔可夫模型比传统的隐马尔可夫模型具有更高的词性标注正确率和消歧率。

关键词: 词性标注, 二阶隐马尔可夫模型, 参数平滑, Viterbi算法

Abstract: To better represent the influence of the context to the part of speech of the current word, this paper proposes a second-order hidden Markov model based on the traditional hidden Markov model and applies it to part-of-speech tagging in Chinese. In the improved statistical model, sparse data problem occurs due to the shortage of training data. To solve this problem, an improved smoothing algorithm based on index linear interpolation is proposed, which provides effective smoothing. Experiments show that the second-order Hidden Markov Model(HMM) based on the context has higher correct rate and disambiguation rate of part-of-speech tagging than the traditional hidden Markov model.

Key words: part-of-speech tagging, second-order Hidden Markov Model(HMM), parameter smoothing, Viterbi algorithm

中图分类号:

TP391.1

刘洁彬, 宋茂强, 赵方, 杨志宇. 基于上下文的二阶隐马尔可夫模型[J]. 计算机工程, 2010, 36(10): 231-232.

LIU Ji-Ban, SONG Mao-Jiang, DIAO Fang, YANG Zhi-Yu. Second-order Hidden Markov Model Based on Context[J]. Computer Engineering, 2010, 36(10): 231-232.

http://www.ecice06.com/CN/Y2010/V36/I10/231

[1]	唐素勤, 孙亚茹, 李志欣, 张灿龙. 基于强化学习的壮语词性标注[J]. 计算机工程, 2020, 46(4): 309-315.
[2]	白玲玲, 宁振虎, 薛菲, 杨永丽. 隐马尔可夫模型在恶意域名检测中的应用[J]. 计算机工程, 2019, 45(9): 161-168.
[3]	黄娟娟,徐圆,朱群雄. 基于改进HMM模型的3D景区地图匹配算法[J]. 计算机工程, 2019, 45(6): 259-266.
[4]	刘博,杜建强,聂斌,刘蕾,张鑫,郝竹林. 基于二阶HMM的中医诊断古文词性标注[J]. 计算机工程, 2017, 43(7): 211-216.
[5]	翟东海,崔静静,聂洪玉,于磊,杜佳. 基于条件随机场的敏感话题检测模型研究[J]. 计算机工程, 2014, 40(8): 158-162,167.
[6]	朱国进,郑宁. 基于自然语言处理的算法知识名称发现[J]. 计算机工程, 2014, 40(12): 126-131.
[7]	乐娟, 赵玺. 基于HMM的京剧机构命名实体识别算法[J]. 计算机工程, 2013, 39(6): 266-271,286.
[8]	蒋艳荣, 刘习文, 陈耿涛. 基于Viterbi改进算法的高棉语分词研究[J]. 计算机工程, 2011, 37(15): 174-176.
[9]	刘遥峰;王志良;王传经. 中文分词和词性标注模型[J]. 计算机工程, 2010, 36(4): 17-19.
[10]	刘丹;方卫国;周泓. 基于贝叶斯网络的二元语法中文分词模型[J]. 计算机工程, 2010, 36(1): 12-14.
[11]	潘炜;沈超. 面向层次分类标签的词性标注系统[J]. 计算机工程, 2009, 35(21): 197-199.
[12]	赵喜玲;李其申;卢致天;李俊峰. 一种改进的步态识别方法[J]. 计算机工程, 2009, 35(2): 177-179.
[13]	张虎;郑家恒. 基于分类的汉语语料库词性标注一致性检查[J]. 计算机工程, 2008, 34(8): 90-92.
[14]	马瑞;杨静宇. 一种利用灰度信息和二值信息的手写字符分割[J]. 计算机工程, 2007, 33(15): 175-177.
[15]	史建红;郑浩然;蒋鸿. 一种基于纠错码的快速相关攻击算法[J]. 计算机工程, 2006, 32(18): 144-146,.

选择文件类型/文献管理软件名称

选择包含的内容

基于上下文的二阶隐马尔可夫模型

Second-order Hidden Markov Model Based on Context

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于上下文的二阶隐马尔可夫模型

Second-order Hidden Markov Model Based on Context

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价