基于改进HMM的文本信息抽取模型

doi:10.3969/j.issn.1000-3428.2011.20.061

计算机工程 ›› 2011, Vol. 37 ›› Issue (20): 178-179. doi: 10.3969/j.issn.1000-3428.2011.20.061

基于改进HMM的文本信息抽取模型

梁吉光，田俊华，姜杰

(南京师范大学教育科学学院，南京 210000)

收稿日期:2011-04-13 出版日期:2011-10-20 发布日期:2011-10-20
作者简介:梁吉光(1987－)，男，硕士研究生，主研方向：文本信息抽取；田俊华，副教授；姜杰，讲师
基金资助:
江苏省高校自然科学基础研究基金资助项目(08KJD12 0004)；全国教育科学规划德育专项基金资助项目(GEA090005)

Text Information Extraction Model Based on Improved HMM

LIANG Ji-guang, TIAN Jun-hua, JIANG Jie

(Educational Science College, Nanjing Normal University, Nanjing 210000, China)

Received:2011-04-13 Online:2011-10-20 Published:2011-10-20

摘要/Abstract

摘要： 提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设，使用绝对平滑算法对模型参数进行平滑，利用Viterbi算法对观察值序列进行正序和逆序解码，基于N-Gram模型对2次解码结果进行对比消歧，得到较准确的状态序列。实验结果表明，该信息抽取模型能提高信息抽取的准确率。

关键词: 隐马尔可夫模型, 绝对平滑, 观察值, 信息抽取, 引文信息

Abstract: This paper proposes a text information extraction model based on improved Hidden Markov Model(HMM). It gives a new assumption of observation emission. And the absolute smoothing algorithm is used to smooth the parameters of the model. The model recovers the most-likely state sequence of the observation sequence and the reverse observation sequence with the Viterbi algorithm. It compares the results with each other based on N-Gram model, and outputs a more accurate result for the state sequence. Experimental results indicate that this model has effectively improved precision.

Key words: Hidden Markov Model(HMM), absolute smoothing, observation, information extraction, citation information

中图分类号:

TP311

梁吉光, 田俊华, 姜杰. 基于改进HMM的文本信息抽取模型[J]. 计算机工程, 2011, 37(20): 178-179.

LIANG Ji-Guang, TIAN Dun-Hua, JIANG Jie. Text Information Extraction Model Based on Improved HMM[J]. Computer Engineering, 2011, 37(20): 178-179.

http://www.ecice06.com/CN/Y2011/V37/I20/178

[1]	衡红军, 苗菁. 语义与句法信息加强的二元标记实体关系联合抽取[J]. 计算机工程, 2023, 49(4): 77-84.
[2]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[3]	张军莲, 张一帆, 汪鸣泉, 黄永健. 基于图卷积神经网络的中文实体关系联合抽取[J]. 计算机工程, 2021, 47(12): 103-111.
[4]	何阳宇, 晏雷, 易绵竹, 李宏欣. 融合CRF与规则的老挝语军事领域命名实体识别方法[J]. 计算机工程, 2020, 46(8): 297-304.
[5]	孙中军, 翟江涛. 一种面向加密流量的网络应用识别方法[J]. 计算机工程, 2020, 46(4): 151-156.
[6]	白玲玲, 宁振虎, 薛菲, 杨永丽. 隐马尔可夫模型在恶意域名检测中的应用[J]. 计算机工程, 2019, 45(9): 161-168.
[7]	李雁群,何云琪,钱龙华,周国栋. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82.
[8]	刘博,杜建强,聂斌,刘蕾,张鑫,郝竹林. 基于二阶HMM的中医诊断古文词性标注[J]. 计算机工程, 2017, 43(7): 211-216.
[9]	王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124.
[10]	高振斌,白雪,杨松,何家骥. 基于隐马尔可夫模型的硬件木马检测方法[J]. 计算机工程, 2016, 42(9): 126-131.
[11]	李明耀,杨静. 基于依存分析的开放式中文实体关系抽取方法[J]. 计算机工程, 2016, 42(6): 201-207.
[12]	王行甫,汪宇琪. 基于无约束空间中邻域信息的序列分类方法[J]. 计算机工程, 2016, 42(1): 311-315.
[13]	鲜晓东,吕建中,樊宇星. 基于密度与距离参数的CHMM声学模型初值估计[J]. 计算机工程, 2015, 41(10): 318-321.
[14]	黄振翔，彭波，吴娟，王儒朋. 基于DTW与混合判别特征检测器的手势识别[J]. 计算机工程, 2014, 40(5): 216-218,223.
[15]	冯涛, 黄开枝, 徐天顺. 基于隐马尔可夫模型的通信态势估计方法[J]. 计算机工程, 2013, 39(2): 6-11.

选择文件类型/文献管理软件名称

选择包含的内容

基于改进HMM的文本信息抽取模型

Text Information Extraction Model Based on Improved HMM

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于改进HMM的文本信息抽取模型

Text Information Extraction Model Based on Improved HMM

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价