基于隐马尔可夫模型的中文科研论文信息抽取

doi:10.3969/j.issn.1000-3428.2007.19.067

计算机工程 ›› 2007, Vol. 33 ›› Issue (19): 190-192. doi: 10.3969/j.issn.1000-3428.2007.19.067

基于隐马尔可夫模型的中文科研论文信息抽取

于江德1,2，樊孝忠1，尹继豪1，顾益军1

（1. 北京理工大学计算机科学技术学院，北京 100081；2. 安阳师范学院计算机科学系，安阳 455000）

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-10-05 发布日期:2007-10-05

Information Extraction from Chinese Research Papers Based on Hidden Markov Model

YU Jiang-de1,2, FAN Xiao-zhong1, YIN Ji-hao1, GU Yi-jun1

（1. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081; 2. Department of Computer Science, Anyang Normal College, Anyang 455000）

Received:1900-01-01 Revised:1900-01-01 Online:2007-10-05 Published:2007-10-05

摘要/Abstract

摘要： 随着大量的科研论文出现在互联网上，从中精确地抽取论文头部信息和引文信息显得十分重要。该文提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法，分析了模型结构的学习和参数估计方法。在进行信息抽取时，利用分隔符、特定标识符等格式信息对文本进行分块，利用隐马尔可夫模型进行指定域的抽取。实验结果表明，该算法具有良好的准确率和召回率。

关键词: 隐马尔可夫模型, 信息抽取, 论文头部信息

Abstract: As many research papers appear on the Internet, it is very important to accurately extract paper header information and citation from these papers. Thispaper proposes an algorithm based on hidden Markov model for extracting paper header information and citation from Chinese research papers, analyzes the key to the learning of the module structure and method of parameter estimation. In the processing, the algorithm makes full use of the format information of list separators and special-labels to segment text, and gains extraction information of special-fields, based on hidden Morkov model. Experimental results show that the algorithm has good performance in precision and recall.

Key words: hidden Markov model, information extraction, paper header information

中图分类号:

TP391

于江德;樊孝忠;尹继豪;顾益军. 基于隐马尔可夫模型的中文科研论文信息抽取[J]. 计算机工程, 2007, 33(19): 190-192.

YU Jiang-de; FAN Xiao-zhong; YIN Ji-hao; GU Yi-jun. Information Extraction from Chinese Research Papers Based on Hidden Markov Model[J]. Computer Engineering, 2007, 33(19): 190-192.

http://www.ecice06.com/CN/Y2007/V33/I19/190

[1]	衡红军, 苗菁. 语义与句法信息加强的二元标记实体关系联合抽取[J]. 计算机工程, 2023, 49(4): 77-84.
[2]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[3]	张军莲, 张一帆, 汪鸣泉, 黄永健. 基于图卷积神经网络的中文实体关系联合抽取[J]. 计算机工程, 2021, 47(12): 103-111.
[4]	何阳宇, 晏雷, 易绵竹, 李宏欣. 融合CRF与规则的老挝语军事领域命名实体识别方法[J]. 计算机工程, 2020, 46(8): 297-304.
[5]	孙中军, 翟江涛. 一种面向加密流量的网络应用识别方法[J]. 计算机工程, 2020, 46(4): 151-156.
[6]	白玲玲, 宁振虎, 薛菲, 杨永丽. 隐马尔可夫模型在恶意域名检测中的应用[J]. 计算机工程, 2019, 45(9): 161-168.
[7]	李雁群,何云琪,钱龙华,周国栋. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82.
[8]	刘博,杜建强,聂斌,刘蕾,张鑫,郝竹林. 基于二阶HMM的中医诊断古文词性标注[J]. 计算机工程, 2017, 43(7): 211-216.
[9]	王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124.
[10]	高振斌,白雪,杨松,何家骥. 基于隐马尔可夫模型的硬件木马检测方法[J]. 计算机工程, 2016, 42(9): 126-131.
[11]	李明耀,杨静. 基于依存分析的开放式中文实体关系抽取方法[J]. 计算机工程, 2016, 42(6): 201-207.
[12]	王行甫,汪宇琪. 基于无约束空间中邻域信息的序列分类方法[J]. 计算机工程, 2016, 42(1): 311-315.
[13]	鲜晓东,吕建中,樊宇星. 基于密度与距离参数的CHMM声学模型初值估计[J]. 计算机工程, 2015, 41(10): 318-321.
[14]	黄振翔，彭波，吴娟，王儒朋. 基于DTW与混合判别特征检测器的手势识别[J]. 计算机工程, 2014, 40(5): 216-218,223.
[15]	冯涛, 黄开枝, 徐天顺. 基于隐马尔可夫模型的通信态势估计方法[J]. 计算机工程, 2013, 39(2): 6-11.

选择文件类型/文献管理软件名称

选择包含的内容

基于隐马尔可夫模型的中文科研论文信息抽取

Information Extraction from Chinese Research Papers Based on Hidden Markov Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于隐马尔可夫模型的中文科研论文信息抽取

Information Extraction from Chinese Research Papers Based on Hidden Markov Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价