基于隐马尔可夫模型的Web信息抽取

doi:10.3969/j.issn.1000-3428.2009.18.009

计算机工程 ›› 2009, Vol. 35 ›› Issue (18): 25-27. doi: 10.3969/j.issn.1000-3428.2009.18.009

基于隐马尔可夫模型的Web信息抽取

刘亚清，陈　荣

(大连海事大学信息科学技术学院，大连 116026)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-09-20 发布日期:2009-09-20

Web Information Extraction Based on Hidden Markov Model

LIU Ya-qing, CHEN Rong

(Institute of Information Science and Technology, Dalian Maritime University, Dalian 116026)

Received:1900-01-01 Revised:1900-01-01 Online:2009-09-20 Published:2009-09-20

摘要/Abstract

摘要： 针对Web信息抽取领域中存在的“项缺失”和“项无序”问题，提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树，映射待抽取的信息项为状态，映射待抽取的信息项在扩展DOM树中的路径为词汇，使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。

关键词: 信息抽取, 隐马尔可夫模型, 扩展DOM树

Abstract: To solve disorder among information items and lack of information item in the field of information extraction, this paper proposes a Web information extraction algorithm based on Hidden Markov Model(HMM). It parses a Web document into an extended DOM tree, and maps an information item to a state with mapping a path in extended DOM tree about an information item to a vocable. An HMM model is obtained by using induction algorithm. Experiments show that the algorithm has better extraction performance.

Key words: information extraction, Hidden Markov Model(HMM), extended DOM tree

中图分类号:

TP393

刘亚清;陈　荣. 基于隐马尔可夫模型的Web信息抽取[J]. 计算机工程, 2009, 35(18): 25-27.

LIU Ya-qing; CHEN Rong. Web Information Extraction Based on Hidden Markov Model[J]. Computer Engineering, 2009, 35(18): 25-27.

http://www.ecice06.com/CN/Y2009/V35/I18/25

[1]	衡红军, 苗菁. 语义与句法信息加强的二元标记实体关系联合抽取[J]. 计算机工程, 2023, 49(4): 77-84.
[2]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[3]	张军莲, 张一帆, 汪鸣泉, 黄永健. 基于图卷积神经网络的中文实体关系联合抽取[J]. 计算机工程, 2021, 47(12): 103-111.
[4]	何阳宇, 晏雷, 易绵竹, 李宏欣. 融合CRF与规则的老挝语军事领域命名实体识别方法[J]. 计算机工程, 2020, 46(8): 297-304.
[5]	孙中军, 翟江涛. 一种面向加密流量的网络应用识别方法[J]. 计算机工程, 2020, 46(4): 151-156.
[6]	白玲玲, 宁振虎, 薛菲, 杨永丽. 隐马尔可夫模型在恶意域名检测中的应用[J]. 计算机工程, 2019, 45(9): 161-168.
[7]	李雁群,何云琪,钱龙华,周国栋. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82.
[8]	刘博,杜建强,聂斌,刘蕾,张鑫,郝竹林. 基于二阶HMM的中医诊断古文词性标注[J]. 计算机工程, 2017, 43(7): 211-216.
[9]	王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124.
[10]	高振斌,白雪,杨松,何家骥. 基于隐马尔可夫模型的硬件木马检测方法[J]. 计算机工程, 2016, 42(9): 126-131.
[11]	李明耀,杨静. 基于依存分析的开放式中文实体关系抽取方法[J]. 计算机工程, 2016, 42(6): 201-207.
[12]	王行甫,汪宇琪. 基于无约束空间中邻域信息的序列分类方法[J]. 计算机工程, 2016, 42(1): 311-315.
[13]	鲜晓东,吕建中,樊宇星. 基于密度与距离参数的CHMM声学模型初值估计[J]. 计算机工程, 2015, 41(10): 318-321.
[14]	黄振翔，彭波，吴娟，王儒朋. 基于DTW与混合判别特征检测器的手势识别[J]. 计算机工程, 2014, 40(5): 216-218,223.
[15]	冯涛, 黄开枝, 徐天顺. 基于隐马尔可夫模型的通信态势估计方法[J]. 计算机工程, 2013, 39(2): 6-11.

选择文件类型/文献管理软件名称

选择包含的内容

基于隐马尔可夫模型的Web信息抽取

Web Information Extraction Based on Hidden Markov Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于隐马尔可夫模型的Web信息抽取

Web Information Extraction Based on Hidden Markov Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价