面向主题的信息抽取需求描述与分析

doi:10.3969/j.issn.1000-3428.2012.23.013

计算机工程 ›› 2012, Vol. 38 ›› Issue (23): 57-59. doi: 10.3969/j.issn.1000-3428.2012.23.013

面向主题的信息抽取需求描述与分析

于龙，蹇强

(解放军理工大学通信工程学院，南京 210007)

收稿日期:2012-03-27 出版日期:2012-12-05 发布日期:2012-12-03
作者简介:于龙(1976－)，男，博士研究生，主研方向：网络信息抽取，数据挖掘，物联网技术；蹇强，博士
基金资助:
国家“863”计划基金资助项目(2010AA012404)

Description and Analysis of Topic-oriented Information Extraction Requirement

YU Long, JIAN Qiang

(Institute of Communication Engineering, PLA University of Science and Technology, Nanjing 210007, China)

Received:2012-03-27 Online:2012-12-05 Published:2012-12-03

摘要/Abstract

摘要： 在构建面向主题的信息抽取系统时，抽取需求是明确抽取任务的前提。针对自然语言描述的抽取需求导致计算资源浪费与抽取效率降低的问题，提出面向主题的信息抽取需求的形式化定义，并研究抽取需求之间的关系。采用精简需求集拆分的方法构造等价精简需求集，消除多抽取需求之间存在的冗余。实验结果证明，等价精简需求集能够提高多需求抽取任务的运行效率。

关键词: Web信息抽取, 主题, 抽取需求, 冗余分析, 描述模型

Abstract: In the construction of topic oriented information extraction system, extraction requirements are core of all extraction tasks. For natural language description of extraction requirements leads to a computational resource waste and extraction efficiency issues, a formal definition is proposed on the requirements of topic-oriented information extraction. On this basis, it researches on extracting relations between requirements. The reduced requirements set splitting method structural equivalences reduced requirements set, eliminate the extraction redundancy between requirements. Experimental results prove the equivalence of reduced requirements set can improve operating efficiency of the extraction tasks.

Key words: Web information extraction, topic, extraction requirement, redundancy analysis, description model

中图分类号:

TP311

于龙, 蹇强. 面向主题的信息抽取需求描述与分析[J]. 计算机工程, 2012, 38(23): 57-59.

XU Long, JIAN Jiang. Description and Analysis of Topic-oriented Information Extraction Requirement[J]. Computer Engineering, 2012, 38(23): 57-59.

https://www.ecice06.com/CN/Y2012/V38/I23/57

[1]	汪溢镭, 孙歆, 韩嘉佳, 郭绍华, 胡钺琳, 邹福泰. 暗网高质量威胁情报获取技术与实现[J]. 计算机工程, 2026, 52(3): 211-221.
[2]	尹兆良, 黄于欣, 余正涛, 王冠文, 艾传鲜. 融合罪名分类的涉案新闻主题分析方法[J]. 计算机工程, 2025, 51(4): 208-216.
[3]	陈宇航, 杨勇, 先木斯亚·买买提明, 帕力旦·吐尔逊, 樊小超, 任鸽, 刁宇峰. 基于主题感知和语义增强的作文自动评分方法[J]. 计算机工程, 2024, 50(8): 363-371.
[4]	于明诚, 党亚固, 吴奇林, 吉旭, 毕可鑫. 基于多尺度上下文的英文作文自动评分研究[J]. 计算机工程, 2024, 50(3): 259-266.
[5]	刘金硕, 刘宁. 面向招标文件的半结构化文本自动生成[J]. 计算机工程, 2023, 49(3): 67-72.
[6]	刘子健, 王勇, 刘媛妮, 周由胜. 基于情节记忆的高效短文本流聚类算法[J]. 计算机工程, 2023, 49(10): 145-153.
[7]	高玮军, 刘健, 毛文静. 基于T-HDGN模型的对话摘要生成方法[J]. 计算机工程, 2023, 49(10): 80-88.
[8]	刘利, 张德生, 肖燕婷. 基于隶属度的模糊加权k近质心近邻算法[J]. 计算机工程, 2022, 48(7): 122-129.
[9]	李琴, 李少波, 胡杰. 基于主题情感联合分析的游客画像研究[J]. 计算机工程, 2022, 48(6): 278-287,294.
[10]	张鹏举, 贾永辉, 陈文亮. 基于多特征实体消歧的中文知识图谱问答[J]. 计算机工程, 2022, 48(2): 47-54.
[11]	雷恒林, 古兰拜尔·吐尔洪, 买日旦·吾守尔, 曾琪. 基于Hellinger距离与词向量的终身机器学习主题模型[J]. 计算机工程, 2022, 48(11): 89-95.
[12]	高永兵, 黎预璇, 高军甜, 马占飞. 基于用户意图的微博文本生成技术研究[J]. 计算机工程, 2022, 48(1): 119-126.
[13]	许伟佳, 秦永彬, 黄瑞章, 陈艳平. 基于DMA与特征划分的多源文本主题模型[J]. 计算机工程, 2021, 47(7): 59-66.
[14]	李雅红, 周海英, 徐少伟. 基于对象关系网状转换器的图像描述模型[J]. 计算机工程, 2021, 47(5): 197-204.
[15]	袁自勇, 高曙, 曹姣, 陈良臣. 基于异构图卷积网络的小样本短文本分类方法[J]. 计算机工程, 2021, 47(12): 87-94.

选择文件类型/文献管理软件名称

选择包含的内容

面向主题的信息抽取需求描述与分析

Description and Analysis of Topic-oriented Information Extraction Requirement

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

面向主题的信息抽取需求描述与分析

Description and Analysis of Topic-oriented Information Extraction Requirement

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价