基于指代消解和篇章结构分析的自动摘录算法

doi:10.3969/j.issn.1000-3428.2012.16.044

计算机工程 ›› 2012, Vol. 38 ›› Issue (16): 170-173. doi: 10.3969/j.issn.1000-3428.2012.16.044

基于指代消解和篇章结构分析的自动摘录算法

郑诚，刘福君，李清

(安徽大学计算机科学与技术学院，合肥 230039)

收稿日期:2011-10-20 修回日期:2011-12-05 出版日期:2012-08-20 发布日期:2012-08-17
作者简介:郑诚(1966－)，男，副教授、博士，主研方向：语义信息检索，数据挖掘；刘福君、李清，硕士研究生
基金资助:
安徽省自然科学基金资助项目(11040606M133)

Automatic Extraction Algorithm Based on Anaphora Resolution and Text Structure Analysis

ZHENG Cheng, LIU Fu-jun, LI Qing

(School of Computer Science and Technology, Anhui University, Hefei 230039, China)

Received:2011-10-20 Revised:2011-12-05 Online:2012-08-20 Published:2012-08-17

摘要/Abstract

摘要： 传统自动文摘方法生成的文摘结果指代关系模糊，且对于某些段落结构有规律的文章，没有分析文章结构与主题思想之间的关系。为此，提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解，利用指代消解解决文摘语义不连贯问题，以提高句子权重计算的准确性，对文章做主题划分时进行篇章结构识别，按照段落标题信息划分段落结构。实验结果表明，该算法在受限金融领域文本自动摘录中，具有较高的准确率和召回率。

关键词: 自然语言处理, 自动摘录, 向量空间模型, 主题划分, 篇章结构, 指代消解

Abstract: There are some problems should be considered in automatic extraction of traditional methods: Conference relations in the result of automatic extraction are not clear, some relationships between obvious structures of paragraphs and the theme of the text are not paid enough attention. For which, this paper presents a method based on anaphora resolution and text structure analysis, which combines the traditional statistics with regulars on automatic abstract. This method applies limited knowledge to pronoun resolution, which is to solve the problem of semantic incoherence, also to improve the precision when computing sentences’ weight. Based on sequential paragraphic similarity, this method can recognize obvious topics to partition text. Experimental results show that this method improves precision and recall when it is applied for limited-financial field.

Key words: Natural Language Processing(NLP), automatic extraction, Vector Space Model(VSM), topic segmentation, text structure, anaphora resolution

中图分类号:

TP301.6

郑诚, 刘福君, 李清. 基于指代消解和篇章结构分析的自动摘录算法[J]. 计算机工程, 2012, 38(16): 170-173.

ZHENG Cheng, LIU Fu-Jun, LI Qing. Automatic Extraction Algorithm Based on Anaphora Resolution and Text Structure Analysis[J]. Computer Engineering, 2012, 38(16): 170-173.

https://www.ecice06.com/CN/Y2012/V38/I16/170

[1]	许旻辰, 屈丹, 司念文, 彭思思, 陈雅淇. 社交媒体虚假信息检测技术研究综述[J]. 计算机工程, 2026, 52(5): 60-80.
[2]	张成辉, 罗景, 涂新辉, 陈雨霖. 基于大语言模型的语料库查询自动生成方法[J]. 计算机工程, 2026, 52(2): 404-412.
[3]	郑诚, 李鹏飞. 基于双超图神经网络特征融合的文本分类[J]. 计算机工程, 2025, 51(6): 127-135.
[4]	郝志峰, 黎阳霖, 许柏炎, 蔡瑞初. 面向跨域自然语言生成SQL语句的超图神经网络[J]. 计算机工程, 2025, 51(5): 114-123.
[5]	庄紫薇, 朱俊国. 面向多源文本的越南语文本检错方法[J]. 计算机工程, 2025, 51(5): 93-102.
[6]	孙雯倩, 徐天辰, 余佩厚, 陈云芳, 张伟. 基于《个人信息保护法》的App隐私政策合规性检测[J]. 计算机工程, 2025, 51(12): 189-201.
[7]	程腾腾, 姚春龙, 于晓强, 李旭, 王庆丰. 基于多头注意力机制融合常识知识的共情对话生成[J]. 计算机工程, 2024, 50(6): 94-101.
[8]	曹渝昆, 程宇, 何祯奕, 徐康乐, 颜家洛, 李云峰. 文档上下文异构表示的句子级关系抽取方法[J]. 计算机工程, 2024, 50(5): 111-119.
[9]	朱贵德, 黄海. 文本视觉问答综述[J]. 计算机工程, 2024, 50(2): 1-14.
[10]	张文博, 黄浩, 吴迪, 唐敏杰. 基于MEGA网络和分层预测的标点恢复方法[J]. 计算机工程, 2024, 50(12): 396-406.
[11]	崔蒙蒙, 刘井平, 阮彤, 宋雨秋, 杜渂. 基于双重多视角表示的目标级隐性情感分类[J]. 计算机工程, 2024, 50(1): 79-90.
[12]	李鸿鹏, 马博, 杨雅婷, 王磊, 王震, 李晓. 基于槽位语义增强提示学习的篇章级事件抽取方法[J]. 计算机工程, 2023, 49(9): 23-31.
[13]	郭艳霞, 金勇, 唐宏, 彭金枝. 基于动态卷积与残差门控的多模态情感识别[J]. 计算机工程, 2023, 49(7): 94-101.
[14]	李静雯, 赵奎. 基于改进PCFG算法的口令猜测方法[J]. 计算机工程, 2023, 49(5): 38-47.
[15]	杨文忠, 丁甜甜, 康鹏, 卜文秀. 基于舆情新闻的中文关键词抽取综述[J]. 计算机工程, 2023, 49(3): 1-17.

选择文件类型/文献管理软件名称

选择包含的内容

基于指代消解和篇章结构分析的自动摘录算法

Automatic Extraction Algorithm Based on Anaphora Resolution and Text Structure Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于指代消解和篇章结构分析的自动摘录算法

Automatic Extraction Algorithm Based on Anaphora Resolution and Text Structure Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价