基于语义的中文文本关键词提取算法

doi:10.3969/j.issn.1000-3428.2012.01.001

计算机工程 ›› 2012, Vol. 38 ›› Issue (01): 1-4. doi: 10.3969/j.issn.1000-3428.2012.01.001

• 专栏 • 下一篇

基于语义的中文文本关键词提取算法

王立霞^1,2，淮晓永¹

(1. 中国科学院软件研究所基础软件国家工程研究中心，北京 100190；2. 中国科学院研究生院，北京 100049)

收稿日期:2011-07-05 出版日期:2012-01-05 发布日期:2012-01-05
作者简介:王立霞(1986－)，女，硕士研究生，主研方向：中文信息处理，数据挖掘；淮晓永，高级工程师
基金资助:
国家自然科学基金资助项目(90920010)；国家“863”计划基金资助项目(2008AA01Z145)

Semantic-based Keyword Extraction Algorithm for Chinese Text

WANG Li-xia ^1,2, HUAI Xiao-yong¹

(1. National Engineering Research Center of Fundamental Software, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China; 2. Graduate University of Chinese Academy of Sciences, Beijing 100049, China)

Received:2011-07-05 Online:2012-01-05 Published:2012-01-05

摘要/Abstract

摘要：

为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点，提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中，构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明，与基于统计特征的关键词提取算法相比，SKE算法提取的关键词能体现文档的主题，更符合人们的感知逻辑，且算法性能较优。

关键词: 关键词提取, 语义相似度, 词语语义相似度网络, 居间度, 中文文本

Abstract:

In order to overcome the limitation of literal matching and lacking semantic concept of the traditional keyword extraction algorithm, this paper presents a Semantic-based Keyword Extraction(SKE) algorithm for Chinese text. It uses semantic feature in the keyword extraction process and constructs word semantic similarity network and uses betweenness centrality density. Experimental results show that compared with the statistic based keyword extraction algorithm, the keywords SKE algorithm extracted are more reasonable and can represent more information of the document’s topic, and the SKE algorithm has a better performance.

Key words: keyword extraction, semantic similarity, word semantic similarity network, betweenness centrality, Chinese text

中图分类号:

TP391

王立霞, 淮晓永. 基于语义的中文文本关键词提取算法[J]. 计算机工程, 2012, 38(01): 1-4.

WANG Li-Xia, HUAI Xiao-Yong. Semantic-based Keyword Extraction Algorithm for Chinese Text[J]. Computer Engineering, 2012, 38(01): 1-4.

https://www.ecice06.com/CN/Y2012/V38/I01/1

[1]	林加艺, 夏鸿斌, 刘渊. 基于类比学习的数学应用题求解模型[J]. 计算机工程, 2024, 50(7): 63-70.
[2]	李雪, 王雅文, 张前进. 基于信息检索的源代码自动命名[J]. 计算机工程, 2024, 50(6): 304-310.
[3]	杨振宇, 王磊, 马博, 杨雅婷, 董瑞, 艾孜麦提·艾瓦尼尔, 王震. 一种针对维汉的跨语言远程监督方法[J]. 计算机工程, 2023, 49(2): 271-278.
[4]	李世宝, 李贺, 赵庆帅, 殷乐乐, 刘建航, 黄庭培. 融合外部语义知识的中文文本蕴含识别[J]. 计算机工程, 2021, 47(1): 44-49.
[5]	马慧芳, 李苗, 童海斌, 詹子俊. 基于通配符模式与随机游走的关键词提取方法[J]. 计算机工程, 2020, 46(7): 78-83.
[6]	侯方杰,王雷,王嵩,盛捷. 基于位置的自动化网络流协议逆向分析方法[J]. 计算机工程, 2019, 45(5): 84-87.
[7]	王淑媛,田生伟,禹龙,冯冠军,艾山·吾买尔,李圃,赵建国. 基于堆栈降噪自编码的维吾尔语事件共指关系识别[J]. 计算机工程, 2018, 44(6): 305-310.
[8]	荆琪,段利国,李爱萍,赵谦. 基于维基百科的短文本相关度计算[J]. 计算机工程, 2018, 44(2): 197-202.
[9]	李晓红,曹林,宿云,马慧芳. 融合统计信息与语义相似度的特征扩展算法[J]. 计算机工程, 2017, 43(6): 177-181.
[10]	贾静兰,董才林,喻莹,王静,张丽芬. 基于回溯树的语义Web服务自动组合优化方法[J]. 计算机工程, 2016, 42(4): 215-220.
[11]	马雷雷,李宏伟,连世伟,梁汝鹏,陈虎. 一种基于本体语义的灾害主题爬虫策略[J]. 计算机工程, 2016, 42(11): 50-56.
[12]	黄怡然,胡晓勤. 基于击键动力学的中文自由文本持续认证方法[J]. 计算机工程, 2016, 42(1): 138-144,149.
[13]	张志昌,姚东任,刘霞,陈松毅,鲁小勇. 融合句法结构变换与词汇语义特征的文本蕴涵识别[J]. 计算机工程, 2015, 41(9): 199-204.
[14]	易军凯,刘慕凡,万静. 基于主题与语义的作弊网页检测方法[J]. 计算机工程, 2015, 41(9): 311-316.
[15]	张翔,朱明,孙吟龙,方雪峰. 网络电视直播中的虚拟频道生成算法[J]. 计算机工程, 2015, 41(12): 236-240.

选择文件类型/文献管理软件名称

选择包含的内容

基于语义的中文文本关键词提取算法

Semantic-based Keyword Extraction Algorithm for Chinese Text

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于语义的中文文本关键词提取算法

Semantic-based Keyword Extraction Algorithm for Chinese Text

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价