作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2014, Vol. 40 ›› Issue (12): 177-181. doi: 10.3969/j.issn.1000-3428.2014.12.033

• 人工智能及识别技术 • 上一篇    下一篇

基于《知网》的词语语义相似度算法

王小林,王东,杨思春,邰伟鹏,郑啸   

  1. 安徽工业大学计算机科学与技术学院,安徽 马鞍山 243002
  • 收稿日期:2013-12-06 修回日期:2014-01-08 出版日期:2014-12-15 发布日期:2015-01-16
  • 作者简介:王小林(1964-),男,教授,主研方向:人工智能,中文信息处理;王 东,硕士研究生;杨思春,副教授、博士;邰伟鹏,讲师、博士研究生;郑 啸,教授、博士。
  • 基金资助:
    国家自然科学基金资助项目(61003311);安徽省高校省级自然科学基金资助项目(KJ2011A040)。

Word Semantic Similarity Algorithm Based on HowNet

WANG Xiaolin,WANG Dong,YANG Sichun,TAI Weipeng,ZHENG Xiao   

  1. School of Computer Science and Technology,Anhui University of Technology,Maanshan 243002,China
  • Received:2013-12-06 Revised:2014-01-08 Online:2014-12-15 Published:2015-01-16

摘要: 词语语义相似度计算在信息检索、文本聚类、语义消歧等方面有着广泛的应用。基于《知网》提出一种词语语义相似度算法。设计一种义原分类,将义原分为第一基本义原、其他基本义原和间接义原3类。与以往义项相似度计算方法不同,根据不同类义原对义项相似度影响的大小,分别使用不同的义原相似度计算方法进行义项相似度的计算。利用词语之间第一基本义原相似度最高的义项组合进行词语语义相似度计算,剔除相似度较低的组合对词语语义相似度结果的影响。实验结果表明,该算法能有效提高运算效率和精确度。

关键词: 义原, 义项, 词语语义相似度, 知识描述语言

Abstract: The word semantic similarity computation is widely used in information retrieval,text clustering,word sense disambiguation,etc.This paper proposes an improved method of word semantic similarity computation based on HowNet.A new sememe classification is proposed,and sememe is divided into first basic sememe,other basic sememe and indirect sememe.A new variable coefficient of homonym similarity computation is proposed according to the effect of different sememes.Unlike previous sense similarity calculation method,according to the influence of different sememes to sense similarity calculation,different sememes similarity calculation method of sense similarity is proposed in this paper.It uses the highest item combination of the first basic sememe to calculate the word semantic similarity and removes other combinations with lower similarity.Experimental results show that the improved method effectively improves computational efficiency and precision of word semantic similarity.

Key words: sememe, homonym, word semantic similarity, knowledge representation language

中图分类号: