计算机工程

• 人工智能及识别技术 • 上一篇    下一篇

基于维基百科的短文本相关度计算

荆琪 1,段利国 1,李爱萍 1,2,赵谦 1   

  1. (1.太原理工大学 计算机科学与技术学院,太原 030600; 2.武汉大学 软件工程国家重点实验室,武汉 430072)
  • 收稿日期:2017-01-12 出版日期:2018-02-15 发布日期:2018-02-15
  • 作者简介:荆琪(1993—),女,硕士研究生,主研方向为自然语言处理;段利国、李爱萍,副教授、博士;赵谦,硕士研究生。
  • 基金项目:
    山西省自然科学基金(2013011015-2);武汉大学软件工程国家重点实验室开放课题(SKLSE2012-09-30)。

Short Text Correlation Calculation Based on Wikipedia

JING Qi  1,DUAN Liguo  1,LI Aiping  1,2,ZHAO Qian  1   

  1. (1.College of Computer Science and Technology,Taiyuan University of Technology,Taiyuan 030600,China; 2.State Key Laboratory of Software Engineering,Wuhan University,Wuhan 430072,China)
  • Received:2017-01-12 Online:2018-02-15 Published:2018-02-15

摘要: 为提高短文本语义相关度的计算准确率,将维基百科作为外部语义知识库,利用维基百科的结构特征,如维基百科的分类体系结构、摘要中的链接结构、正文中的链接结构以及重定向消歧页等,提出类别相关度与链接相关度相结合的词语相关度计算方法。在此基础上,提出基于词形结构、词序结构以及主题词权重的句子相关度计算方法。实验结果表明,在词语相关度计算方面,该方法的Spearman参数比文本相关度计算方法提高2.8%,句子相关度准确率达到73.3%。

关键词: 维基百科, 相关性, 语义相似度, 语义相关度, 短文本

Abstract: In order to improve the accuracy of semantic correlation of short text,this paper uses Wikipedia as an external semantic knowledge base,and combines with structure features of Wikipedia,such as typing architecture of Wikipedia,link structure between abstracts and pages,and redirect disambiguation pages,and puts forward the calculation algorithm for the correlation between words.On this basis,it also puts forward the sentence correlation calculation method combined with word order structure and weight of subject words.Experimental results show that in terms of word correlation calculation,Spearman parameter of the method in this paper is 2.8% higher than that of the text correlation calculation methods,and the accuracy of sentence correlation is up to 73.3%.

Key words: Wikipedia, relevance, semantic similarity, semantic correlation, short text

中图分类号: