作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 人工智能及识别技术 • 上一篇    下一篇

结合主题分布与统计特征的关键词抽取方法

刘啸剑 1,谢飞 2   

  1. (1.合肥工业大学 计算机与信息学院,合肥 230009; 2.合肥师范学院 计算机学院,合肥 230061)
  • 收稿日期:2016-03-01 出版日期:2017-07-15 发布日期:2017-07-15
  • 作者简介:刘啸剑(1991—),男,硕士研究生,主研方向为文本挖掘;谢飞,副教授、博士。
  • 基金资助:
    国家自然科学基金(61229301)。

Keyword Extraction Method Combining Topic Distribution with Statistical Features

LIU Xiaojian 1,XIE Fei 2   

  1. (1.School of Computer and Information,Hefei University of Technology,Hefei 230009,China;2.School of Computer Science and Technology,Hefei Normal University,Hefei 230061,China)
  • Received:2016-03-01 Online:2017-07-15 Published:2017-07-15

摘要: 传统人工抽取关键词耗时耗力,为了能自动从文档中抽取出高质量的关键词,提出一种关键词自动抽取方法。该方法基于文档和词语的主题信息并结合词语的统计特征为候选词语打分,最终选择TopK得分的候选词作为文档关键词。实验结果表明,该方法在准确率、召回率以及F值上均优于现有的基本关键词抽取方法,能有效从文档中抽取出关键词。

关键词: 主题分布, 关键词抽取, 统计特征, 主题信息, 候选词语

Abstract: Traditional keyword extraction is time and labor consuming.In order to automatically extract high quality keywords from the given document,an automatic keyword extraction method is proposed.TopK scored words are selected as keywords of a document after ranking each candidate phrase combining the topic information with statistical features of documents and phrases.Experimental results show that this method outperforms the existing methods in accuracy,recall rate and F score.It can effectively extract keywords from documents.

Key words: topic distribution, keyword extraction, statistical features, topic information, candidate words

中图分类号: