计算机工程 ›› 2019, Vol. 45 ›› Issue (10): 221-226.doi: 10.19678/j.issn.1000-3428.0052033

• 人工智能及识别技术 • 上一篇    下一篇

基于主题分布优化的模糊文本分类研究

梁艳红, 坎启轩, 苏翌   

  1. 河北工业大学 人工智能与数据科学学院, 天津 300401
  • 收稿日期:2018-07-06 修回日期:2018-10-09 出版日期:2019-10-15 发布日期:2018-11-01
  • 作者简介:梁艳红(1973-),女,副教授、博士,主研方向为文本挖掘、信息检索;坎启轩、苏翌,硕士研究生。
  • 基金项目:
    国家自然科学基金(51605134);河北省博士后科研项目(2012-14);京津冀协同创新共同体建设专项(18246224D)。

Research on Fuzzy Text Classification Based on Topic Distribution Optimization

LIANG Yanhong, KAN Qixuan, SU Yi   

  1. School of Artificial Intellignce, Hebei University of Technology, Tianjin 300401, China
  • Received:2018-07-06 Revised:2018-10-09 Online:2019-10-15 Published:2018-11-01

摘要: 在对类别模糊的文本进行分类时,主题模型只考虑文档和主题级别信息,未考虑底层词语间的隐含信息,且多数主题信息复杂、中心不明确。为此,提出一种改进的文本分类方法。通过分位数选择中心明确的主题,将其映射到word2vec词向量空间内,对模糊文本进行分类操作,进而得到文本分类结果。实验结果表明,与C_LCD+KNN方法相比,该方法分类效果较好,鲁棒性较强。

关键词: 主题模型, 词向量, 模糊文本, 语义分析, 分位数

Abstract: When classifying texts with fuzzy categories,the topic model only considers the document and topic level information,and does not consider the implicit information of the underlying words.The information in most topics is complex and the center is not clear.Therefore,an improved text classification method is proposed.Topics with a clear center are selected by using quantile,and are mapped to the word2vec space to enable classification for fuzzy texts,so as to obtain the text classification result.Experimental results show that compared with the C_LCD+KNN method,the proposed method has better classification performance and robustness.

Key words: topic model, word vector, fuzzy text, semantic analysis, quantile

中图分类号: