作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2010, Vol. 36 ›› Issue (22): 203-205. doi: 10.3969/j.issn.1000-3428.2010.22.073

• 人工智能及识别技术 • 上一篇    下一篇

CTM与SVM相结合的文本分类方法

王燕霞,邓 伟   

  1. (苏州大学计算机科学与技术学院,江苏 苏州 215006)
  • 出版日期:2010-11-20 发布日期:2010-11-18
  • 作者简介:王燕霞(1982-),女,硕士研究生,主研方向:智能化信息处理;邓 伟,副教授、博士

Text Classification Method Combining CTM and SVM

WANG Yan-xia, DENG Wei   

  1. (School of Computer Science and Technology, Soochow University, Suzhou 215006, China)
  • Online:2010-11-20 Published:2010-11-18

摘要: 研究一种相关主题模型(CTM)与支持向量机(SVM)相结合的文本分类方法。该方法用CTM对数据集建模以降低数据的维度,用SVM对简化后的文本数据进行分类。为使CTM模型能够较好地对数据集进行建模,在该方法中用DBSCAN聚类方法对数据进行聚类,根据聚类所得到的聚类中心点数目确定CTM模型的主题参数。实验结果表明,该方法可以加快分类速度并提高分类精度。

关键词: 文本分类, 相关主题模型, 聚类, 支持向量机

Abstract: A text classification method combining Correlated Topic Model(CTM) and Support Vector Machine(SVM) is proposed. In order to reduce the corpus’s dimension, this method models the corpus, and classifies the simplified text date with SVM. With the aim of making the CTM model the corpus better, DBSCAN clustering method is used and chooses the cluster number as the model topic parameter of CTM. Experimental result shows that the method can accelerate the classification speed and improve the classification accuracy.

Key words: text classification, Correlated Topic Model(CTM), clustering, SVM

中图分类号: