作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (13): 183-186. doi: 10.3969/j.issn.1000-3428.2011.13.059

• 人工智能及识别技术 • 上一篇    下一篇

基于成对约束的主动半监督文本聚类

钟 将1,刘龙海1,梁传伟2   

  1. (1. 重庆大学计算机学院,重庆 400044;2. 山东省莱州市国家税务局信息中心,山东 莱州 261400)
  • 收稿日期:2010-12-24 出版日期:2011-07-05 发布日期:2011-07-05
  • 作者简介:钟 将(1974-),男,副教授、博士,主研方向:文本分析,数据挖掘,知识管理;刘龙海、梁传伟,硕士研究生
  • 基金资助:
    国家科技支撑计划基金资助重大项目(2008BAH37B04);重庆市自然科学基金资助项目(CSTC2010BB2046, CSTC2009BB21 84);“211工程”三期建设基金资助项目(S-10218)

Active Semi-supervised Text Clustering Based on Pairwise Constraints

ZHONG Jiang  1, LIU Long-hai   1, LIANG Chuan-wei  2   

  1. (1. College of Computer Science, Chongqing University, Chongqing 400044, China; 2. National Taxation Bureau of Laizhou, Shandong Province, Laizhou 261400, China)
  • Received:2010-12-24 Online:2011-07-05 Published:2011-07-05

摘要: 在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法。利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类。实验结果表明,该方法能利用少量的监督信息提高文本聚类的分类准确率。

关键词: 文本聚类, 半监督聚类, 潜在语义索引, 成对约束

Abstract: An active method which can effectively select pairwise constraints is constructed. By using this method, an active semi-supervised text clustering method based on pairwise constraints is proposed. Latent Semantic Index(LSI) is used to reduce the dimension of text features. In the clustering process, it uses the proposed method to actively select pairwise constraints, and then uses these pairwise constraints to steer the clustering process towards an appropriate partition. Experimental results show that the proposed method can effectively improve the text clustering results by using a small amount of pairwise constraints.

Key words: text clustering, semi-supervised clustering, Latent Semantic Index(LSI), pairwise constraints

中图分类号: