作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (24): 161-163. doi: 10.3969/j.issn.1000-3428.2011.24.054

• 人工智能及识别技术 • 上一篇    下一篇

基于非负矩阵分解的双重约束文本聚类算法

马慧芳 1,赵卫中 2,史忠植 3   

  1. (1. 西北师范大学数学与信息科学学院,兰州 730070; 2. 湘潭大学信息工程学院,湖南 湘潭 411105;3. 中国科学院计算技术研究所智能信息处理重点实验室,北京 100190)
  • 收稿日期:2011-03-15 出版日期:2011-12-20 发布日期:2011-12-20
  • 作者简介:马慧芳(1981-),女,副教授、博士,主研方向:数据挖掘,文本聚类,机器学习;赵卫中,讲师、博士;史忠植,研究员、博士生导师
  • 基金资助:
    国家自然科学基金资助项目(61105052, 61163039);西北师范大学青年教师科研能力提升计划基金资助项目“面向Web的主题建模关键技术研究”(NWNU-LKQN-10-1);湘潭大学博士启动基金资助项目(10QDZ42)

Dual-constraints Text Clustering Algorithm Based on Non-negative Matrix Factorization

MA Hui-fang 1, ZHAO Wei-zhong 2, SHI Zhong-zhi 3   

  1. (1. College of Mathematics and Information Science, Northwest Normal University, Lanzhou 730070, China; 2. College of Information Engineering, Xiangtan University, Xiangtan 411105, China; 3. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China)
  • Received:2011-03-15 Online:2011-12-20 Published:2011-12-20

摘要: 提出一种基于非负矩阵分解(NMF)的双重约束文本聚类算法。在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词-文档矩阵进行分解,获得文本聚类结果。与多种传统半监督文本聚类算法的对比结果表明,该算法具有较高的聚类精度,能提供更准确和有效的聚类结果。

关键词: 半监督聚类, 非负矩阵分解, 成对约束, 类别约束

Abstract: Non-negative Matrix Factorization(NMF) with dual constraints method for document clustering is proposed. It is based on NMF model with adding of pair-wise constraints on documents and categorization constraints of the words. Iterative rules obtained from the original word-document matrix are decomposed to get document clustering results. Compared with a variety of popular semi-supervised clustering algorithm, the method for document clustering can effectively improve the accuracy of document clustering, and can provide more accurate and efficient clustering results.

Key words: semi-supervised clustering, Non-negative Matrix Factorization(NMF), pairwise constraint, category constraint

中图分类号: