作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (11): 25-27. doi: 10.3969/j.issn.1000-3428.2011.11.009

• 博士论文 • 上一篇    下一篇

基于特征项权重自动分解的文本聚类

余永红1,柏文阳2   

  1. (1. 安徽财经大学信息工程学院,安徽 蚌埠 233041;2. 南京大学计算机软件新技术国家重点实验室,南京 210093)
  • 收稿日期:2010-12-29 出版日期:2011-06-05 发布日期:2011-06-05
  • 作者简介:余永红(1967-),男,副教授、博士,主研方向:数据库技术,信息安全;柏文阳,副教授
  • 基金资助:
    国家“863”计划基金资助项目(2007AA01Z448);安徽省高校省级自然科学研究基金资助重点项目(KJ2010A003)

Text Clustering Based on Automatic Partition of Feature Item Weight

YU Yong-hong1, BAI Wen-yang2   

  1. (1. School of Information Engineering, Anhui University of Finance & Economics, Bengbu 233041, China; 2. State key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093, China)
  • Received:2010-12-29 Online:2011-06-05 Published:2011-06-05

摘要: 提出一种自动文本聚类方法,应用遗传算法进行全局和快速的文本特征项选择以实现降维处理,引入概率匿名思想,根据文本中不同特征项权重的组合,基于动态规划设计一个优化的多项式时间聚类算法,将文本集划分成适当个数的分区,并对每个分区进行聚类,从而形成初始聚类,采用相同方法对所有初始聚类进行再聚类,形成最终的文本聚类。实验结果表明,该方法既能实现文本特征项的有效选择,又能较好地改善文本聚类效果和性能。

关键词: 文本聚类, 遗传算法, 特征项选择, 特征项权重分解

Abstract: This paper introduces a novel automatic text clustering method, in which the Genetic Algorithm(GA) is applied to the global optimal and high searching efficient feature selection to achieve dimensionality reduction, then appropriate number of partitions of document set are created according to the different combinations of feature weights, and each document partition is clustered into an initial clusters based on dynamic programming technique, and all initial clusters are clustered using the same method to final text clusters. Experimental results show the method can achieve dimensionality reduction efficiently, improve the text clustering precision, and decrease the clustering time.

Key words: text clustering, Genetic Algorithm(GA), feature item selection, feature item weight partition

中图分类号: