基于特征项权重自动分解的文本聚类

doi:10.3969/j.issn.1000-3428.2011.11.009

计算机工程 ›› 2011, Vol. 37 ›› Issue (11): 25-27. doi: 10.3969/j.issn.1000-3428.2011.11.009

基于特征项权重自动分解的文本聚类

余永红¹，柏文阳²

(1. 安徽财经大学信息工程学院，安徽蚌埠 233041；2. 南京大学计算机软件新技术国家重点实验室，南京 210093)

收稿日期:2010-12-29 出版日期:2011-06-05 发布日期:2011-06-05
作者简介:余永红(1967－)，男，副教授、博士，主研方向：数据库技术，信息安全；柏文阳，副教授
基金资助:
国家“863”计划基金资助项目(2007AA01Z448)；安徽省高校省级自然科学研究基金资助重点项目(KJ2010A003)

Text Clustering Based on Automatic Partition of Feature Item Weight

YU Yong-hong¹, BAI Wen-yang²

(1. School of Information Engineering, Anhui University of Finance & Economics, Bengbu 233041, China; 2. State key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093, China)

Received:2010-12-29 Online:2011-06-05 Published:2011-06-05

摘要/Abstract

摘要： 提出一种自动文本聚类方法，应用遗传算法进行全局和快速的文本特征项选择以实现降维处理，引入概率匿名思想，根据文本中不同特征项权重的组合，基于动态规划设计一个优化的多项式时间聚类算法，将文本集划分成适当个数的分区，并对每个分区进行聚类，从而形成初始聚类，采用相同方法对所有初始聚类进行再聚类，形成最终的文本聚类。实验结果表明，该方法既能实现文本特征项的有效选择，又能较好地改善文本聚类效果和性能。

关键词: 文本聚类, 遗传算法, 特征项选择, 特征项权重分解

Abstract: This paper introduces a novel automatic text clustering method, in which the Genetic Algorithm(GA) is applied to the global optimal and high searching efficient feature selection to achieve dimensionality reduction, then appropriate number of partitions of document set are created according to the different combinations of feature weights, and each document partition is clustered into an initial clusters based on dynamic programming technique, and all initial clusters are clustered using the same method to final text clusters. Experimental results show the method can achieve dimensionality reduction efficiently, improve the text clustering precision, and decrease the clustering time.

Key words: text clustering, Genetic Algorithm(GA), feature item selection, feature item weight partition

中图分类号:

N945

余永红, 柏文阳. 基于特征项权重自动分解的文本聚类[J]. 计算机工程, 2011, 37(11): 25-27.

TU Yong-Gong, BAI Wen-Yang. Text Clustering Based on Automatic Partition of Feature Item Weight[J]. Computer Engineering, 2011, 37(11): 25-27.

http://www.ecice06.com/CN/Y2011/V37/I11/25

[1]	白祉旭, 王衡军. 基于改进遗传算法的对抗样本生成方法[J]. 计算机工程, 2023, 49(5): 139-149.
[2]	桑永宣, 魏江坡, 王博, 宋莹. 具有边缘缓存机制的混合启发式任务卸载算法[J]. 计算机工程, 2023, 49(4): 149-158.
[3]	马华伟, 马凯, 郭君. 考虑多投递的带无人机车辆路径规划问题研究[J]. 计算机工程, 2022, 48(8): 299-305.
[4]	宋勇春, 王茜竹, 高正念. 基于HAGA的D2D-NOMA资源分配优化算法[J]. 计算机工程, 2022, 48(2): 275-280,290.
[5]	缪欣, 陈璇, 鲍红莹, 张静轩, 余炜. 移动传感器网络中路径扫描覆盖问题研究[J]. 计算机工程, 2022, 48(12): 150-155,164.
[6]	吴铁洲, 邹智, 姜奔, 张晓星. 基于TLBGA-GRU神经网络的短期负荷预测[J]. 计算机工程, 2022, 48(11): 69-76.
[7]	曾蓉晖, 林兵, 王明芬, 林凯, 卢宇. 超密集边缘计算网络中面向能耗优化的任务卸载方法[J]. 计算机工程, 2022, 48(11): 39-48.
[8]	杜秀丽, 周敏, 吕亚娜, 邱少明. 基于RBF神经网络优化的装备保障系统效能评估[J]. 计算机工程, 2021, 47(9): 282-287,296.
[9]	魏秀然, 王峰. 基于协调器与遗传算法的云存储数据复制策略[J]. 计算机工程, 2021, 47(8): 124-130,139.
[10]	刘丹, 耿娜. 基于两阶段随机仿真优化算法的体检顾客预约调度[J]. 计算机工程, 2021, 47(7): 281-288.
[11]	许伟佳, 秦永彬, 黄瑞章, 陈艳平. 基于DMA与特征划分的多源文本主题模型[J]. 计算机工程, 2021, 47(7): 59-66.
[12]	郑娟毅, 崔卓, 苏海龙, 殷帅帅, 刘遥遥. 基于改进GA-Elman的无线智能传播损耗预测方法[J]. 计算机工程, 2021, 47(7): 155-160,167.
[13]	曹志鹏, 刘勤让, 刘冬培, 张霞. 面向时间敏感网络的流量调度方法[J]. 计算机工程, 2021, 47(7): 168-175,182.
[14]	杨天, 杨军. 移动边缘计算中的卸载决策与资源分配策略[J]. 计算机工程, 2021, 47(2): 19-25.
[15]	倪水平, 戚海涛, 李慧芳. 基于多种群遗传与思维进化的混合算法[J]. 计算机工程, 2021, 47(12): 62-70.

选择文件类型/文献管理软件名称

选择包含的内容

基于特征项权重自动分解的文本聚类

Text Clustering Based on Automatic Partition of Feature Item Weight

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于特征项权重自动分解的文本聚类

Text Clustering Based on Automatic Partition of Feature Item Weight

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价