海量中文短信文本密度聚类研究

doi:10.3969/j.issn.1000-3428.2010.22.028

计算机工程 ›› 2010, Vol. 36 ›› Issue (22): 81-82.

海量中文短信文本密度聚类研究

周泓，刘金岭

(淮阴工学院计算机工程学院，江苏淮安 233003)

出版日期:2010-11-20 发布日期:2010-11-18
作者简介:周泓(1980－)，女，硕士研究生，主研方向：数据仓库，文本数据挖掘；刘金岭，教授

Study on Mass Chinese Short Message Text Density Clustering

ZHOU Hong, LIU Jin-ling

(Faculty of Computer Engineering, Huaiyin Institute of Technology, Huaian 223003, China)

Online:2010-11-20 Published:2010-11-18

摘要/Abstract

摘要：

根据短信文本的特性，给出一种基于密度的中文短信聚类的方法，该方法将文本数据中具有高密度的区域划分为簇，构造一个可达相似度的升序排列的种子队列存储待扩张的短信文本，选择大阈值相似度可达的对象，即快速定位稠密空间的文本对象使较高密度的簇优先完成。实验结果表明，该聚类方法比K-means提高10倍左右的效率。

关键词: 密度, 簇, 邻域, 短信文本, 聚类

Abstract:

According to the characteristics of short message text, a clustering method of the Chinese message based on density is given. High-density region of the text data is divided into clusters and a seed queue is constructed, which is arranged in ascending order of the reachable similarity, to store the text of short message text to be expanded. The text message is disposed in a specific order. In order to make higher-density clusters to complete first, the object is selected according to a greater threshold similarity, namely that the dense space text object which can be rapidly located makes the high-density cluster complete first. Experimental result shows that this clustering method’s efficiency is increased 10 times of K-means method.

Key words: density, cluster, neighborhood, short message text, clustering

中图分类号:

TP311

周泓, 刘金岭. 海量中文短信文本密度聚类研究[J]. 计算机工程, 2010, 36(22): 81-82.

ZHOU Hong, LIU Jin-Ling. Study on Mass Chinese Short Message Text Density Clustering[J]. Computer Engineering, 2010, 36(22): 81-82.

https://www.ecice06.com/CN/Y2010/V36/I22/81

[1]	郭继鹏, 徐世龙, 龙家豪, 王友清, 孙艳丰, 尹宝才. 基于双跨视角相关性检测的多视角子空间聚类[J]. 计算机工程, 2025, 51(4): 27-36.
[2]	李启文, 王治和, 杜辉, 鲁德鹏. 基于高斯分布的自适应密度峰值聚类算法[J]. 计算机工程, 2025, 51(4): 137-148.
[3]	李晓辉, 资湖海, 徐坷鑫, 牛樱清, 赵毅, 董媛. 带有充电约束的多AGV柔性作业车间调度[J]. 计算机工程, 2025, 51(4): 314-326.
[4]	聂雷, 胡字升, 鲍海洲. 基于RSU辅助和自适应分簇的异构车载网络选择方法[J]. 计算机工程, 2025, 51(3): 162-171.
[5]	韩鹏, 黄韫栀, 任彩月, 程竞仪, 徐军. 基于双分支网络的乳腺PET新辅助化疗疗效评估[J]. 计算机工程, 2025, 51(3): 293-299.
[6]	栾方军, 龚琪, 袁帅. 基于注意力机制和多尺度融合的人群计数网络[J]. 计算机工程, 2025, 51(3): 352-361.
[7]	李红娇, 王宝金, 王朝晖, 胡仁豪. 基于模型相似度与本地损失的双重客户端选择算法[J]. 计算机工程, 2024, 50(8): 153-164.
[8]	丁伟杰, 顾斌杰, 潘丰. 增量式稀疏密度加权孪生支持向量回归机[J]. 计算机工程, 2024, 50(7): 123-132.
[9]	徐明亮, 李芳媛, 马浩然, 何飞. 大规模神经记录的峰电位聚类算法(特邀)[J]. 计算机工程, 2024, 50(6): 1-34.
[10]	时志鹏, 冯肖维, 赵一平. 改进邻域漂移的多假设检验点云降噪[J]. 计算机工程, 2024, 50(6): 276-286.
[11]	郑锦灿, 邵立珍, 雷雪梅. 基于改进MOEA/D的模糊柔性作业车间调度算法[J]. 计算机工程, 2024, 50(6): 336-345.
[12]	胡傲然, 陈晓红. 基于多样性与一致性的单步多视图聚类[J]. 计算机工程, 2024, 50(5): 51-61.
[13]	马越, 温蜜. 基于多尺度LDTW和TCN的空间负荷预测方法[J]. 计算机工程, 2024, 50(3): 106-113.
[14]	宋华伟, 李升起, 万方杰, 卫玉萍. 非独立同分布场景下的联邦学习优化方法[J]. 计算机工程, 2024, 50(3): 166-172.
[15]	谢新林, 尹东旭, 张涛源, 谢刚. 基于注意力机制的多尺度融合人群计数算法[J]. 计算机工程, 2024, 50(3): 290-297.

选择文件类型/文献管理软件名称

选择包含的内容

海量中文短信文本密度聚类研究

Study on Mass Chinese Short Message Text Density Clustering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

海量中文短信文本密度聚类研究

Study on Mass Chinese Short Message Text Density Clustering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价