基于改进DBSCAN算法的文本聚类

doi:10.3969/j.issn.1000-3428.2011.12.017

计算机工程 ›› 2011, Vol. 37 ›› Issue (12): 50-52. doi: 10.3969/j.issn.1000-3428.2011.12.017

基于改进DBSCAN算法的文本聚类

蔡岳，袁津生

(北京林业大学信息学院，北京 100083)

收稿日期:2010-12-10 出版日期:2011-06-20 发布日期:2011-06-20
作者简介:蔡岳(1984－)，男，硕士，主研方向：搜索引擎，网络安全；袁津生，教授

Text Clustering Based on Improved DBSCAN Algorithm

CAI Yue, YUAN Jin-sheng

(School of Information, Beijing Forestry University, Beijing 100083, China)

Received:2010-12-10 Online:2011-06-20 Published:2011-06-20

摘要/Abstract

摘要： 目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此，论述DBSCAN算法的基本原理和实现过程，提出一种基于改进DBSCAN算法的文本聚类算法，利用最小二乘法降低文本向量的维度，并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明，该算法能自适应地进行文本聚类，且与DBSCAN相比，准确率较高。

关键词: DBSCAN算法, 文本聚类, 最小二乘法, 簇关系树

Abstract: Most clustering algorithms can not meet the demand of speed and self-adapting about text clustering. In this paper, after fundamental theory and implement are expounded, the idea of creating an algorithm based improved DBSCAN is proposed. The least square method is used for decreasing divisions and the cluster-tree is created to gain a strong self-adapting of the algorithm. According to the data from an experiment mentioned in this paper, the self-adapting algorithm is feasible and involves better performance than DBSCAN.

Key words: DBSCAN algorithm, text clustering, least square method, cluster-tree

中图分类号:

TP393

蔡岳, 袁津生. 基于改进DBSCAN算法的文本聚类[J]. 计算机工程, 2011, 37(12): 50-52.

CA Yue, YUAN Jin-Sheng. Text Clustering Based on Improved DBSCAN Algorithm[J]. Computer Engineering, 2011, 37(12): 50-52.

http://www.ecice06.com/CN/Y2011/V37/I12/50

[1]	乔彩彩, 吴成茂, 李昌兴, 王佳烨. 结合隶属度与像素交替引导滤波的鲁棒模糊聚类算法[J]. 计算机工程, 2022, 48(8): 224-233.
[2]	陈璐瑶, 刘奇龙, 许云霞, 陈震. 基于超图正则化非负Tucker分解的图像聚类算法[J]. 计算机工程, 2022, 48(4): 197-205.
[3]	许伟佳, 秦永彬, 黄瑞章, 陈艳平. 基于DMA与特征划分的多源文本主题模型[J]. 计算机工程, 2021, 47(7): 59-66.
[4]	田智慧, 马占宇, 魏海涛. 基于密度核心的出租车载客轨迹聚类算法[J]. 计算机工程, 2021, 47(2): 133-138.
[5]	方承志, 程宥铖, 火兴龙. 基于MLS的NB-IoT系统下行信道估计算法[J]. 计算机工程, 2020, 46(2): 183-186.
[6]	肖晓丽,吴瑶,周锡玲,廖卓凡. 基于差分进化的两阶段文本特征选择算法[J]. 计算机工程, 2019, 45(2): 303-309,314.
[7]	朱琛琛, 齐林, 帖云. 基于弧长密度的自动邻域半径鉴别FPFH提取算法[J]. 计算机工程, 2019, 45(10): 253-259.
[8]	贺彤,熊风光,韩燮,张元. 一种基于协方差矩阵的点云特征曲线提取算法[J]. 计算机工程, 2018, 44(3): 275-280,286.
[9]	王智博,林意,曹洋洋. 基于系数矩阵弧微分的时间序列相似度量[J]. 计算机工程, 2018, 44(2): 9-16.
[10]	侯森林,杜秀娟,李梅菊,黄科军. 水下无线传感器网络节点混合定位与优化算法[J]. 计算机工程, 2018, 44(12): 134-139.
[11]	简明,唐墨臻,张翠芳,闫飞. 基于改进直线特征提取算法的室内移动机器人地图构建[J]. 计算机工程, 2018, 44(1): 23-29.
[12]	伍杰华. 基于RReliefF特征选择算法的复杂网络链接分类[J]. 计算机工程, 2017, 43(8): 208-214.
[13]	贺黎,周传伟,张坤,石朝侠. 基于顺序采样评估的二进制特征匹配方法[J]. 计算机工程, 2017, 43(8): 316-321.
[14]	朱志鹏,杜建强,余日跃,聂斌. 融入受限玻尔兹曼机的偏最小二乘优化方法[J]. 计算机工程, 2017, 43(7): 193-197,202.
[15]	刘召,宋立滨,耿美晓,于涛,王增喜,郭凯. 基于激光雷达的舞蹈机器人室内行人跟踪方法[J]. 计算机工程, 2017, 43(6): 247-252,258.

选择文件类型/文献管理软件名称

选择包含的内容

基于改进DBSCAN算法的文本聚类

Text Clustering Based on Improved DBSCAN Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于改进DBSCAN算法的文本聚类

Text Clustering Based on Improved DBSCAN Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价