海量短语信息文本聚类技术研究

doi:10.3969/j.issn.1000-3428.2007.14.013

计算机工程 ›› 2007, Vol. 33 ›› Issue (14): 38-40. doi: 10.3969/j.issn.1000-3428.2007.14.013

海量短语信息文本聚类技术研究

王永恒，贾焰，杨树强

（国防科技大学计算机学院网络研究所，长沙 410073）

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-07-20 发布日期:2007-07-20

Study on Massive Short Documents Clustering Technology

WANG Yongheng, JIA Yan, YANG Shuqiang

(Institute of Network, Computer School, National University of Defense Technology, Changsha 410073)

Received:1900-01-01 Revised:1900-01-01 Online:2007-07-20 Published:2007-07-20

摘要/Abstract

摘要： 信息技术的发展造成了大量的文本数据累积，其中很大一部分是短文本数据。文本聚类技术对于从海量短文中自动获取知识具有重要意义。现有的一般文本挖掘方法很难处理TB级的海量数据。由于短文本中的关键词出现次数少，文本挖掘的精度很难保证。该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题。实验表明，该方法在处理海量短语信息时具有很好的性能和准确度。

关键词: 文本挖掘, 海量, 短语, 并行

Abstract: With the rapid development of information technology, huge data is accumulated. A vast amount of such data appears as short documents. It is very useful to cluster such short documents to get knowledge automatically. But most of the current clustering algorithms can’t handle massive data which is at TB level. It is also difficult to get acceptable clustering accuracy since key words appear less time in short documents. This paper proposes a frequent term based parallel clustering algorithm which can be used to cluster massive short documents. Semantic information is also used to improve the accuracy of clustering. The experimental study shows that the algorithm is accurate and efficient.

Key words: text mining, massive, short document, parallel

中图分类号:

TP18

王永恒;贾焰;杨树强. 海量短语信息文本聚类技术研究[J]. 计算机工程, 2007, 33(14): 38-40.

WANG Yongheng; JIA Yan; YANG Shuqiang. Study on Massive Short Documents Clustering Technology[J]. Computer Engineering, 2007, 33(14): 38-40.

http://www.ecice06.com/CN/Y2007/V33/I14/38

[1]	王其涵, 庞建民, 岳峰, 祝迪, 沈莉, 肖谦. 面向申威架构的KNN并行算法实现与优化[J]. 计算机工程, 2023, 49(5): 286-294.
[2]	夏立斌, 刘晓宇, 姜晓巍, 孙功星. 基于分布式数据集的并行计算框架内存优化方法[J]. 计算机工程, 2023, 49(4): 43-51.
[3]	韩彦岭, 沈思扬, 徐利军, 王静, 张云, 周汝雁. 面向深度学习图像分类的GPU并行方法研究[J]. 计算机工程, 2023, 49(1): 191-200.
[4]	周雍浩, 徐金龙, 李斌, 钱宏, 聂凯. 面向神威高性能多核处理器的并行编译优化方法[J]. 计算机工程, 2022, 48(9): 130-138.
[5]	范明亮, 郭子涵, 柴晓楠, 商建东. 面向FT-M7002的Sobel边缘检测算法优化实现[J]. 计算机工程, 2022, 48(6): 193-199.
[6]	李晋国, 焦旭斌. 雾计算环境下入侵检测模型研究[J]. 计算机工程, 2022, 48(5): 43-52.
[7]	张会云, 黄鹤鸣. 基于异构并行神经网络的语音情感识别[J]. 计算机工程, 2022, 48(4): 113-118.
[8]	赵欣灿, 朱云, 毛伊敏. 基于MapReduce的高维数据频繁项集挖掘[J]. 计算机工程, 2022, 48(3): 81-89.
[9]	刘金硕, 黄朔, 邓娟. 面向PMVS算法的自动两级并行翻译方法[J]. 计算机工程, 2022, 48(12): 16-23.
[10]	杨志军, 寇倩兰, 丁洪伟. 5G切片架构下具有重传机制的轮询系统研究[J]. 计算机工程, 2022, 48(10): 202-211.
[11]	黄瑞, 金光浩, 李磊, 姜文超, 宋庆增. 轻量化神经网络加速器的设计与实现[J]. 计算机工程, 2021, 47(9): 185-190,196.
[12]	易培淮, 李卫东, 林韬, 邹佳恒, 邓子艳, 刘言. GPU在缪子快速模拟中的应用[J]. 计算机工程, 2021, 47(8): 100-108.
[13]	肖汉, 郭宝云, 李彩林, 周清雷. 面向异构架构的传递闭包并行算法[J]. 计算机工程, 2021, 47(8): 131-139.
[14]	狄新凯, 杨海钢. 基于FPGA的稀疏化卷积神经网络加速器[J]. 计算机工程, 2021, 47(7): 189-195,204.
[15]	郭恒亮, 柴晓楠, 韩林, 赫晓慧, 商建东. Canny边缘检测算法在飞腾平台上的实现与优化[J]. 计算机工程, 2021, 47(7): 37-43.

选择文件类型/文献管理软件名称

选择包含的内容

海量短语信息文本聚类技术研究

Study on Massive Short Documents Clustering Technology

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

海量短语信息文本聚类技术研究

Study on Massive Short Documents Clustering Technology

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价