基于MapReduce的JP算法设计与实现

doi:10.3969/j.issn.1000-3428.2012.24.004

计算机工程 ›› 2012, Vol. 38 ›› Issue (24): 14-16.

所属专题：云计算专题；

基于MapReduce的JP算法设计与实现

曹泽文，周姚

(国防科学技术大学信息系统与管理学院，长沙 410073)

收稿日期:2012-04-16 修回日期:2012-06-14 出版日期:2012-12-20 发布日期:2012-12-18
作者简介:曹泽文(1967－)，男，研究员、博士，主研方向：信息综合处理，辅助决策；周姚，硕士

Design and Implementation of JP Algorithm Based on MapReduce

CAO Ze-wen, ZHOU Yao

(College of Information System and Management, National University of Defense Technology, Changsha 410073, China)

Received:2012-04-16 Revised:2012-06-14 Online:2012-12-20 Published:2012-12-18

摘要/Abstract

摘要： 针对大规模文本聚类分析所面临的海量、高维、稀疏等难题，提出一种基于云计算的海量文本聚类解决方案。选择经典聚类算法Jarvis-Patrick(JP)作为案例，采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造，利用搜狗实验室提供的语料库在 Hadoop平台上进行实验验证。实验结果表明，JP算法并行化改造可行，且相对于单节点环境，该算法在处理大规模文本数据时具有更好的时间性能。

关键词: 文本挖掘, 聚类分析, 文本聚类, 海量数据, 云计算, 并行数据挖掘

Abstract: This paper analyzes the prevalent problems such as massiveness, high-dimension and sparse of feature vector of the ordinary algori- thms in clustering textual data, then proposes a massive text clustering based on cloud computing technology as a feasible solution. The classical Jarvis-Patrick(JP) algorithm is chosen as a case. It is implemented using MapReduce programming mode and is testified on the cloud computing platform-Hadoop with Sogou corpus provided by Sogou laboratory. Experimental results indicate that the JP algorithm can be paralleled in MapReduce framework and paralled algorithm can handle massive textual data and get a better time performance than single-node environment.

Key words: text mining, clustering analysis, text clustering, massive data, cloud computing, parallel data mining

中图分类号:

TP391

曹泽文, 周姚. 基于MapReduce的JP算法设计与实现[J]. 计算机工程, 2012, 38(24): 14-16.

CAO Ze-Wen, ZHOU Tao. Design and Implementation of JP Algorithm Based on MapReduce[J]. Computer Engineering, 2012, 38(24): 14-16.

https://www.ecice06.com/CN/Y2012/V38/I24/14

[1]	孙毅, 王会梅, 鲜明, 向航. Kubeflow异构算力调度策略研究[J]. 计算机工程, 2024, 50(2): 25-32.
[2]	李浩阳, 贺小伟, 王宾, 吴昊, 尤琪. 基于改进Informer的云计算资源负载预测[J]. 计算机工程, 2024, 50(2): 43-50.
[3]	潘伟, 黄瑞章, 任丽娜, 薛菁菁. 基于自适应结构学习的深度文本聚类[J]. 计算机工程, 2024, 50(11): 89-97.
[4]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[5]	刘志彬, 黄秋兰, 胡庆宝, 程耀东, 胡誉, 田浩来. Kubernetes异构资源细粒度调度策略的设计与实现[J]. 计算机工程, 2023, 49(2): 31-36,45.
[6]	王恩旭, 王晓红, 张坤, 张冬雯. 基于双重注意力机制的云计算负载预测模型[J]. 计算机工程, 2023, 49(11): 40-48, 69.
[7]	奚智雯, 蔡晶晶, 阳文敏, 柴志雷. 基于微服务架构FPGA云平台的并发请求调度机制[J]. 计算机工程, 2022, 48(7): 206-213.
[8]	贺小伟, 徐靖杰, 王宾, 吴昊, 张博文. 基于GRU-LSTM组合模型的云计算资源负载预测研究[J]. 计算机工程, 2022, 48(5): 11-17,34.
[9]	陈璐瑶, 刘奇龙, 许云霞, 陈震. 基于超图正则化非负Tucker分解的图像聚类算法[J]. 计算机工程, 2022, 48(4): 197-205.
[10]	施凌鹏, 朱征, 周俊松, 李鑫, 李静. 面向微服务架构的云系统负载均衡机制[J]. 计算机工程, 2021, 47(9): 44-50,58.
[11]	赵宇峰, 雷晟, 张国钢, 耿英三. 基于容器技术的电力设备仿真云平台设计与开发[J]. 计算机工程, 2021, 47(9): 171-177,184.
[12]	许伟佳, 秦永彬, 黄瑞章, 陈艳平. 基于DMA与特征划分的多源文本主题模型[J]. 计算机工程, 2021, 47(7): 59-66.
[13]	倪思源, 扈红超, 刘文彦, 梁浩. 基于轮换策略的异构云资源分配算法[J]. 计算机工程, 2021, 47(6): 44-51,67.
[14]	李凌书, 邬江兴. 面向云网融合SaaS安全的虚拟网络功能映射方法[J]. 计算机工程, 2021, 47(12): 30-39.
[15]	朱嵩, 王化群. 基于Paillier算法的智能电网数据聚合与激励方案[J]. 计算机工程, 2021, 47(11): 166-174.

选择文件类型/文献管理软件名称

选择包含的内容

基于MapReduce的JP算法设计与实现

Design and Implementation of JP Algorithm Based on MapReduce

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于MapReduce的JP算法设计与实现

Design and Implementation of JP Algorithm Based on MapReduce

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价