Hadoop平台下的并行Web日志挖掘算法

doi:10.3969/j.issn.1000-3428.2013.06.008

计算机工程 ›› 2013, Vol. 39 ›› Issue (6): 43-46.

Hadoop平台下的并行Web日志挖掘算法

周诗慧，殷建

(山东大学(威海)机电与信息工程学院，山东威海 264209)

收稿日期:2012-07-23 出版日期:2013-06-15 发布日期:2013-06-14
作者简介:周诗慧(1987－)，女，硕士研究生，主研方向：数据挖掘，机器学习；殷建，副教授

Parallel Web Log Mining Algorithm in Hadoop Platform

ZHOU Shi-hui, YIN Jian

(School of Mechanical, Electrical & Information Engineering, Shandong University at Weihai, Weihai 264209, China)

Received:2012-07-23 Online:2013-06-15 Published:2013-06-14

摘要/Abstract

摘要： 当面对海量数据时，基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题，提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法，利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明，该算法的加速比能随着数据集的增大而提高，其执行效率优于串行FP-growth算法。

关键词: Hadoop框架, Web挖掘, Web日志, MapReduce编程模式, Hadoop分布式文件系统, 并行FP-growth算法

Abstract: The current Web data mining based on single node is developed to a time and space bottleneck. In order to solve these problems, this paper presents a parallel FP-growth algorithm to do Web log mining using Hadoop Distributed File System(HDFS) and MapReduce parallel computing model. Experimental results for different size datasets prove that the proposed algorithm reveals good speedup and has better performance than traditional FP-growth algorithm.

Key words: Hadoop framework, Web mining, Web log, MapReduce programming pattern, Hadoop Distributed File System(HDFS), parallel FP-growth algorithm

中图分类号:

TP18

周诗慧, 殷建. Hadoop平台下的并行Web日志挖掘算法[J]. 计算机工程, 2013, 39(6): 43-46.

ZHOU Shi-Hui, YAN Jian. Parallel Web Log Mining Algorithm in Hadoop Platform[J]. Computer Engineering, 2013, 39(6): 43-46.

https://www.ecice06.com/CN/Y2013/V39/I6/43

[1]	魏秀然, 王峰. 基于协调器与遗传算法的云存储数据复制策略[J]. 计算机工程, 2021, 47(8): 124-130,139.
[2]	高原,任升,顾文杰. 异构环境中HDFS数据块调度算法的设计与实现[J]. 计算机工程, 2017, 43(8): 82-89.
[3]	朱嘉舟,邵培南,陈景. 影像数据分布并行计算处理平台体系架构研究[J]. 计算机工程, 2017, 43(5): 60-66,74.
[4]	齐向明,郑帅,魏萍. 基于Hadoop的微阵列数据两阶段并行K近邻基因提取[J]. 计算机工程, 2016, 42(5): 54-59.
[5]	邹振宇,郑烇,王嵩,杨坚. 基于HDFS的云存储系统小文件优化方案[J]. 计算机工程, 2016, 42(3): 34-40,46.
[6]	王会颖, 倪志伟, 吴昊. 求解多维背包问题的MapReduce蚁群优化算法[J]. 计算机工程, 2013, 39(4): 248-253.
[7]	熊忠阳，蔺显强，张玉芳，牙漫. 结合网页结构与文本特征的正文提取方法[J]. 计算机工程, 2013, 39(12): 200-203,210.
[8]	邓鹏, 李枚毅, 何诚. Namenode单点故障解决方案研究[J]. 计算机工程, 2012, 38(21): 40-44.
[9]	李杰辉, 张亮, 陈健, 南蓬. 基于Hadoop的化合物生物活性分析系统[J]. 计算机工程, 2012, 38(13): 48-50.
[10]	程苗, 陈华平. 基于Hadoop的Web日志挖掘[J]. 计算机工程, 2011, 37(11): 37-39.
[11]	武晋南;高建华. 基于用户行为和会话的Web应用测试方法[J]. 计算机工程, 2010, 36(8): 83-85.
[12]	赵涓涓;陈俊杰;李元俊. 基于Web页面结构和主色调的聚类算法[J]. 计算机工程, 2010, 36(3): 1-3.
[13]	许晓东, 李柯, 朱士瑞. Web日志中RCFA路径的挖掘方法[J]. 计算机工程, 2010, 36(22): 55-57.
[14]	任永功;付玉;张亮. 一种改进的用户浏览偏爱路径挖掘方法[J]. 计算机工程, 2009, 35(8): 47-49.
[15]	方元康;胡学钢;夏启寿. Web日志预处理中优化的会话识别方法[J]. 计算机工程, 2009, 35(7): 49-51.

选择文件类型/文献管理软件名称

选择包含的内容

Hadoop平台下的并行Web日志挖掘算法

Parallel Web Log Mining Algorithm in Hadoop Platform

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

Hadoop平台下的并行Web日志挖掘算法

Parallel Web Log Mining Algorithm in Hadoop Platform

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价