一种高效的并行频繁集挖掘算法

doi:10.3969/j.issn.1000-3428.2008.11.020

计算机工程 ›› 2008, Vol. 34 ›› Issue (11): 55-57,6.

一种高效的并行频繁集挖掘算法

张诤1,2，王惠文1

(1. 北京航空航天大学系统工程系，北京 100083；2. 甘肃省委党校网络中心，兰州 730070)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-06-05 发布日期:2008-06-05

Efficient Parallel Frequent Itemsets Mining Algorithm

ZHANG Zheng1,2, WANG Hui-wen1

(1. Dept. of System Engineering, Beijing University of Aeronautics and Astronautics, Beijing 100083; 2. Network Center, Party School of Gansu Province, Lanzhou 730070)

Received:1900-01-01 Revised:1900-01-01 Online:2008-06-05 Published:2008-06-05

摘要/Abstract

摘要： 针对Apriori算法在挖掘超大规模数据集时存在的效率低下问题，在数据集分块和事务数据库布尔化映射基础上，提出一种直接利用布尔矩阵向量运算挖掘频繁集的并行频繁集挖掘算法(PFIM)。仿真实验分析表明，PFIM算法比Apriori算法的挖掘时间缩短了近90%，该方法可用于挖掘超大规模数据库，具有良好的并行性和可伸缩性。

关键词: 频繁集, 关联规则, 并行计算

Abstract: Aiming at inefficient problem of Apriori algorithm when mining very large database, this paper presents an efficient Parallel Frequent Itemset Mining algorithm(PFIM) based on database dividing and computing of Boolean matrix mapped from original database. Experimental results show that PFIM algorithm cuts down ninety percent mining time of Apriori, so it is suitable for mining very large size database and it has good characteristics of parallel and expandable.

Key words: frequent itemset, association rule, parallel computing

中图分类号:

TP311

张诤;王惠文. 一种高效的并行频繁集挖掘算法[J]. 计算机工程, 2008, 34(11): 55-57,6.

ZHANG Zheng; WANG Hui-wen. Efficient Parallel Frequent Itemsets Mining Algorithm[J]. Computer Engineering, 2008, 34(11): 55-57,6.

https://www.ecice06.com/CN/Y2008/V34/I11/55

[1]	杨太龙, 赵红朋, 张磊. 基于国产异构平台的奇异值分解法[J]. 计算机工程, 2024, 50(9): 216-225.
[2]	张磊, 赵光岳, 肖超恩, 王建新. Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现[J]. 计算机工程, 2024, 50(9): 208-215.
[3]	雷斗威, 何德彪, 罗敏, 彭聪. 基于AVX512的格密码高速并行实现[J]. 计算机工程, 2024, 50(2): 15-24.
[4]	王其涵, 庞建民, 岳峰, 祝迪, 沈莉, 肖谦. 面向申威架构的KNN并行算法实现与优化[J]. 计算机工程, 2023, 49(5): 286-294.
[5]	夏立斌, 刘晓宇, 姜晓巍, 孙功星. 基于分布式数据集的并行计算框架内存优化方法[J]. 计算机工程, 2023, 49(4): 43-51.
[6]	房俊, 薛晓东, 周云亮. 基于深度生成模型的聚合查询区间估计方法[J]. 计算机工程, 2023, 49(11): 284-292, 301.
[7]	黄瑞, 金光浩, 李磊, 姜文超, 宋庆增. 轻量化神经网络加速器的设计与实现[J]. 计算机工程, 2021, 47(9): 185-190,196.
[8]	易培淮, 李卫东, 林韬, 邹佳恒, 邓子艳, 刘言. GPU在缪子快速模拟中的应用[J]. 计算机工程, 2021, 47(8): 100-108.
[9]	佘鑫, 何震瀛. 复杂属性条件下基于Spark的clique社区搜索算法[J]. 计算机工程, 2021, 47(12): 54-61,70.
[10]	刘治国, 蔡文珠, 李运琪, 潘成胜. 基于序列统计的未知无线协议特征提取方法[J]. 计算机工程, 2021, 47(11): 192-197.
[11]	郭渝洛, 边浩东, 董润婷, 唐嘉豪, 王晓英, 黄建强. 基于SIMD的并行傅里叶空间图像相似度计算[J]. 计算机工程, 2021, 47(11): 247-253.
[12]	肖成龙, 聂紫阳, 王宁, 张重鹏, 王珊珊. 基于并行约束规划的最大团识别研究[J]. 计算机工程, 2020, 46(4): 53-59,69.
[13]	王玉奇, 高建华. 一种基于关联规则的Web应用统计测试方法[J]. 计算机工程, 2020, 46(3): 206-213.
[14]	徐国伟, 陈建, 成怡. 基于GPU并行计算的雷达杂波模拟研究[J]. 计算机工程, 2020, 46(11): 306-314.
[15]	李洁, 朱洪亮, 陈玉玲, 辛阳. 基于哈希存储与事务加权的并行Apriori改进算法[J]. 计算机工程, 2020, 46(11): 109-116.

选择文件类型/文献管理软件名称

选择包含的内容

一种高效的并行频繁集挖掘算法

Efficient Parallel Frequent Itemsets Mining Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种高效的并行频繁集挖掘算法

Efficient Parallel Frequent Itemsets Mining Algorithm

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价