作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2018, Vol. 44 ›› Issue (12): 79-84. doi: 10.19678/j.issn.1000-3428.0049259

• 先进计算与数据处理 • 上一篇    下一篇

基于位存储Tid的CPU并行化Eclat算法

孙宗鑫,张桂芸   

  1. 天津师范大学 计算机与信息工程学院,天津 300387
  • 收稿日期:2017-11-10 出版日期:2018-12-15 发布日期:2018-12-15
  • 作者简介:孙宗鑫(1991—),男,硕士研究生,主研方向为数据挖掘、大数据分析;张桂芸(通信作者),教授。
  • 基金资助:

    国家自然科学基金面上项目(61572358);天津市自然科学基金面上项目(16JCYBJC23600)

CPU Parallelization Eclat Algorithm Based on Bit Storage Tid

SUN Zongxin,ZHANG Guiyun   

  1. College of Computer and Information Engineering,Tianjin Normal University,Tianjin 300387,China
  • Received:2017-11-10 Online:2018-12-15 Published:2018-12-15

摘要:

Eclat算法采用垂直数据表示方式且无需复杂的数据结构,然而在挖掘频繁项目集过程中,交集计数的生成方式造成内存大量消耗和挖掘效率下降。为此,在分析Eclat算法及其现有改进算法基础上,提出一种位存储事务标识(Tid)的CPU并行化Eclat算法。该算法使用二进制位形式存储项目的Tid,将挖掘频繁项目集的任务分配到CPU各个线程,最大限度地提高CPU的运算性能。实验结果表明,该算法能在降低内存使用的同时,提高频繁项目集的挖掘效率。

关键词: 频繁项目集挖掘, Eclat算法, 位存储, CPU并行化, 存储优化

Abstract:

The Eclat algorithm uses vertical data representation and does not require complex data structures.However,the intersection count generation mode causes a large amount of memory consumption and low mining efficiency in the process of mining frequent itemsets.Therefore,based on the analysis of Eclat algorithm and its existing improved algorithm,a CPU parallelization Eclat algorithm for bit storing Transaction identifier(Tid) is proposed.The algorithm uses the binary bit form to store the Tid of the project,and distributes the tasks of mining frequent itemsets to each thread of the CPU,maximizing the computing performance of the CPU.Experimental results show that the algorithm can improve the mining efficiency of frequent itemsets while reducing memory usage.

Key words: Frequent Itemset Mining(FIM), Eclat algorithm, bit storage, CPU parallelization, storage optimization

中图分类号: