基于前缀树的高效频繁项集挖掘算法

doi:10.3969/j.issn.1000-3428.2010.04.015

计算机工程 ›› 2010, Vol. 36 ›› Issue (4): 42-44. doi: 10.3969/j.issn.1000-3428.2010.04.015

基于前缀树的高效频繁项集挖掘算法

才科扎西，黄景廉

(西北民族大学计算机科学与信息工程学院，兰州 730030)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-02-20 发布日期:2010-02-20

Efficient Frequent Item Set Mining Algorithm Based on Prefix Tree

CAIKEZAXI, HUANG Jing-lian

(College of Computer Science and Information Engineering, Northwest University for Nationalities, Lanzhou 730030)

Received:1900-01-01 Revised:1900-01-01 Online:2010-02-20 Published:2010-02-20

摘要/Abstract

摘要： 针对频繁项集挖掘时间与空间效率低的问题，提出一种基于前缀树的高效频繁项集挖掘算法，通过对事务集进行预处理，创建索引表并分配索引编号，保证前缀树中事务顺序的一致性，根据索引编号等信息创建紧凑的前缀树，采用自底向上的挖掘与投影的方式挖掘出频繁项集。实验结果表明，该算法挖掘效率高、占用空间少。

关键词: 频繁项集, 数据挖掘, 前缀树

Abstract: Aiming at the problem of low time and space efficiencies for frequent item sets mining, an efficient frequent item sets mining algorithm based on prefix tree is proposed. To ensure the consistence of transactions sequence, the proposed algorithm pre-processes transaction sets to create index table and assign index identity. It creates compact prefix tree with the index information, and mines frequent item sets by bottom-to-up and projection methods. Experimental results show this algorithm has higher mining efficiency and expends less space.

Key words: frequent item set, data mining, prefix tree

中图分类号:

TP312

才科扎西;黄景廉. 基于前缀树的高效频繁项集挖掘算法[J]. 计算机工程, 2010, 36(4): 42-44.

CAIKEZAXI; HUANG Jing-lian. Efficient Frequent Item Set Mining Algorithm Based on Prefix Tree[J]. Computer Engineering, 2010, 36(4): 42-44.

http://www.ecice06.com/CN/Y2010/V36/I4/42

[1]	席荣康, 蔡满春, 芦天亮. 基于数据增强与流数据处理的Tor流量分析模型[J]. 计算机工程, 2023, 49(3): 177-184.
[2]	钱龙, 赵静, 韩京宇, 毛毅. 基于标签相关性的K近邻多标签学习[J]. 计算机工程, 2022, 48(6): 73-78,88.
[3]	谷青竹, 董红斌. PPDM中面向k-匿名的MI Loss评估模型[J]. 计算机工程, 2022, 48(4): 143-147.
[4]	赵欣灿, 朱云, 毛伊敏. 基于MapReduce的高维数据频繁项集挖掘[J]. 计算机工程, 2022, 48(3): 81-89.
[5]	王璐, 刘晓清, 何震瀛. 连续时间区间内的频繁词序列挖掘算法[J]. 计算机工程, 2022, 48(2): 79-85,91.
[6]	张攀, 高丰, 周逸, 饶涵宇, 毛冬, 李静. 一种在线实时微服务调用链异常检测方法[J]. 计算机工程, 2022, 48(11): 161-169.
[7]	吴军, 欧阳艾嘉, 张琳. 面向置换检验的冗余对比模式过滤算法[J]. 计算机工程, 2022, 48(1): 75-84.
[8]	吴军, 欧阳艾嘉, 张琳. 面向对比序列模式发现的独立精确置换检验算法[J]. 计算机工程, 2021, 47(8): 45-53,61.
[9]	杜诗晴, 王鹏, 汪卫. 一种基于MDL的日志序列模式挖掘算法[J]. 计算机工程, 2021, 47(2): 118-125.
[10]	魏文浩, 唐泽坤, 刘刚. 基于距离和密度的PBK-means算法[J]. 计算机工程, 2020, 46(9): 68-75.
[11]	王斌, 房新秀, 魏天佑. 基于差异节点集的加权频繁项集挖掘算法[J]. 计算机工程, 2020, 46(5): 150-156.
[12]	史明阳, 王鹏, 汪卫. 有监督时间序列分割与状态识别算法[J]. 计算机工程, 2020, 46(5): 131-138.
[13]	李洁, 朱洪亮, 陈玉玲, 辛阳. 基于哈希存储与事务加权的并行Apriori改进算法[J]. 计算机工程, 2020, 46(11): 109-116.
[14]	张潘, 卢光跃, 吕少卿, 赵雪莉. 基于矩阵分解的属性网络表示学习[J]. 计算机工程, 2020, 46(10): 67-73.
[15]	王慧健, 刘峥, 李云, 李涛. 基于神经网络语言模型的时间序列趋势预测方法[J]. 计算机工程, 2019, 45(7): 13-19,25.

选择文件类型/文献管理软件名称

选择包含的内容

基于前缀树的高效频繁项集挖掘算法

Efficient Frequent Item Set Mining Algorithm Based on Prefix Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于前缀树的高效频繁项集挖掘算法

Efficient Frequent Item Set Mining Algorithm Based on Prefix Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价