基于链表数组的最大频繁项集挖掘算法

doi:10.3969/j.issn.1000-3428.2010.06.029

计算机工程 ›› 2010, Vol. 36 ›› Issue (06): 89-90.

基于链表数组的最大频繁项集挖掘算法

刘应东1，冷明伟2，陈晓云3

(1. 兰州交通大学交通运输学院，兰州 730070；2. 上饶师范学院数学与计算机系，上饶 334000；3. 兰州大学信息科学与工程学院，兰州 730000)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-03-20 发布日期:2010-03-20

Maximal Frequent Itemsets Mining Algorithm Based on Linked List Array

LIU Ying-dong1, LENG Ming-wei2, CHEN Xiao-yun3

(1. School of Traffic and Transportation, Lanzhou Jiaotong University, Lanzhou 730070; 2. Department of Mathematics and Computer, Shangrao Normal University, Shangrao 334000; 3. School of Information Science and Engineering, Lanzhou University, Lanzhou 730000)

Received:1900-01-01 Revised:1900-01-01 Online:2010-03-20 Published:2010-03-20

摘要/Abstract

摘要： 挖掘密集型数据集的全部频繁项集代价高昂，针对该问题，提出一种数据结构链表数组和基于链表数组的最大频繁项集快速生成算法。该方法使用链表数组为每个项目建立事务链表，并且链表的创建过程只需扫描数据库1次。使用深度优先搜索得到所有候选最大频繁项集，利用约束条件缩小搜索空间。使用标准数据集进行验证测试并与其他算法进行比较，实验结果表明，该算法具有较快的挖掘速度。

关键词: 数据挖掘, 最大频繁项集, 链表数组, 解空间

Abstract: Mining all frequent itemsets in dense datasets is very expensive. Aiming at this problem, linked list array, a new data structure, and a fast method of Mining Frequent Itemsets(MFI) based on it are proposed. This method creates linked list array for each item, only needs scan database one time, uses depth-first search strategy to generate all MFI. The algorithm reduces search space by using constraint condition. It demonstrates the algorithm with standard dataset, and the experimental results confirm that the mining algorithm can significantly improve the speed of mining MFI compared with other algorithms.

Key words: data mining, Maximal Frequent Itemsets(MFI), linked list array, solution space

中图分类号:

TP301

刘应东;冷明伟;陈晓云. 基于链表数组的最大频繁项集挖掘算法[J]. 计算机工程, 2010, 36(06): 89-90.

LIU Ying-dong; LENG Ming-wei; CHEN Xiao-yun. Maximal Frequent Itemsets Mining Algorithm Based on Linked List Array[J]. Computer Engineering, 2010, 36(06): 89-90.

https://www.ecice06.com/CN/Y2010/V36/I06/89

[1]	邵良杉, 赵松泽. 基于多模型融合的不完整数据分数插补算法[J]. 计算机工程, 2023, 49(9): 79-88, 98.
[2]	席荣康, 蔡满春, 芦天亮. 基于数据增强与流数据处理的Tor流量分析模型[J]. 计算机工程, 2023, 49(3): 177-184.
[3]	谷青竹, 董红斌. PPDM中面向k-匿名的MI Loss评估模型[J]. 计算机工程, 2022, 48(4): 143-147.
[4]	王璐, 刘晓清, 何震瀛. 连续时间区间内的频繁词序列挖掘算法[J]. 计算机工程, 2022, 48(2): 79-85,91.
[5]	张攀, 高丰, 周逸, 饶涵宇, 毛冬, 李静. 一种在线实时微服务调用链异常检测方法[J]. 计算机工程, 2022, 48(11): 161-169.
[6]	吴军, 欧阳艾嘉, 张琳. 面向置换检验的冗余对比模式过滤算法[J]. 计算机工程, 2022, 48(1): 75-84.
[7]	吴军, 欧阳艾嘉, 张琳. 面向对比序列模式发现的独立精确置换检验算法[J]. 计算机工程, 2021, 47(8): 45-53,61.
[8]	杜诗晴, 王鹏, 汪卫. 一种基于MDL的日志序列模式挖掘算法[J]. 计算机工程, 2021, 47(2): 118-125.
[9]	魏文浩, 唐泽坤, 刘刚. 基于距离和密度的PBK-means算法[J]. 计算机工程, 2020, 46(9): 68-75.
[10]	史明阳, 王鹏, 汪卫. 有监督时间序列分割与状态识别算法[J]. 计算机工程, 2020, 46(5): 131-138.
[11]	张潘, 卢光跃, 吕少卿, 赵雪莉. 基于矩阵分解的属性网络表示学习[J]. 计算机工程, 2020, 46(10): 67-73.
[12]	王慧健, 刘峥, 李云, 李涛. 基于神经网络语言模型的时间序列趋势预测方法[J]. 计算机工程, 2019, 45(7): 13-19,25.
[13]	张玺君, 袁占亭, 张红, 高玮军, 张恩展. 交通轨迹大数据预处理方法研究[J]. 计算机工程, 2019, 45(6): 26-31.
[14]	李克,王海,徐小龙,杜煜. 基于众包感知的移动网络小区信息侦测方法[J]. 计算机工程, 2019, 45(2): 92-100.
[15]	崔晨,邓赵红,王士同. 基于Lasso稀疏学习的径向基函数神经网络模型[J]. 计算机工程, 2019, 45(2): 173-177.

选择文件类型/文献管理软件名称

选择包含的内容

基于链表数组的最大频繁项集挖掘算法

Maximal Frequent Itemsets Mining Algorithm Based on Linked List Array

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于链表数组的最大频繁项集挖掘算法

Maximal Frequent Itemsets Mining Algorithm Based on Linked List Array

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价