大规模语料中频繁模式增量发现算法

doi:10.3969/j.issn.1000-3428.2011.23.009

计算机工程 ›› 2011, Vol. 37 ›› Issue (23): 27-29,32.

大规模语料中频繁模式增量发现算法

廖豪^1,2，陈洁^1,3，谭建龙¹

(1. 中国科学院计算技术研究所，北京 100190；2. 中国科学院研究生院，北京 100049；3. 北京邮电大学计算机学院，北京 100876)

收稿日期:2011-06-03 出版日期:2011-12-05 发布日期:2011-12-05
作者简介:廖豪(1986－)，男，硕士，主研方向：数据挖掘，网络与信息安全；陈洁，博士；谭建龙，副研究员
基金资助:
国家“973”计划基金资助项目(2007CB311100)；国家自然科学基金资助项目(20110250)

Frequent Pattern Increment Discovery Algorithm in Large-scale Corpus

LIAO Hao ^1,2, CHEN Jie ^1,3, TAN Jian-long ¹

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. Graduate University of Chinese Academy of Sciences, Beijing 100049, China; 3. School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876, China)

Received:2011-06-03 Online:2011-12-05 Published:2011-12-05

摘要/Abstract

摘要： 提出一种适用于大规模语料的频繁模式增量发现算法。统计局部区域提取的字符串频度，对局部相对低频字符串进行剪枝。利用多模式串匹配算法，统计剪枝后局部相对高频字符串在整个语料中的频度，得到频度大于阈值的频繁模式。实验结果表明，该算法具有较低的空间复杂度和时间复杂度，内存消耗为基于后缀数组的频繁模式发现算法的20%左右。

关键词: 频繁模式, 增量式, 多模式串匹配算法, 后缀树, 后缀数组

Abstract: This paper presents a memory-based frequent pattern incremental discovering algorithm for large-scale corpus. It extracts strings and counts frequencies of them from local area, prunes the local relative low frequency strings, and uses multi-mode string matching algorithm to count the local relative high frequency strings in the whole corpus, eventually gets the frequent patterns that the frequency is greater than the threshold. Experimental result shows that the algorithm has a better space complexity and the highest consumption of the memory size in the process of frequent-pattern discovery is about 20% to the size of the algorithm based on suffix array.

Key words: frequent pattern, incremental, multi-pattern string matching algorithm, suffix tree, suffix array

中图分类号:

TP306

廖豪, 陈洁, 谭建龙. 大规模语料中频繁模式增量发现算法[J]. 计算机工程, 2011, 37(23): 27-29,32.

LIAO Hao, CHEN Ji, TAN Jian-Long. Frequent Pattern Increment Discovery Algorithm in Large-scale Corpus[J]. Computer Engineering, 2011, 37(23): 27-29,32.

https://www.ecice06.com/CN/Y2011/V37/I23/27

[1]	王璐, 刘晓清, 何震瀛. 连续时间区间内的频繁词序列挖掘算法[J]. 计算机工程, 2022, 48(2): 79-85,91.
[2]	高权,万晓冬. 基于负载均衡的并行FP-Growth算法[J]. 计算机工程, 2019, 45(3): 32-35,40.
[3]	王菊,刘付显,靳春杰. 基于修正BPSO的通用模式指标上界估算方法[J]. 计算机工程, 2018, 44(10): 168-174.
[4]	丁棉卫,张腾飞,马福民. 基于二进制区分矩阵的增量式属性约简算法[J]. 计算机工程, 2017, 43(1): 201-206.
[5]	刘涛涛,马福民,张腾飞. 基于正区域和差别元素的增量式属性约简算法[J]. 计算机工程, 2016, 42(8): 183-187,193.
[6]	罗明,孟传伟,黄海量. 基于加权频繁模式树的通信网络告警规则挖掘方法[J]. 计算机工程, 2016, 42(4): 190-196.
[7]	王小林,镇丽华,杨思春,邰伟鹏,郑啸. 基于增量式贝叶斯模型的中文问句分类研究[J]. 计算机工程, 2014, 40(9): 238-242.
[8]	金国平，余宗桥，郭延文，蒋和. 基于GPU加速的音频检索技术[J]. 计算机工程, 2014, 40(5): 266-269.
[9]	吴宏和，陈黎飞，郭躬德. 一种事件序列的加权变阶马尔可夫模型[J]. 计算机工程, 2014, 40(4): 175-181.
[10]	史庆庆，张丽萍，尹丽丽，刘东升. 基于后缀数组的克隆检测[J]. 计算机工程, 2013, 39(9): 123-127.
[11]	李金凤, 王怀彬. 基于关联规则的网络故障告警相关性分析[J]. 计算机工程, 2012, 38(5): 44-46.
[12]	刘佳新, 严书亭, 任家东. 缩减投影数据库规模的增量式序列模式算法[J]. 计算机工程, 2012, 38(3): 28-30.
[13]	马晓东, 李中升, 漆锋滨, 尉红梅. 一种基于增量式实例学习的迭代编译方法[J]. 计算机工程, 2012, 38(3): 4-6.
[14]	姚全珠, 赵凯, 郭梁涛. 基于邻接字符对的三元后缀树全文索引模型[J]. 计算机工程, 2012, 38(18): 42-44.
[15]	蔡国祯, 毛国君. 基于支持向量数据描述的分布式数据流挖掘[J]. 计算机工程, 2012, 38(18): 34-36.

选择文件类型/文献管理软件名称

选择包含的内容

大规模语料中频繁模式增量发现算法

Frequent Pattern Increment Discovery Algorithm in Large-scale Corpus

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

大规模语料中频繁模式增量发现算法

Frequent Pattern Increment Discovery Algorithm in Large-scale Corpus

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价