一种并行中英文混合多模式匹配算法

doi:10.3969/j.issn.1000-3428.2014.04.063

计算机工程

• 开发研究与工程应用 • 上一篇

一种并行中英文混合多模式匹配算法

王震，李仁发，李彦彪，田峥

(湖南大学嵌入式与网络计算湖南省重点实验室，长沙 410082)

收稿日期:2013-03-27 出版日期:2014-04-15 发布日期:2014-04-14
作者简介:王震(1988－)，男，硕士，主研方向：网络安全，并行计算，GPU通用计算；李仁发，教授、博士生导师；李彦彪、田峥，博士。
基金资助:
国家自然科学基金资助项目“以汽车为例的CPS若干问题研究”(61173036)。

A Parallel Multiple Pattern Matching Algorithm on Chinese/English Mixing

WANG Zhen, LI Ren-fa, LI Yan-biao, TIAN Zheng

(Key Laboratory for Embedded and Network Computing of Hunan Province, Hunan University, Changsha 410082, China)

Received:2013-03-27 Online:2014-04-15 Published:2014-04-14

摘要/Abstract

摘要： 针对中英文混合文本的匹配准确性及大规模数据文本的匹配效率等问题，基于经典的线索化完全哈希特里树算法，提出一种并行化的中英文混合多模式文本匹配算法。采用拆分文本降低多模式匹配算法的串行度，进而在拆分出的小文本上并行地执行文本匹配。通过并行化预处理过程，设计新的存储结构。实验结果表明，该算法在保证结果正确的前提下，执行效率高于经典的串行匹配算法，当数据规模达到226个字符时，可以获得8倍以上的加速比。

关键词: 多模式匹配, 中英文混合, 特里树, 图形处理单元, 并行计算, 统一计算设备架构

Abstract: Concerning the classical Threaded Hash Trie(THT) tree algorithm, a parallel multiple pattern matching on Chinese/English mixed texts algorithm is proposed for the accuracy of mixed Chinese and English text matching and the low efficiency of large-scale data text matching. The program splits the text into a number of small texts, and runs THT algorithm to match them. It is further accelerated by parallelization of pretreatment process and new storage structure. Experimental results indicate that the method is correct and more effective than classical algorithm, and can get more than 8 times speedup ratio when the data scale reaches 226.

Key words: multiple pattern matching, Chinese/English mixing, Trie tree, Graphics Processing Unit(GPU), parallel computing, Compute Unified Device Architecture(CUDA)

中图分类号:

TP393.08

王震，李仁发，李彦彪，田峥. 一种并行中英文混合多模式匹配算法[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2014.04.063.

WANG Zhen, LI Ren-fa, LI Yan-biao, TIAN Zheng. A Parallel Multiple Pattern Matching Algorithm on Chinese/English Mixing[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2014.04.063.

https://www.ecice06.com/CN/Y2014/V40/I4/318

[1]	刘金硕, 文尧. 模板运算代码的自动生成与调优框架[J]. 计算机工程, 2024, 50(6): 35-47.
[2]	雷斗威, 何德彪, 罗敏, 彭聪. 基于AVX512的格密码高速并行实现[J]. 计算机工程, 2024, 50(2): 15-24.
[3]	王其涵, 庞建民, 岳峰, 祝迪, 沈莉, 肖谦. 面向申威架构的KNN并行算法实现与优化[J]. 计算机工程, 2023, 49(5): 286-294.
[4]	夏立斌, 刘晓宇, 姜晓巍, 孙功星. 基于分布式数据集的并行计算框架内存优化方法[J]. 计算机工程, 2023, 49(4): 43-51.
[5]	李博, 黄东强, 贾金芳, 吴利, 王晓英, 黄建强. 基于CPU与GPU的异构模板计算优化研究[J]. 计算机工程, 2023, 49(4): 131-137.
[6]	房俊, 薛晓东, 周云亮. 基于深度生成模型的聚合查询区间估计方法[J]. 计算机工程, 2023, 49(11): 284-292, 301.
[7]	付鹏斌, 刘鹏辉, 杨惠荣, 董澳静. 基于多重规则和路径评价的在线中英文手写识别方法[J]. 计算机工程, 2022, 48(3): 253-262.
[8]	黄瑞, 金光浩, 李磊, 姜文超, 宋庆增. 轻量化神经网络加速器的设计与实现[J]. 计算机工程, 2021, 47(9): 185-190,196.
[9]	易培淮, 李卫东, 林韬, 邹佳恒, 邓子艳, 刘言. GPU在缪子快速模拟中的应用[J]. 计算机工程, 2021, 47(8): 100-108.
[10]	钱裳云, 邵志远, 郑然, 陈继林. 图数据库中基于GPU的图分析计算方法[J]. 计算机工程, 2021, 47(6): 52-59.
[11]	袁佳伟, 宋庆增, 王雪纯, 姜文超, 金光浩. 边缘计算设备的性能功耗测量与分析[J]. 计算机工程, 2021, 47(2): 233-238,245.
[12]	佘鑫, 何震瀛. 复杂属性条件下基于Spark的clique社区搜索算法[J]. 计算机工程, 2021, 47(12): 54-61,70.
[13]	郭渝洛, 边浩东, 董润婷, 唐嘉豪, 王晓英, 黄建强. 基于SIMD的并行傅里叶空间图像相似度计算[J]. 计算机工程, 2021, 47(11): 247-253.
[14]	肖成龙, 聂紫阳, 王宁, 张重鹏, 王珊珊. 基于并行约束规划的最大团识别研究[J]. 计算机工程, 2020, 46(4): 53-59,69.
[15]	徐国伟, 陈建, 成怡. 基于GPU并行计算的雷达杂波模拟研究[J]. 计算机工程, 2020, 46(11): 306-314.

选择文件类型/文献管理软件名称

选择包含的内容

一种并行中英文混合多模式匹配算法

A Parallel Multiple Pattern Matching Algorithm on Chinese/English Mixing

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种并行中英文混合多模式匹配算法

A Parallel Multiple Pattern Matching Algorithm on Chinese/English Mixing

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价