FM-index分块并行算法及其实现

doi:10.3969/j.issn.1000-3428.2008.08.018

计算机工程 ›› 2008, Vol. 34 ›› Issue (8): 53-55. doi: 10.3969/j.issn.1000-3428.2008.08.018

FM-index分块并行算法及其实现

李开士1,2,3，张云泉2,3，李玉成2

(1. 中国科学院研究生院，北京 100080；2. 中国科学院软件研究所并行计算实验室，北京 100080；3. 中国科学院计算机科学国家重点实验室，北京 100080)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-04-20 发布日期:2008-04-20

Parallelization of Blocked FM-index Algorithm and Its Implementation

LI Kai-shi Li1,2,3, ZHANG Yun-quan Zhang2,3, LI Yu-cheng Li2

(1. Graduate University ofSchool ,of Chinese Academy of Sciences, Beijing 100080; 2 . Lab. of Parallel Computing, Institute of Software, Chinese Academy of Sciences, Beijing 100080; 3. State Key Laboratory of Computer Sciences, Chinese Academy of SciencesCAS, Beijing 100080)

Received:1900-01-01 Revised:1900-01-01 Online:2008-04-20 Published:2008-04-20

摘要/Abstract

摘要： 在查询海量数据时，有压缩和索引两种方法来提高速度，。该文结合这两种方法提出了压缩查询的方法。FM-index是一种自索引的全文查询算法，。这种算法存在内存占用过大的问题，并且对于复杂的查询效率也不理想，。该文于是提出了分块FM-index算法，,并在分块的基础上采用MPI对该分块算法进行了并行化，。成功地解决了内存占用过多的问题，并达到了较好的并行效率。

关键词: 压缩, 自索引, FM-index算法, 分块, 并行

Abstract: When dealing with massive volume data, there’ are two ways to achieve high performance: —one is to compress and the other one is to build index. Combining these two waysmethods, compressed query is emergingproposed. FM-index is such a compressed self-index algorithm used for full-text query. We found that The algorithm will occupiesy a large amount of main memory and is unable to handle complex query efficiently. To deal with these problems, this paper we proposesd a blocked version FM-index algorithm and parallelizesd it using MPI. The blocked algorithm greatly reducesd its memory usage, while the parallel version of blocked FM-index algorithm achievesd acceptable scalability.

Key words: compression, self-index, FM-index, blocking, parallelization

中图分类号:

TP312

李开士;张云泉;李玉成. FM-index分块并行算法及其实现[J]. 计算机工程, 2008, 34(8): 53-55.

LI Kai-shi Li; ZHANG Yun-quan Zhang; LI Yu-cheng Li. Parallelization of Blocked FM-index Algorithm and Its Implementation[J]. Computer Engineering, 2008, 34(8): 53-55.

http://www.ecice06.com/CN/Y2008/V34/I8/53

[1]	陈億, 杨萱, 曾涵, 李伟. 一种高速可伸缩的双域Montgomery模乘器架构[J]. 计算机工程, 2023, 49(8): 283-290.
[2]	王其涵, 庞建民, 岳峰, 祝迪, 沈莉, 肖谦. 面向申威架构的KNN并行算法实现与优化[J]. 计算机工程, 2023, 49(5): 286-294.
[3]	李宜亭, 屈丹, 杨绪魁, 张昊, 沈小龙. 基于分解门控注意力单元的高效Conformer模型[J]. 计算机工程, 2023, 49(5): 73-80.
[4]	唐彦, 卢镘旭. 基于知识图谱与深度涟漪网络的推荐系统[J]. 计算机工程, 2023, 49(5): 63-72,80.
[5]	郭奕裕, 周箩鱼. 安全帽佩戴检测网络模型的轻量化设计[J]. 计算机工程, 2023, 49(4): 312-320.
[6]	夏立斌, 刘晓宇, 姜晓巍, 孙功星. 基于分布式数据集的并行计算框架内存优化方法[J]. 计算机工程, 2023, 49(4): 43-51.
[7]	韩彦岭, 沈思扬, 徐利军, 王静, 张云, 周汝雁. 面向深度学习图像分类的GPU并行方法研究[J]. 计算机工程, 2023, 49(1): 191-200.
[8]	符世园, 张敏行, 高宇, 汪璐, 程耀东. 面向同步辐射光源图像的可并行智能压缩方法[J]. 计算机工程, 2023, 49(1): 234-241,249.
[9]	茹妞妞, 于晋伟, 杨卫华, 卞玮. 基于压缩与精化深度体素流模型的视频插值[J]. 计算机工程, 2022, 48(9): 248-253.
[10]	王国栋, 叶剑, 谢萦, 钱跃良. 基于梯度的自适应阈值结构化剪枝算法[J]. 计算机工程, 2022, 48(9): 113-120.
[11]	周雍浩, 徐金龙, 李斌, 钱宏, 聂凯. 面向神威高性能多核处理器的并行编译优化方法[J]. 计算机工程, 2022, 48(9): 130-138.
[12]	潘金凤, 尹丽菊, 高明亮, 邹国峰. 压缩感知观测信号的低秩稀疏分解[J]. 计算机工程, 2022, 48(8): 234-239.
[13]	王士浩, 王中卿, 李寿山, 周国栋. 基于知识蒸馏与模型集成的事件论元抽取方法[J]. 计算机工程, 2022, 48(7): 97-103.
[14]	范明亮, 郭子涵, 柴晓楠, 商建东. 面向FT-M7002的Sobel边缘检测算法优化实现[J]. 计算机工程, 2022, 48(6): 193-199.
[15]	党良慧, 张玉金, 路东生. 基于纹理免疫的JPEG预压缩图像降尺度因子检测[J]. 计算机工程, 2022, 48(5): 272-280.

选择文件类型/文献管理软件名称

选择包含的内容

FM-index分块并行算法及其实现

Parallelization of Blocked FM-index Algorithm and Its Implementation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

FM-index分块并行算法及其实现

Parallelization of Blocked FM-index Algorithm and Its Implementation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价