LDLT分解协处理器的并行结构研究

doi:10.3969/j.issn.1000-3428.2011.21.082

计算机工程 ›› 2011, Vol. 37 ›› Issue (21): 241-243,254.

LDLT分解协处理器的并行结构研究

郭磊¹，唐玉华¹，周杰¹，董亚卓²

(1. 国防科技大学并行与分布处理国家重点实验室，长沙 410073；2. 中国人民解放军91655部队，北京 100036)

出版日期:2011-11-05 发布日期:2012-05-10
作者简介:郭磊(1987－)，男，硕士研究生，主研方向：高性能计算机体系结构；唐玉华，研究员；周杰，博士研究生；董亚卓，助理研究员、博士
基金资助:
国家自然科学基金资助项目(60921062, 60903057)

Research on Parallel Architecture for LDLT Decomposition Co-processor

GUO Lei ¹, TANG Yu-hua ¹, ZHOU Jie ¹, DONG Ya-zhuo ²

(1. National Key Laboratory for Parallel & Distributed Processing, National University of Defense Technology, Changsha 410073, China; 2. PLA 91655 Unit, Beijing 100036, China)

Online:2011-11-05 Published:2012-05-10

摘要/Abstract

摘要： 为提高LDLT分解协处理器的性能，基于FPGA平台，研究其并行结构。分析循环片间的数据依赖关系，提出LDLT分解细粒度并行算法，并在可扩展一维阵列处理器中加以实现，利用主机、算法加速器组成单精度浮点LDLT分解协处理器的并行结构。实验结果表明，与运行在2.50 GHz Pentium微处理器上的C代码相比，该协处理器可获得32.03倍~43.25倍的性能提升。

关键词: LDLT分解, 现场可编程门阵列, 细粒度并行, 协处理器

Abstract: This paper studies parallel architecture and implementation for large-scale symmetric matrix LDLT decomposition co-processor which based on Field Programmable Gate Array(FPGA) platform to enhance the performance of it. It proposes a fine-grained parallel algorithm basing the data dependency analysis. Then a scalable LDLT decomposition array processor is presented to implement this algorithm. Main engine and arithmetic accelerator constitute the parallel architecture of a single precision floating-point LDLT decomposition co-processor. Experimental results show that, a maximum factor of 43.25 and 32.03 in average speedup can be achieved compare to 2.50 GHz Pentium CPU with C program.

Key words: LDLT decomposition, Field Programmable Gate Array(FPGA), fine grit parallel, coprocessor

中图分类号:

TP311.12

郭磊, 唐玉华, 周杰, 董亚卓. LDLT分解协处理器的并行结构研究[J]. 计算机工程, 2011, 37(21): 241-243,254.

GUO Lei, TANG Yu-Hua, ZHOU Jie, DONG E-Zhuo. Research on Parallel Architecture for LDLT Decomposition Co-processor[J]. Computer Engineering, 2011, 37(21): 241-243,254.

https://www.ecice06.com/CN/Y2011/V37/I21/241

[1]	关明晓, 刘嘉堃, 张鸿锐, 何安平. 基于FPGA误差可控的浮点运算加速器研究[J]. 计算机工程, 2024, 50(5): 291-297.
[2]	杨思捷, 陈俊奇, 王勇, 李树林. 基于FPGA的软硬件协同纠删码编码加速方案[J]. 计算机工程, 2024, 50(2): 224-231.
[3]	洪起润, 王琴. 基于帧间数据复用的稀疏CNN加速器设计[J]. 计算机工程, 2023, 49(12): 55-62.
[4]	陈逸, 刘博生, 徐永祺, 武继刚. 混合精度频域卷积神经网络FPGA加速器设计[J]. 计算机工程, 2023, 49(12): 1-9.
[5]	黄正伟, 刘宏伟, 徐渊. 用于IToF传感器的极低功耗RISC-V专用处理器设计[J]. 计算机工程, 2022, 48(9): 146-154.
[6]	奚智雯, 蔡晶晶, 阳文敏, 柴志雷. 基于微服务架构FPGA云平台的并发请求调度机制[J]. 计算机工程, 2022, 48(7): 206-213.
[7]	巩杰, 赵烁, 何虎, 邓宁. 基于FPGA的量化CNN加速系统设计[J]. 计算机工程, 2022, 48(3): 170-174,196.
[8]	黄瑞, 金光浩, 李磊, 姜文超, 宋庆增. 轻量化神经网络加速器的设计与实现[J]. 计算机工程, 2021, 47(9): 185-190,196.
[9]	赵晨园, 李文新, 张庆熙. 一种改进的实时半全局立体匹配算法及硬件实现[J]. 计算机工程, 2021, 47(9): 162-170.
[10]	狄新凯, 杨海钢. 基于FPGA的稀疏化卷积神经网络加速器[J]. 计算机工程, 2021, 47(7): 189-195,204.
[11]	石永泉, 景乃锋. 基于FPGA模拟的阻变神经网络加速器评估方法[J]. 计算机工程, 2021, 47(12): 209-214.
[12]	吴健凤, 郑博文, 聂一, 柴志雷. 基于OpenCL的3DES算法FPGA加速器[J]. 计算机工程, 2021, 47(12): 147-155,162.
[13]	张浩, 魏敬和. 高效率PLB2AXI总线桥的设计与验证[J]. 计算机工程, 2020, 46(8): 228-234.
[14]	宋安, 王琴, 谷大武, 郭筝, 刘军荣, 张驰. 基于FPGA的时钟同步功耗信息采集方法[J]. 计算机工程, 2020, 46(6): 115-121.
[15]	孔飞跃, 蒋学芹, 万雪芬, 陈思井, 崔剑, 杨义. 基于GPU的LDPC增强准最大似然译码器并行实现[J]. 计算机工程, 2020, 46(5): 207-215.

选择文件类型/文献管理软件名称

选择包含的内容

LDLT分解协处理器的并行结构研究

Research on Parallel Architecture for LDLT Decomposition Co-processor

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

LDLT分解协处理器的并行结构研究

Research on Parallel Architecture for LDLT Decomposition Co-processor

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价