HXDSP平台上矩阵乘法的实现与性能分析

doi:10.19678/j.issn.1000-3428.0050025

计算机工程 ›› 2019, Vol. 45 ›› Issue (4): 25-29. doi: 10.19678/j.issn.1000-3428.0050025

HXDSP平台上矩阵乘法的实现与性能分析

刘余福^1a,1b,郎文辉^1a,1b,贾光帅²

1.合肥工业大学 a.计算机与信息学院; b.工业安全与应急技术安徽省重点实验室,合肥 230009; 2.中国电子科技集团公司第三十八研究所,合肥 230088

收稿日期:2018-01-08 出版日期:2019-04-15 发布日期:2019-04-15
作者简介:刘余福(1990—),男,硕士研究生,主研方向为数字信号处理技术、嵌入式系统;郎文辉,副教授;贾光帅,工程师。
基金资助:
安徽省科技专项资金“高清摄像机产业化及核心处理器芯片技术开发”(13Z02010)

Realization and Performance Analysis of Matrix Multiplication on HXDSP Platform

LIU Yufu ^1a,1b,LANG Wenhui ^1a,1b,JIA Guangshuai ²

1a.School of Computer Science and Information Engineering; 1b.Anhui Province Key Laboratory of Industry Safety and Emergency Technology,Hefei University of Technology,Hefei 230009,China; 2.The 38th Research Institute of China Electronic Technology Group Corporation,Hefei 230088,China

Received:2018-01-08 Online:2019-04-15 Published:2019-04-15

摘要/Abstract

摘要：

在向量处理器上进行矩阵运算时硬件资源利用率与数据处理能力较低。为此,基于魂芯数字信号处理器(HXDSP)平台,结合高效视频编码(HEVC)标准中的离散余弦变换算法,采用数据压缩式向量法实现矩阵乘法,以发挥向量处理器的硬件资源。实验结果表明,该方法可达到HXDSP的定点乘累加运算能力峰值32 GMACs,数据处理能力可达2 GPixel/s,满足HEVC编码标准的性能要求。

关键词: 魂芯数字信号处理器, 矩阵乘法, 数据压缩, 向量法, 高效视频编码标准, 离散余弦变换算法

Abstract:

Matrix operations on vector processors face the problems of low utilization of hardware resources and low data processing capacity.Therefore,based on HX Digital Signal Processor(HXDSP) platform,combined with Discrete Cosine Transform(DCT) algorithm in High Efficiency Video Coding(HEVC) standard,the matrix multiplication is realized by data compression vector method,in order to make full use of the hardware resources of vector processor.Experimental results show that this method can reach the peak value of 32 GMACs of fixed-point multiplication and accumulation operation ability of HXDSP,and the data processing ability can reach 2 GPixel/s,which meets the performance requirements of HEVC coding standard.

Key words: HX Digital Signal Processor(HXDSP), matrix multiplication, data compression, vector method, High Efficiency Video Coding(HEVC) standard, Discrete Cosine Transform(DCT) algorithm

中图分类号:

TP391

刘余福,郎文辉,贾光帅. HXDSP平台上矩阵乘法的实现与性能分析[J]. 计算机工程, 2019, 45(4): 25-29.

LIU Yufu,LANG Wenhui,JIA Guangshuai. Realization and Performance Analysis of Matrix Multiplication on HXDSP Platform[J]. Computer Engineering, 2019, 45(4): 25-29.

https://www.ecice06.com/CN/Y2019/V45/I4/25

参考文献

［1］NATH R,TOMOV S,DONGARRA J.An improved magma gemm for Fermi graphics processing units［J］.International Journal of High Performance Computing Applications,2010,24(4):511-515.
［2］TAN G.Fast implementation of DGEMM on Fermi GPU［C］//Proceedings of International Conference on High Performance Computing,Networking,Storage and Analysis.Washington D.C.,USA:IEEE Computer Society,2011:30-35.
［3］刘刚,张恒,毛睿,等.面向龙芯3B1500体系结构的DGEMM函数优化［J］.小型微型计算机系统,2014,35(7):1523-1527.
［4］JAISWAL M K,CHANDRACHOODAN N.FPGA-based high-performance and scalable block LU decomposition architecture［J］.IEEE Transactions on Computers,2011,61(1):60-72.
［5］MICHAILIDIS P D,MARGARITIS K G.Implementing parallel LU factorization with pipelining on a multicore using OpenMP［C］//Proceedings of IEEE International Conference on Computational Science and Engineering.Washington D.C.,USA:IEEE Press,2011:253-260.
［6］VENETIS I E,GAO G R.Mapping the LU decomposition on a many-core architecture:challenges and solutions［C］//Proceedings of ACM Conference on Computing Frontiers.New York,USA:ACM Press,2009:71-80.
［7］唐云.基于Spark的大规模分布式矩阵运算算法研究与实现［D］.南京:南京大学,2016.
［8］杨飞,马昱春,侯金,等.基于MPSoC并行调度的矩阵乘法加速算法研究［J］.计算机科学,2017,44(8):36-41.
［9］龙卓群,王晓瑜,王昌明.基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算［J］.自动化与仪表,2017,32(7):16-21.
［10］沈俊忠,肖涛,乔寓然,等.一种支持优化分块策略的矩阵乘加速器设计［J］.计算机工程与科学,2016,38(9):1748-1754.
［11］魏帅.面向SIMD的向量化算法及重组技术研究［D］.郑州:解放军信息工程大学,2012.
［12］张凯.向量SIMD DSP上高效矩阵运算技术研究［D］.长沙:国防科技大学,2013.
［13］朱海涛,陈云霁,钱诚,等.基于向量扩展多核处理器的矩阵乘法算法优化研究［J］.中国科学技术大学学报,2011,41(2):173-182.
［14］王捷.一种高性能向量处理器的实现［D］.天津:天津大学,2016.
［15］刘仲,田希.面向多核向量处理器的矩阵乘法向量化方法［J］.计算机学报,2018,41(10):2251-2264.

[1]	陈田, 周洋, 任福继, 安鑫, 赵沪隐. 基于三态信号的改进游程编码压缩方法[J]. 计算机工程, 2021, 47(2): 219-225.
[2]	伍伟鑫, 韩京宇, 朱曼. 基于差分编码的RDF分组压缩[J]. 计算机工程, 2020, 46(11): 117-123.
[3]	冉德成, 吴东, 钱磊. 面向深度学习推理的矩阵乘法加速器设计[J]. 计算机工程, 2019, 45(10): 40-45.
[4]	杨仁忠,张洁,韦宏卫,石璐. 基于GPU的Landsat8实时解压缩处理技术[J]. 计算机工程, 2016, 42(3): 301-307.
[5]	梁波,宋莹,王博,郭建. 面向数据中心的实时温度监测系统设计与实现[J]. 计算机工程, 2015, 41(8): 317-321.
[6]	孙雅,李志华. 基于区域极值点的时间序列聚类算法[J]. 计算机工程, 2015, 41(5): 33-37.
[7]	李钊,郑红. 多处理部件并行优化方法研究[J]. 计算机工程, 2014, 40(9): 305-311.
[8]	李重文,邓腾彬,马世龙. 基于分段极值的时间序列数据查询显示方法[J]. 计算机工程, 2014, 40(9): 27-31.
[9]	吴剑, 杨兴廷, 代冀阳, 周继强. 航路规划中的地形数据压缩与多分辨率处理[J]. 计算机工程, 2012, 38(5): 9-13.
[10]	蔡烁, 邝继顺, 刘铁桥. 一种多扫描链混合测试数据压缩方法[J]. 计算机工程, 2012, 38(18): 245-247.
[11]	韩丽红, 林蔚, 毕海囡, 李波. 无线传感器网络最优曲线压缩算法[J]. 计算机工程, 2012, 38(18): 93-96.
[12]	赵恩来, 郝文宁, 刘航, 戎誉, 朱耀华. 基于时序聚类的北斗位置冗余数据压缩算法[J]. 计算机工程, 2012, 38(04): 40-42.
[13]	程剑, 李平, 朱海荣. WSN中基于区间小波的偶合数据压缩算法[J]. 计算机工程, 2011, 37(9): 150-152.
[14]	王继良, 周四望, 唐晖. 基于回归的无线传感器网络数据压缩方法[J]. 计算机工程, 2011, 37(23): 96-98.
[15]	魏东平, 徐瑞敏, 贾楠. 基于结构标记树的XML可查询压缩方法[J]. 计算机工程, 2011, 37(15): 34-36.

选择文件类型/文献管理软件名称

选择包含的内容

HXDSP平台上矩阵乘法的实现与性能分析

Realization and Performance Analysis of Matrix Multiplication on HXDSP Platform

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

HXDSP平台上矩阵乘法的实现与性能分析

Realization and Performance Analysis of Matrix Multiplication on HXDSP Platform

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价