SIMD非对齐访存结构设计与实现

doi:10.3969/j.issn.1000-3428.2016.09.001

计算机工程

SIMD非对齐访存结构设计与实现

余成龙,王永文

(国防科学技术大学计算机学院,长沙 410073)

收稿日期:2015-09-15 出版日期:2016-09-15 发布日期:2016-09-15
作者简介:余成龙(1990-),男,硕士研究生,主研方向为高性能微处理器设计;王永文,研究员、博士。
基金资助:
国家自然科学基金资助项目“面向超高性能计算的众线程宽向量微体系结构研究”(61170045)。

Design and Implementation of SIMD Unaligned Memory Access Structure

YU Chenglong,WANG Yongwen

(School of Computer Science,National University of Defense Technology,Changsha 410073,China)

Received:2015-09-15 Online:2016-09-15 Published:2016-09-15

摘要/Abstract

摘要： 单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。

关键词: 高性能计算, 据级并行, 向量化, 单指令流多数据流扩展, 非对齐访存, Gem5模拟器

Abstract: Single Instruction Multiple Data(SIMD) is an effective approach to realize data level parallelism,but accessing unaligned data seriously affects vectorization of the program and causes processor performance degradation.In order to reduce the latency of unaligned memory access,the memory access structure of high-performance application programs is modeled.SIMD unaligned memory access structure which buffer line is splited and the memory unaligned memory access structure of dual cache are designed and implemented.Under memory unaligned memory access structure of dual cache,experimental results show that for addition of two arrays and SIMD vectorization,the performance of unaligned code is 99% of aligned code.The memory access efficiency of SIMD vectorization is improved.

Key words: high-performance computing, Data Level Parallelism(DLP), vectorization, Single Instruction Multiple Data(SIMD) extension, unaligned memory access, Gem5 simulator

中图分类号:

TP302.2

余成龙,王永文. SIMD非对齐访存结构设计与实现[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2016.09.001.

YU Chenglong,WANG Yongwen. Design and Implementation of SIMD Unaligned Memory Access Structure[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2016.09.001.

https://www.ecice06.com/CN/Y2016/V42/I9/1

参考文献

参考文献［1］Diefendorff K,Dubey P K,Hochsprung R,et al.AltiVec Extension to PowerPC Accelerates Media Processing［J］.IEEE Micro,2000,20(2):85-95. ［2］Boggs D,Baktha A,Hawkins J,et al.The Microarchitecture of the Intel Pentium 4 Processor on 90 nm Technology［J］.Intel Technology Journal,2004,8(1):7-23. ［3］Singh J P,Gupta A,Ohara M,et al.The SPLASH-2 Programs:Characterization and Methodological Consider-ations［C］//Proceedings of the 22nd Annual International Symposium on Computer Architecture.New York,USA:ACM Press,1995:24-36. ［4］Sweetman D.See MIPS Run［M］.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2006. ［5］Sites R L.Alpha Architecture Reference Manual［M］.［S.l.］:Digital Press,1992. ［6］Nuzman D,Henderson R.Multi-platform Auto-vectori-zation［C］//Proceedings of International Symposium on Code Generation and Optimization.Washington D.C.,USA:IEEE Computer Society,2006:281-294. ［7］Eichenberger A E,Wu Peng,O’Brien K.Vectorization for SIMD Architectures with Alignment Constraints［C］//Proceedings of ACM SIGPLAN Conference on Programm-ing Languages Design and Implementation.New York,USA:ACM Press,2004:82-93. ［8］Wu Peng,Eichenberger A E,Wang A.Efficient SIMD Code Generation for Runtime Alignment and Length Con-version［C］//Proceedings of the International Symposium on Code Generation and Optimization.Washington D.C.,USA:IEEE Computer Society,2005:153-164. ［9］Larsen S,Witchel E,Amarasinghe S P.Increasing and Detecting Memory Address Congruence［C］//Proceedings of the 11th International Conference on Parallel Architec-tures and Compilation Techniques.Washington D.C.,USA:IEEE Computer Society,2002:18-29. ［10］Shahbahrami A,Juurlink B,Vassiliadis S.Performance Impact of Misaligned Accesses in SIMD Extensions［C］//Proceedings of the 17th Annual Workshop on Circuits,Systems and Signal Processing.Washington D.C.,USA:IEEE Presss,2006:23-24. ［11］李玉祥,施慧,陈莉.面向非多媒体程序的SIMD向量化算法的研究及改进［J］.小型微型计算机系统,2009,30(10):1927-1935. ［12］Zhang K X.Buffer for a Split Cache Line Access:US6862225［P］.2005-03-01. ［13］Alvarez M,Salami E,Ramirez A,et al.Performance Impact of Unaligned Memory Operations in SIMD Extensions for Video Codec Applications［C］//Proceedings of IEEE Inter-national Symposium on Performance Analysis of Systems & Software.Washington D.C.,USA:IEEE Press,2007:62-71. ［14］Bik A J C,Girkar M,Grey P M,et al.Automatic Intra-register Vectorization for the Intel Architecture［J］.International Journal of Parallel Programming,2002,30(2):65-98. ［15］Binkert N,Beckmann B,Black G,et al.The Gem5 Simulator［J］.ACM SIGARCH Computer Architecture News,2011,39(2):1-7. 编辑陆燕菲

[1]	黄斌, 柳安军, 潘景山, 田敏, 张煜, 朱光慧. 基于GPU的LBM迁移模块算法优化[J]. 计算机工程, 2024, 50(2): 232-238.
[2]	杨思驰, 赵荣彩, 韩林, 王洪生. 面向DCU的LDS访存向量化优化[J]. 计算机工程, 2024, 50(2): 206-213.
[3]	张桢, 梁军, 贾海鹏, 张云泉, 李青. 基于RISC‐V的FFmpeg多媒体算法库优化策略[J]. 计算机工程, 2023, 49(4): 159-165,173.
[4]	唐敏, 张宇浩, 邓国强. 一种高效的非交互式隐私保护逻辑回归模型[J]. 计算机工程, 2023, 49(4): 32-42,51.
[5]	方燕飞, 刘齐, 董恩铭, 李雁冰, 过锋, 王谛, 何王全, 漆锋滨. 面向E级超算系统的众核片上存储层次研究[J]. 计算机工程, 2023, 49(12): 10-24.
[6]	刘康, 万伟, 刘波, 李俊宏, 李柱. 基于“嵩山”超级计算机的UCX库分析与优化[J]. 计算机工程, 2023, 49(12): 274-281.
[7]	张金鹏, 段湘煜. 结合向量化方法与掩码机制的术语干预翻译模型[J]. 计算机工程, 2023, 49(11): 70-76, 84.
[8]	刘博阳, 胡舒凯, 施得君, 卢宏生. VTFTR：高维胖树中的无死锁容错路由算法[J]. 计算机工程, 2022, 48(12): 38-44,53.
[9]	建澜涛, 任秀江, 张祯, 石嵩, 黄益明, 张春林. E级高性能计算机的维护故障诊断系统研究[J]. 计算机工程, 2022, 48(12): 24-37.
[10]	李嘉楠, 韩林, 柴赟达. 面向国产平台的LLVM自动向量化移植与优化[J]. 计算机工程, 2022, 48(1): 142-148.
[11]	李威, 梁军, 张桢, 李青. 基于ARM GPU的机载SAR成像算法并行优化策略[J]. 计算机工程, 2020, 46(10): 240-247.
[12]	陈曦, 朱小栋, 高广阔, 肖芳雄. 基于混合向量模型的中文评论情感分析[J]. 计算机工程, 2020, 46(1): 309-314.
[13]	孙震宇, 石京燕, 孙功星, 杜然, 姜晓巍, 邹佳恒, 谭宏楠. 大规模异构计算集群的双层作业调度系统[J]. 计算机工程, 2020, 46(1): 187-195.
[14]	魏渐俊,陈良育. 基于GPGPU的大整数矩阵行列式快速准确计算方法[J]. 计算机工程, 2018, 44(3): 47-54.
[15]	陈曦,朱建涛,何晓斌. 一种面向高性能计算的分布式对象存储系统[J]. 计算机工程, 2017, 43(8): 69-73.

选择文件类型/文献管理软件名称

选择包含的内容

SIMD非对齐访存结构设计与实现

Design and Implementation of SIMD Unaligned Memory Access Structure

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

SIMD非对齐访存结构设计与实现

Design and Implementation of SIMD Unaligned Memory Access Structure

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价