计算机工程 ›› 2018, Vol. 44 ›› Issue (6): 24-28.doi: 10.19678/j.issn.1000-3428.0047104

• 先进计算与数据处理 • 上一篇    下一篇

基于共享存储的MPP数据库连接执行研究

孙庆鑫 1,雷迎春 2,龚奕利 1   

  1. 1.武汉大学 计算机学院,武汉 430072; 2.北京达沃时代科技股份有限公司,北京 100020
  • 收稿日期:2017-05-08 出版日期:2018-06-15 发布日期:2018-06-15
  • 作者简介:孙庆鑫(1990—),男,硕士研究生,主研方向为分布式数据库、数据仓库技术;雷迎春,博士;龚奕利,副教授、博士。
  • 基金项目:

    国家自然科学基金青年科学基金(61100020);国家自然科学基金面上项目(61572373)。

Research on MPP Database Connection Execution Based on Shared Storage

SUN Qingxin  1,LEI Yingchun  2,GONG Yili  1   

  1. 1.Computer School,Wuhan University,Wuhan 430072,China;2.Beijing Daowoo Time Technology Co.,Ltd.,Beijing 100020,China
  • Received:2017-05-08 Online:2018-06-15 Published:2018-06-15

摘要:

为解决哈希分布表转换为随机分布表后连接效率低的问题,提出一种大规模并行处理数据库中哈希表的并行连接操作算法。根据共享存储环境下哈希分布表的数据块分布特性,并结合随机读取的扫描优势,利用数据多副本分布式存储提高本地读比率,且不损失数据块哈希分布的特性。TPC-H标准测试结果表明,与传统并行连接算法相比,该算法能有效提高连接操作效率,连接查询语句最高可降低30%的响应时间。

关键词: 连接操作, 并行连接, 大规模并行处理, 大数据, 在线分析处理

Abstract:

In order to solve the problem of low connection efficiency after the Hash distribution table is converted into a random distribution table,a parallel connection operation algorithm for Hash tables in Massively Parallel Processor(MPP) database is presented.According to the data block distribution characteristics of the hash distribution table in the shared storage environment,combining with the scanning advantage of random reading,data multiple copies distributed storage is used to improve the local reading rate without losing the characteristics of data hash distribution.TPC-H standard test results show that compared with the traditional parallel connection algorithm,this algorithm can effectively improve the connection operation efficiency and reduce the response time of the connection query up to 30%.

Key words: connection operation, parallel connection, Massively Parallel Processing(MPP), big data, Online Analytical Processing(OLAP)

中图分类号: