作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 先进计算与数据处理 • 上一篇    下一篇

基于列存储的MapReduce并行连接算法

张 滨1,2,乐嘉锦1   

  1. (1.东华大学计算机科学与技术学院,上海 201620;2.浙江财经大学,杭州 310018)
  • 收稿日期:2013-06-20 出版日期:2014-08-15 发布日期:2014-08-15
  • 作者简介:张 滨(1978-),男,博士研究生,主研方向:数据库技术;乐嘉锦,教授、博士生导师。
  • 基金资助:

    国家自然科学基金资助项目(61070031,61070032);浙江省教育厅科研基金资助项目(Y201225326)。

MapReduce Parallel Join Algorithm Based on Column-store

ZHANG Bin1,2,LE Jia-jin1   

  1. (1.School of Computer Science and Technology,Donghua University,Shanghai 201620,China;2.Zhejiang University of Finance & Economics,Hangzhou 310018,China)
  • Received:2013-06-20 Online:2014-08-15 Published:2014-08-15

摘要:

针对传统关系型数据库在对大数据进行操作时,系统性能严重下降、计算效率提升有限以及可扩展性差等问题,引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce并行连接算法。设计面向大数据的分布式计算模型,包括MapReduce分布式环境下的列存储文件格式MCF,采用协同定位策略实现对分布式存储的优化。使用分片聚集和子连接启发式优化方法,实现大数据在MapReduce分布式环境下并行连接算法。实验结果证明,在大数据分析处理中,该算法在执行时间和负载能力上有着较好的优化性能,同时具有良好的可扩展性。

关键词: 大数据, 列存储, MapReduce模型, MCF存储格式, 并行连接, 启发式优化方法

Abstract:

The character of big data are large scale,depth,velocity,common hardware and open source.Aiming at the system’s inefficiency and scalability problem of traditional relational database in big data analysis,this paper presents an algorithm of parallel join in a MapReduce environment based on column-store by introducing MapReduce computing model.The design of large data-oriented distributed computing models is proposed.It designs the MapReduce column-store file,and achieves optimization by cooperative localization strategy.Secondly,and the partition aggregation and the heuristic optimization strategy to realize the implementation of parallel join algorithm are proposed.Experimental results show that the algorithm has the high performance and scalability in execution time and load capacity. 

Key words: big data, column-store, MapReduce model, MCF storage form, parallel join;heuristic optimization method

中图分类号: