基于冷热数据的MongoDB自动分片机制

doi:10.3969/j.issn.1000-3428.2017.03.002

计算机工程

基于冷热数据的MongoDB自动分片机制

冯超政¹,蒋溢¹,何军^1,2,马祥均³

(1.重庆邮电大学计算机科学与技术学院,重庆 400065; 2.重庆中兴通讯研究所,重庆 401121;3.重庆市公安局网络安全保卫总队,重庆 401147)

收稿日期:2016-02-18 出版日期:2017-03-15 发布日期:2017-03-15
作者简介:冯超政(1989—),男,硕士研究生,主研方向为海量信息处理;蒋溢,教授级高级工程师;何军、马祥均,高级工程师。
基金资助:
重庆市教委科学技术研究项目(KJ1400414);工信部2012年物联网发展专项(2-5);重庆邮电大学博士启动基金(A2015-17)。

Auto-Sharding Mechanism in MongoDB Based on Cold and Hot Data

FENG Chaozheng ¹,JIANG Yi¹,HE Jun^1,2,MA Xiangjun³

(1.School of Computer Science and Technology,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;2.Chongqing ZTE Research Institute,Chongqing 401121,China;3.Chongqing Municipal Public Security Bureau Network Security Corps,Chongqing 401147,China)

Received:2016-02-18 Online:2017-03-15 Published:2017-03-15

摘要/Abstract

摘要： MongoDB数据库中的自动分片(Auto-Sharding)机制仅通过数据量来进行分片迁移,会导致负载不均衡的问题。为此,提出一种基于数据冷热访问特征的Auoto-Sharding优化机制。通过朴素贝叶斯算法对数据的访问特性进行冷热数据判定,将数据分片中热数据的所占比重作为热负载值以确定数据迁移时机,并根据数据片之间的热负载差异建立新的数据迁移策略。实验结果表明,在高并发条件下,该优化机制的数据吞吐量高于原有的Auto-Shading机制。

关键词: 自动分片机制, 冷热数据, 朴素贝叶斯, 热负载, 数据迁移

Abstract: The Auto-Sharding mechanism in MongoDB database finishes shard migration only through the data quantity,which causes unbalanced load imbalance.Aiming at this problem,this paper proposes an optimized Auto-Sharding mechanism based on the access characteristics of hot and cold data.It uses the naive Bayes algorithm to determine the data access characteristics of hot and cold data,and takes the proportion of the hot data in a data block as the heat load to determine the data migration time.It establishes new data migration strategy through the heat load differences between data blocks.Experimental results show that the data throughput of the improved mechanism is obviously better than that of the original Auto-Sharding mechanism under high concurrent condition.

Key words: Auto-Sharding mechanism, cold and hot data, Naive Bayes, heat load, data migration

中图分类号:

TP18

冯超政,蒋溢,何军,马祥均. 基于冷热数据的MongoDB自动分片机制[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2017.03.002.

FENG Chaozheng,JIANG Yi,HE Jun,MA Xiangjun. Auto-Sharding Mechanism in MongoDB Based on Cold and Hot Data[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2017.03.002.

http://www.ecice06.com/CN/Y2017/V43/I3/7

参考文献

参考文献［1］Decandia G,Hastorun D,Jampani M,et al.Dynamo:Amazon’s Highly Available Key-value Store［J］.ACM SIGOPS Operating Systems Review,2007,41(6):205-220. ［2］Danilov A I,Andersen J E T,Molodkina E B,et al.The NIST Definition of Cloud Computing［J］.Communi-cations of the ACM,2011,53(6):50-58. (下转第17页) (上接第10页) ［3］Colombo P,Ferrari E.Complementing MongoDB with Advanced Access Control Features:Concepts and Research Challenges［C］//Proceedings of the 23rd Italian Symposium on Advanced Database Systems.Gaeta,Italy:［s.n.］,2015. ［4］顾佳跃,赵晓静,肖筱华.面向智慧城市的大数据处理技术研究与实现［J］.计算机科学,2014,41(10):454-458. ［5］李彬,张英伟.NoSQL非关系型数据库负载均衡的实现［J］.电脑知识与技术,2012,8(6):1209-1211,1218. ［6］刘一梦.基于 MongoDB的云数据管理技术的研究与应用［D］.北京:北京交通大学,2012. ［7］刘晓萌.云计算环境中节能资源分配方法的研究［D］.北京:北京交通大学,2011. ［8］王鹏程,肖正,刘辉.融合观点倾向的话题热度趋势建模研究［J］.计算机工程,2015,41(7):66-70. ［9］何杭锋.基于FODO算法MongoDB自动分片的改进［J］.计算机技术与发展,2013,23(7):127-130. ［10］王光磊.MongoDB数据库的应用研究和方案优化［J］.中国科技信息,2011(20):93-94. ［11］姚林,张永库.NoSQL的分布式存储与扩展解决方法［J］.计算机工程,2012,38(6):40-42. ［12］魏浩,丁要军.基于属性相关的朴素贝叶斯分类算法［J］.河南科学,2014,32(1):42-46. ［13］Atkinson R A.Applying the 80/20 Rule［J］.Information Systems Management,1992,9(3):57-59. ［14］邓志飞,应良佳,王军威.基于IODA算法MongoDB负载均衡的改进［J］.现代电信科技,2013(7):9-13. ［15］兰翔.基于Nginx的负载均衡技术的研究与改进［D］.广州:华南理工大学,2012. 编辑金胡考

[1]	曾茜, 韩华, 马媛媛. 基于模体的朴素贝叶斯链路预测方法[J]. 计算机工程, 2022, 48(10): 95-102.
[2]	王青松, 张衡, 李菲. 基于文本多维度特征的自动摘要生成方法[J]. 计算机工程, 2020, 46(9): 110-116.
[3]	赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
[4]	刘洁, 王铮, 王辉. 基于IMI-WNB算法的垃圾邮件过滤技术研究[J]. 计算机工程, 2020, 46(12): 299-304,312.
[5]	张波, 周从华, 张付全, 张婷, 蒋跃明. 一种面向SNP选择的模糊聚类算法[J]. 计算机工程, 2019, 45(8): 66-74.
[6]	宁可,孙同晶,赵浩强. 基于属性关联的朴素贝叶斯分类算法[J]. 计算机工程, 2018, 44(6): 18-23.
[7]	邱宁佳,李娜,胡小娟,王鹏,孙爽滋. 基于粒子群优化的朴素贝叶斯改进算法[J]. 计算机工程, 2018, 44(11): 27-32,39.
[8]	石雁,李朝锋. 基于协同相似计算的查询推荐[J]. 计算机工程, 2016, 42(8): 188-193.
[9]	张晋芳,王清心,丁家满,刘彦君,黄心. 一种云计算环境下大数据动态迁移策略[J]. 计算机工程, 2016, 42(5): 13-17.
[10]	赵英,谭杨. 基于相关信息的网络流量贝叶斯分类法改进[J]. 计算机工程, 2016, 42(3): 80-83,88.
[11]	刘琦,肖仰华,汪卫. 一种面向海量中文文本的典型类属关系识别方法[J]. 计算机工程, 2015, 41(2): 26-30.
[12]	王小林,镇丽华,杨思春,邰伟鹏,郑啸. 基于增量式贝叶斯模型的中文问句分类研究[J]. 计算机工程, 2014, 40(9): 238-242.
[13]	郭云龙，潘玉斌，张泽宇，李莉. 基于证据理论的多分类器中文微博观点句识别[J]. 计算机工程, 2014, 40(4): 159-163,169.
[14]	马远坤，梁永全，刘彤，赵建立，李玉军. 一种基于数据迁移的冷启动解决算法[J]. 计算机工程, 2014, 40(4): 273-276.
[15]	李东阳, 刘鹏, 丁科, 田浪军. 基于固态硬盘的云存储分布式缓存策略[J]. 计算机工程, 2013, 39(4): 32-35.

选择文件类型/文献管理软件名称

选择包含的内容

基于冷热数据的MongoDB自动分片机制

Auto-Sharding Mechanism in MongoDB Based on Cold and Hot Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于冷热数据的MongoDB自动分片机制

Auto-Sharding Mechanism in MongoDB Based on Cold and Hot Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价