计算机工程 ›› 2019, Vol. 45 ›› Issue (11): 47-53.doi: 10.19678/j.issn.1000-3428.0054487

• 先进计算与数据处理 • 上一篇    下一篇

基于MapReduce的时间序列索引与批量查询技术

陈军晓1,2, 李中升3, 刘逸敏1, 李秋虹4, 汪卫4   

  1. 1. 上海东方肝胆外科医院 信息科, 上海 200438;
    2. 海军军医大学 研究生四大队, 上海 200433;
    3. 江南计算技术研究所, 江苏 无锡 214081;
    4. 复旦大学 计算机学院, 上海 201203
  • 收稿日期:2019-04-03 修回日期:2019-06-26 发布日期:2019-08-06
  • 作者简介:陈军晓(1990-),男,硕士研究生,主研方向为医疗数据分析、大数据应用;李中升,高级工程师;刘逸敏(通信作者),主任技师;李秋虹,讲师;汪卫,教授。
  • 基金项目:
    国家自然科学基金"面向工业应用的大数据分析理论与关键技术"(U1509213);国家人口与健康科学数据共享服务平台肝肿瘤信息资源专题服务项目(NCMI-SFS14-201806)。

Time Series Index and Batch Query Technology Based on MapReduce

CHEN Junxiao1,2, LI Zhongsheng3, LIU Yimin1, LI Qiuhong4, WANG Wei4   

  1. 1. Department of Information, Shanghai Eastern Hepatobiliary Surgery Hospital, Shanghai 200438, China;
    2. Forth Team of Postgraduates, Naval Medical University, Shanghai 200433, China;
    3. Jiangnan Institute of Computing Technology, Wuxi, Jiangsu 214081, China;
    4. School of Computer Science, Fudan University, Shanghai 201203, China
  • Received:2019-04-03 Revised:2019-06-26 Published:2019-08-06

摘要: 针对基于不平衡树的时间序列索引对海量时间序列数据查询性能较差的问题,提出一种基于MapReduce的DB-DSTree索引。利用平衡的时间序列索引DHD作为路由树创建分布式的DSTree,并充分挖掘批量查询中的数据局部性,将相似的查询路由到局部节点上,以改善DSTree索引的非平衡性。实验结果表明,DB-DSTree索引的平衡性和局部性较好,可减少子树的查询范围和磁盘I/O次数,提高查询效率。

关键词: 时间序列, 相似性查询, 下界, MapReduce模型, 索引

Abstract: To address the problem of poor performance of massive time series data query based on time series index of unbalanced tree,a DB-DSTree index based on MapReduce is proposed.The balanced time series index DHD is used as a routing tree to create a distributed DSTree,and the data locality in batch queries is fully mined.Similar queries are routed to local nodes to improve the non-balance property of DSTree index.Experimental results show that DB-DSTree index has good balance and locality,it can reduce the query range of subtree and I/O time of disks,and improve the query efficiency.

Key words: time series, similarity query, lower bound, MapReduce model, index

中图分类号: