基于协调器与遗传算法的云存储数据复制策略

引用本文

魏秀然, 王峰. 基于协调器与遗传算法的云存储数据复制策略[J]. 计算机工程, 2021, 47(8), 124-130, 139. DOI: 10.19678/j.issn.1000-3428.0058521.

WEI Xiuran, WANG Feng. Data Replication Strategy of Cloud Storage Based on Coordinator and Genetic Algorithm[J]. Computer Engineering, 2021, 47(8), 124-130, 139. DOI: 10.19678/j.issn.1000-3428.0058521.

基金项目

河南省重点科技攻关项目（152102210112）；河南省教育厅科学技术研究重点项目（13A520713）；2017年国家大学生创新创业训练项目（201710466046）

作者简介

魏秀然(1975-), 女, 实验师、硕士, 主研方向为云计算、智能算法;
王峰, 副教授、硕士

文章历史

收稿日期：2020-06-02
修回日期：2020-07-22

Contents Abstract Full text Figures/Tables PDF

基于协调器与遗传算法的云存储数据复制策略

魏秀然¹ , 王峰²

1. 河南农业大学信息与管理科学学院, 郑州 450046;
2. 华北水利水电大学信息工程学院, 郑州 450045

收稿日期：2020-06-02；修回日期：2020-07-22

基金项目：河南省重点科技攻关项目（152102210112）；河南省教育厅科学技术研究重点项目（13A520713）；2017年国家大学生创新创业训练项目（201710466046）

作者简介：魏秀然(1975-), 女, 实验师、硕士, 主研方向为云计算、智能算法; 王峰, 副教授、硕士.

E-mail: weixiuran1975@21cn.com

摘要：针对云存储数据过程，结合协调器与遗传算法提出一种新的数据复制策略。在Hadoop分布式文件系统体系结构基础上构建一个用于复制管理的协调器，采用接收查询算法和遗传算法接收查询，并将其发送给合适的节点以满足用户期望的服务质量功能需求，同时考虑一个查询中数据块的物理位置以获得更好的复制参数。仿真结果表明，与目前典型的数据中心选择和动态数据复制策略以及逐步删除和添加数据副本策略相比，该数据复制策略不仅优化了系统的负荷分配，而且具有更高的可用性和更小的延迟。

Data Replication Strategy of Cloud Storage Based on Coordinator and Genetic Algorithm

WEI Xiuran¹ , WANG Feng²

1. College of Information and Management Science, Henan Agricultural University, Zhengzhou 450046, China;
2. College of Information Engineering, North China University of Water Resources and Electric Power, Zhengzhou 450045, China

Abstract: For the optimization of cloud-based data storage, this paper proposes a new data replication strategy combining with a coordinator and the Genetic Algorithm(GA). The coordinator is built based on Hadoop Distributed File System(HDFS) architecture for replication management. The GA is used along with the query receiving algorithm to receive the queries and send them to the appropriate nodes to meet users' expected Quality of Service(QoS) requirements. At the same time, the physical location of the data block in a query is considered to obtain better replication parameters. The simulation results show that, compared with the existing typical strategies for data center selection and dynamic data replication strategy, as well as the gradual data deletion and addition, this data replication strategy not only optimizes the system load allocation, but also has higher availability and less latency.

开放科学（资源服务）标志码（OSID）：

0 概述

云计算利用互联网提供计算资源和可伸缩存储^[1-2]功能，用户可以通过云计算在任何地点使用这些服务。目前不同的学科领域都使用到大量的数据，因此，云服务凭借其灵活性和透明性被广泛用于数据管理和基于数据的服务功能。对于如数据云这种大规模分布式环境，有效的数据管理是一个关键问题^[3]，这可以通过复制数据来实现。在许多学科中，数据容量以兆字节和千兆字节表示，数据复制是管理这种大数据一种有效的技术。数据复制有许多优势，如对数据的更多访问、更小的访问延迟和更高的可用性。

为获得有效的数据复制，需要解决以下2个重要问题：第1个问题是在每个数据中应生成多少副本来满足系统的需要，副本数量越大，系统存储和使用所需的空间和能量就越多，并且固定数量的副本并不是获得数据有效复制的合适选择，如Google文件系统（Google File System，GFS）、Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）、Amazon简单存储服务（Amazon Simple Storing Service，S3）等云存储系统都采用3份数据副本；第2个问题是每个副本应放置在何处，以便更快地执行任务，并确保负荷以平衡的方式分配。上述2个问题构成了数据复制问题。

现有数据复制策略大多存在数据可用性低、副本数量多、请求时延高等不足。对此，本文基于数据功能，提出一种高效的数据复制策略，在考虑服务质量（Quality of Service，QoS）功能需求的同时，还考虑一个查询中数据块的物理位置，以获得更好的复制参数，即更少的副本数量、更高的可用性和更快的响应。

1 相关工作

目前针对数据复制问题的诸多研究，较少有针对一次查询数据块的物理邻接问题，多数集中于可用性、快速响应和有效功能等参数上，为获得这些参数的最优值，应考虑用户所使用数据的物理位置。然而，很多研究忽略了需要存储的副本数量。系统中一个数据集的副本数量越大，所使用的资源（如存储容量和能量）就越多。因此，应尽量减少系统中的副本数量，以避免资源浪费。

复制在万维网（World Wide Web，WWW）^[4]、对等网络^[5]、Ad Hoc和传感器网络中的应用被得到广泛研究^[6-8]。近年来，随着诸如网格^[9]、云^[10-11]等大规模分布式系统的出现，复制已成为一个新的研究主题。

数据复制技术可分为静态和动态两大类。在静态复制中，主机的副本和节点数量是预先确定的；而在动态复制中，副本的数量和位置则根据用户的资源需求和智能访问模式的变化来确定。

文献[12]提出一种用于分布式复制的静态算法。该算法考虑了决策中的3个重要因素，首先选择一些服务提供商来承载副本，然后考虑此类服务提供商的数据副本较少，最后考虑负荷的分配，即选择服务提供商的方式是将副本分发到整个机架上。文献[13]提出的静态副本放置算法通过优化平均响应时间将副本放置到站点上，并提出一种动态副本维护算法，如果性能指标在最后K个时间段内显著下降，则将副本重新分配给新的候选站点。

文献[14]介绍各种数据中心的选择和复制策略，在此基础上提出一种数据中心选择和动态数据复制的两阶段系统模型，目的是有效提高数据的可用性，减少用户等待时间。文献[15]为实现减少能耗和缩短任务执行时间的绿色云计算目标，将遗传算法（Genetic Algorithm，GA）和蚁群算法相结合，提出一种两者动态融合的任务调度算法。该文利用遗传算法全局搜索能力强的优点寻找任务调度的较优解，并将较优解转化为蚁群的初始信息，再通过蚁群算法的蚁群信息交流和正反馈机制寻找任务调度问题的最优解。文献[16]针对移动云计算中的虚拟机（Virtual Machine，VM）调度问题，考虑无线带宽限制对VM调度的影响，以云提供商的系统效益为目标函数，根据拍卖机制提出一种带宽受限的VM动态调度（Bandwidth-constrainted VM Dynamic Scheduling，BVMDS）算法。该算法首先根据用户的出价来判定拍卖成功方，然后根据拍卖成功方对计算资源的需求来配置VM，最后采用临界支付的方式来计算拍卖成功方的实际支付价格。实验结果表明，BVMDS算法能够有效提高云提供商的系统效益和资源利用率。文献[17]提出一种动态合成协议，以高效的方式合成具有树结构的网格网络，并基于树的高度、深度和每个节点中的滑块数创建一个灵活的拓扑结构。在该协议中，为保持数据的兼容性，可以很容易地恢复读/写和写/写的行为。文献[18]引入了一种可靠经济的数据管理机制，通过控制活跃副本来减少系统中的副本数量，从而减少使用的缓存空间。文献[19]提出一种将数据项放置在最好的服务提供商中的方法，其中每个客户端都可以查阅最近的服务中心来访问其数据。文献[20]提出2个探索性算法来逐步删除和添加数据副本，同时考虑了每个查询QoS，并且通过忽略数据中心所使用的能量优化了系统的效率，但该文没有考虑系统中所使用的能量。

2 系统模型与优化目标 2.1 系统模型

本文模型的数据存储由一些集群构成，集群以高效的方式共享资源，这些资源的主要组成部分是分布式文件系统，如Hadoop分布式文件系统、Amazon S3和Google文件系统。本文将图 1所示的HDFS体系结构用于复制管理。假设每个文件由一些块构成，这些块分布在该文件系统的数据节点中，以Name节点作为复制管理中的协调器。

	Download: JPG larger image
图 1 HDFS体系结构 Fig. 1 HDFS architecture

协调器结构如图 2所示，其由位置复制管理器（Locality Replication Manager，LRM）、图目录表（Graph Directory Table，GDT）、图构造器（Graph Constructor，GC）和可用性和延迟系统（Availability and Delay System，ADS）组成。

	Download: JPG larger image
图 2 协调器结构 Fig. 2 Structure of coordinator

1）位置复制管理器（LRM）的主要任务是接收用户的查询，收集集群中数据节点的状态，最终确定放置块的最佳主机。LRM与其他组成部分协作完成这些任务，换句话说，LRM是最终的决策者。

2）图目录表（GDT）是由LRM管理的表，包括来自系统非常重要的信息，如块及其图、图中每个块的访问次数、每个图的主机以及访问每个图的最大延迟。

3）图构造器（GC）从每个查询中的可用块构建一个完整的图，并将其发送给LRM以进行放置决策。

4）当LRM发现系统没有处于与延迟和可用性有关的优先级别时，该组件将通过接收来自于LRM的消息开始工作。可用性和延迟系统（ADS）确定合适的数据节点以将图再次放置在系统中，然后将该信息发送给系统。LRM改变图的主机，并同时通过接收来自于ADS的信息来更新GDT。

下文所使用的参数符号及其含义如表 1所示。

下载CSV 表 1 参数符号及其含义 Table 1 Parameter symbols and their implications

2.2 可用性

云存储集群的第一个目标是为块及其图提供最高的可用性。假设如果B_i位于m_j的数据节点上，则判决变量θ（i，j）为1，否则为0。

将P_j确定为数据节点m_j（1≤j≤M）的可能故障，数据节点的故障是随机出现的。每个块可以存在于多个查询中，每个查询被视为是一个完整的图，且分布在多个节点上。如果一个节点（块）在图（查询）中不可用，则块就不可用，当一个图的所有块不可用时，则一个图就不可用。因此，系统中可用块可用的概率为：

$ P\left({B}_{i}\right)=1-\prod\limits_{j=1}^{M}\theta (i, j)\cdot {P}_{j} $

(1)

由于一个图中全部块的可用性比一个块的可用性更重要，因此一个图（查询）的可用性表示为：

$ P\left({G}_{k}\right)=\prod\limits_{i=1}^{\left|{G}_{k}\right|}P\left({B}_{i}\right) $

(2)

2.3 延迟

最小化每个存储系统的延迟是云存储数据过程中的关键问题，这个延迟取决于存储盘的带宽和传输速率。因此，如果将这些块放置在具有最大带宽和较高传输速率的数据节点上，则数据访问延迟较小。由于每个块都有多个副本，因此B_i的延迟计算为：

$ {\stackrel{-}{L}}_{{B}_{i}}=\frac{1}{r}\sum\limits_{j=1}^{M}\left(\theta \right(i, j)\cdot A(i, j)) $

(3)

其中，A（i，j）是由数据节点m_j中的带宽和数据传输引起的延迟。

由于一组块的延迟（查询图）比一个块的延迟更重要，因此有：

$ {\stackrel{-}{L}}_{{G}_{k}}=\frac{1}{\left|{G}_{k}\right|}\sum\limits_{i=1}^{\left|{G}_{k}\right|}{\stackrel{-}{L}}_{{B}_{i}} $

(4)

2.4 目标函数

本文设计的目标函数如下：

$ \mathrm{m}\mathrm{a}\mathrm{x}\left[\right(Q\left(\mathrm{i}\mathrm{n}{\mathrm{q}}_{i}\right)-{\stackrel{-}{L}}_{{G}_{\mathrm{n}\mathrm{e}\mathrm{w}}})+P({G}_{\mathrm{n}\mathrm{e}\mathrm{w}})+\\ \ \ \ \ \ \ \ \left|S\left({G}_{\mathrm{n}\mathrm{e}\mathrm{w}}\right)\bigcap S\left({m}_{j}\right)\right|+{S}_{j}\cdot \alpha -{l}_{j}] $

(5)

首先将用户的每个查询发送到LRM，通过LRM将查询发送给GC单元，然后以完整图的形式接收结果。之后，LRM进入到复制管理阶段。为管理数据云中的复制，应执行以下2个步骤：

1）副本选择

为每个查询选择最好的副本。为选择一个副本，将用户的查询以图形的形式提交给LRM。LRM寻找一个已经有该图的节点，或者新图是否是该图中现存一个图的子集。在找到所需的节点后，采用找到的任何一个节点来检查新查询的QoS。能够满足查询图QoS的第一个节点是由LRM选取的，且由查询图引出该节点。但是，如果不存在查询图一个副本的节点，或者一个节点存在，但它的查询图不能满足其QoS，则将以如下方式工作：首先，LRM列出具有该新图一部分的全部节点，并根据它们能够满足的QoS来排列；然后，选取多个覆盖查询图中全部节点的节点，并测量出由这些节点提供的平均QoS。如果得到的平均QoS能够满足查询图的QoS，则将这些节点记录在GDT中作为新图的宿主组；如果没有任何副本选择方法可以选择一个或多个节点作为新图的宿主，则尝试副本放置。

2）副本放置

副本放置是指将副本放置在最佳数据节点中。如果LRM采用副本选择方法无法找到查询的QoS节点，则从满足式（5）的其他节点中选择一个节点。

式（5）作为本文提出的目标函数，有2个值得注意的项，分别是S_j∙α–l_j和$ \mathrm{Q}\mathrm{o}\mathrm{S}\left(\mathrm{r}\mathrm{e}{\mathrm{q}}_{i}\right)-{\stackrel{-}{L}}_{{G}_{\mathrm{n}\mathrm{e}\mathrm{w}}} $。S_j∙α–l_j可使负荷分布在数据云中得到平衡，$ \mathrm{Q}\mathrm{o}\mathrm{S}\left(\mathrm{r}\mathrm{e}{\mathrm{q}}_{i}\right)-{\stackrel{-}{L}}_{{G}_{\mathrm{n}\mathrm{e}\mathrm{w}}} $则选择一个能够满足查询图的QoS的节点，并将其作为最大容许延迟。通过式（5）中的S（G_new）$ \bigcap $S（m_j）项，选择一个节点作为查询图的放置，且该节点与目标图有最大的共性。采用这一项可使来自每个块的现有副本数量达到最小。

3 数据复制策略的实现

上述分析表明，LRM是数据复制管理的核心，其主要目标为：1）接收查询并将其发送给合适的节点，以满足用户期望的质量；2）考虑系统的可用性和延迟，并将其保持在期望的水平。本节将介绍具体实现过程。

3.1 发送查询的合适节点

查找要发送查询的合适节点的具体过程如算法1所示。

算法1 查找要发送查询的合适节点

输入 b个块的文件f

输出物理节点上基于QoS的分布式副本

1.在物理节点上随机分配文件f的b个块；

2.for每个输入查询inq_i do；

3.协调器接收inq_i；

4.生成inq_i的图G_new；

5.搜索t=G_new（G_new的一部分）的S（M）中的一个节点（或一组节点）；

6.满足GDT中的QoS（inq_i）；

7.if t！=Ø then

8.if t是一个节点then

9.协调器将inq_i重定向到t；

10.else t是几个节点then

11.协调器基于支持的QoS对t进行非递减排序；

12.S=Ø；

13.while S中的节点不承载G_new do

14.S=S∪（t的第一个节点）；

15.end while

16.if平均QoS（s）满足QoS（inq_i）then

17.将s记录在协调器中；

18.end if

19.end if

20.协调器更改DGT中G中每个节点（块）的访问字段；

21.协调器删除访问字段为零的G和t中的每个节点；

22.副本删除，但除主要版本的最后一个副本外；

23.else

24.协调器位于物理节点中的G_new中的每个节点的新副本中；

25.根据式（5）计算最小值；

26.协调器将一个G_new记录在GDT中；

27.end if

28.end if

算法1将文件块随机放置在物理节点上，在接收到块的每个查询后，执行以下步骤：

协调器首先接收查询，然后为其生成一个新图（G_new）。协调器在GDT中查找一个节点或一组节点，其中GDT包括图或图的一部分，并能满足查询的QoS（算法第5行和第6行）。此搜索结果可以是一个节点或一组节点，如果搜索的结果是一个节点（算法第8行和第10行），则协调器将查询引导到该节点，如果结果是一组节点（算法第10行~第16行），则协调器首先基于它们能满足的QoS按升序排列它们，然后从列表的开始选择节点，直至物理节点覆盖全部新图的节点。

在覆盖全部图节点后，如果选择节点的平均QoS能够满足查询的QoS，则将这组物理节点记录为协调器中新图的宿主。选择副本后，最后一步是更改图中节点的访问字段，并删去副本（算法第20行~第22行）。由于对图的访问不同，有可能一些节点被访问得较多，一些节点被访问得较少，而一些节点从不被访问。协调器中每个节点的访问字段随对该节点的每次访问而增加，而且没有任何访问会导致该字段减小，以至于当该字段为0时，则意味着该节点在图访问中无效，且应当由协调器从图中删去。在删除副本之前，协调器检查块是否是原始块的最后一个副本，如果是，则协调器将阻止删除该块。图 3所示为发送一个查询给LRM、创建查询的一个图和删除副本的示例。

	Download: JPG larger image
图 3 GDT管理示例 Fig. 3 Example of GDT management

如果协调器不能从云中现有的图中找到任何图（算法第5行和第6行），则它将来自于图中的每个现有块的一个新副本放置在节点上，以使式（5）最小化。在找到节点后，将新图与相关节点一起记录在协调器中（算法第24行~第26行）。

3.2 系统的可用性和延迟

为将系统的可用性和延迟保持在期望水平，如果查询的δ中不符合目标QoS，则LRM命令ADS重新构建系统。重构意味着再次将图查询放置在物理节点上，以使系统的可用性和延迟保持在期望的水平上。ADS还通过接收这个命令来响应算法2。从算法2可以看出，ADS采用了遗传互补算法来实现这一目标。

算法2 将系统的可用性和延迟保持在期望的水平

输入请求块的种群数量G，物理节点数N，最大代数Gens，当前代数t

输出近似最优匹配G→N

1.Φ_t=随机生成初始种群；

2.while（t < Gens）；

3.基于式（6）计算Φ_t中各每个个体的适应性；

4.Φ_temp=基于其适应性最高的Q个个体；

5.Φ_t+1=Q中基于适应性最高的Q-L个个体；

6.Φ_t+1=Φ_t+1$ \bigcup $（采用两点交叉方式从Q中交叉得到的L个剩余个体）；

7.Φ_t+1=Φ_t+1$ \bigcup $（随机生成的K个体）；

8.Φ_t+1=变异（Φ_t+1）；

9.t=t+1

10.end while

遗传算法在大量的数据空间中反复搜索以获得接近最优的解，其中每个可能解都是以染色体的形式编码的。把这组染色体称为“种群”。首先形成一个初始种群，这个初始种群是随机构建的，在初始种群形成之后，开始选择步骤。在选择中，根据染色体的质量为下一个种群选择或丢弃染色体，下一步就是“交叉”。在这一步中，从种群中选择多对染色体，并对它们的一些参数进行交换，以创建一对有效的染色体。“交叉”之后就是“变异”。在“变异”中，每个染色体从种群中变成一个有效的染色体。在这些步骤之后，对新的种群进行检查，通过目标函数为每个染色体分配一个合适的值，目标是寻找一个最优适应值的染色体。如果该值不满足，则重复上述步骤，以生成新的种群。这样的过程一直持续到找到该值为止。下文给出使用遗传算法的具体步骤和方法。

3.2.1 编码

生成每个染色体的编码实现如图 4所示。一个染色体是为有限数量的图和物理节点而生成的，并表示为一组整数。

	Download: JPG larger image
图 4 从物理节点和图生成染色体的编码实现 Fig. 4 Coding implementation of creation of a chromosome from physical nodes and graphs

3.2.2 目标函数和选择

染色体的适应性取决于种群中的选择，如式（6）所示，该式表明了整个云系统的延迟与可用性之比。

$ \mathrm{m}\mathrm{i}\mathrm{n}\{{\stackrel{-}{L}}_{\mathrm{s}}/P(S\left)\right\} $

(6)

$ \left\{\begin{array}{l}P\left(S\right)=\prod\limits_{i=1}^{\left|G\right|}P\left({G}_{i}\right)\\ {\stackrel{-}{L}}_{\mathrm{s}}=\frac{1}{\left|G\right|}\sum\limits_{i=1}^{\left|G\right|}{\stackrel{-}{L}}_{{G}_{i}}\end{array}\right. $

如果Q是初始种群中染色体的总数量，则有最高适应性的Q-K个染色体根据一些条件来选择并传递到下一个种群。下一个种群的K个染色体是随机生成的，以防止快速收敛的出现，并避免陷入局部极小。

3.2.3 交叉

从下一代选择的Q-K个染色体中，通过交叉将L个染色体（L < N-K）传递到新的种群（N为物理节点数目）。如图 5所示，在两点交叉中，随机选择2个指标，而且两个染色体之间的内容发生了交换。

	Download: JPG larger image
图 5 两点交叉示意图 Fig. 5 Schematic diagram of two-point cross-over

3.2.4 变异

变异步骤是在传递率为0.5时完成的。为变异步骤选择的每个指标的记录（表示图的物理节点）被替换为另一个随机获取的物理节点。

3.2.5 遗传算法

算法2给出了遗传算法所需的全部步骤，用于将系统的可用性和延迟保持在期望的水平。

4 仿真与性能评价

仿真中将文献[14, 20]中2种典型的数据复制策略与本文提出的复制策略在多个性能指标上进行比较。

表 2所示为数据节点中采用的配置、采用的算法和输入到系统的查询，设置25个节点，其中一些节点随机放置在机架上。假设数据云遵循“一次写，多次读”的策略。

下载CSV 表 2 LRM的配置 Table 2 LRM configuration

图 6所示为3种策略的复制因子（代表副本数量）与块数量的关系。可以看出，本文策略在不同块数量的情况下得到的副本数量均小于其他2种策略，这主要是由于本文策略采用了图构造器，使其从每个查询中的可用块构建一个完整的图，并选择一个节点作为查询图的放置，且该节点与目标图有最大的共性，从而使得来自每个块的现有副本数量达到最小。这样不仅可以优化资源使用，而且还能提高数据云系统的效率。

	Download: JPG larger image
图 6 不同策略的复制因子 Fig. 6 Replication factors of different strategies

图 7所示为3种策略的访问节点数目与考虑请求块的位置特征，即请求块数量的关系。可以看出，随着动态查询数量的增加，3种策略的访问节点数都随之增加，但本文策略访问的物理节点数的增加要小得多，这是因为本文策略将查询视为一个完整的图，且考虑了图和图中每个块的访问次数、以及访问每个图和图中每个块的最大延迟。这也意味着则查询的速度越快，延迟越小。

	Download: JPG larger image
图 7 不同策略访问的物理节点数 Fig. 7 Number of physical nodes accessed by different strategies

图 8所示为在固定查询数量时负荷分配与块数量的关系。可以看出，与其他2种策略相比，本文策略获得的负荷分配更具鲁棒性，这是由于本文策略采用LRM来接收用户的查询和收集集群中数据节点的状态，其他组成部分协作完成这些任务，以更均匀的方式分配负荷。

	Download: JPG larger image
图 8 不同策略物理节点的负荷分配 Fig. 8 Load allocation of physical nodes in different strategies

图 9所示为3种策略的可用性与块数量的关系。可以看出，当系统中负荷变化时，本文策略考虑了系统中可用块可用的概率以及图（查询）的可用性，所以在可用性方面的性能要分别优于文献[14, 20]策略约12.3%和14.5%。

	Download: JPG larger image
图 9 不同策略系统的平均可用率 Fig. 9 Average system availability in different strategies

图 10所示为3种策略在满足请求时的平均延迟与块数量的关系。由于本文策略将这些可用块放置在具有最大带宽和较高传输速率的数据节点上，并考虑每个块的副本数，所以数据访问有较小的延迟，从而降低了整个系统的延迟，显然，与文献[14, 20]策略相比，分别降低了约30.5%和18.3%。

	Download: JPG larger image
图 10 不同策略在满足请求时的平均延迟 Fig. 10 Average delay of different strategies when meeting requests

5 结束语

本文研究数据云文件中块的复制管理问题，提出一种高效的数据复制策略，将Hadoop分布式文件体系结构用于复制管理。以“Name节点”作为复制管理中的协调器，通过为块复制提供一个高效的管理器来优化系统中的资源分配、可用性、延迟等因素，并基于数据块的可用性和存储系统的延迟建立目标函数，采用遗传算法进行实现。实验结果表明，本文策略可有效提高系统的资源和能量使用、可用性、延迟等方面性能。下一步将针对不同的成本模型研究在线数据移动方法，以应对访问块模式中的动态变化。

参考文献

[1]	WANG Y D, YANG J H, XU C, et al. Survey on access control technologies for cloud computing[J]. Journal of Software, 2015, 26(5): 1129-1150. (in Chinese) 王于丁, 杨家海, 徐聪, 等. 云计算访问控制技术研究综述[J]. 软件学报, 2015, 26(5): 1129-1150.
[2]	CHEN H K, ZHU J H, ZHU X M, et al. Resource-delay-aware scheduling for real-time tasks in clouds[J]. Journal of Computer Research and Development, 2017, 54(2): 446-456. (in Chinese) 陈黄科, 祝江汉, 朱晓敏, 等. 云计算中资源延迟感知的实时任务调度方法[J]. 计算机研究与发展, 2017, 54(2): 446-456.
[3]	WANG Y C. Loss restoration method of scattered defect information based on big data analysis[J]. Journal of Jilin University(Science Edition), 2020, 58(3): 645-650. (in Chinese) 王雅超. 基于大数据分析的散乱缺损信息无损恢复方法[J]. 吉林大学学报(理学版), 2020, 58(3): 45-650.
[4]	KOLISCH R, DAHLMANN A. The dynamic replica placement problem with service levels in content delivery networks: a model and a simulated annealing heuristic[J]. Operations Research-Spektrum, 2015, 37(1): 217-242. DOI:10.1007/s00291-013-0358-z
[5]	ZHANG Y X, ZHANG H K. A load balancing method in superlayer of hierarchical dht-based P2P network[J]. Chinese Journal of Computers, 2010, 33(9): 1580-1590. (in Chinese) 张宇翔, 张宏科. 一种层次结构化P2P网络中的负载均衡方法[J]. 计算机学报, 2010, 33(9): 1580-1590.
[6]	SASAKI Y, HARA T, ISHIKAWA Y. Top-k query processing with replication strategy in mobile Ad Hoc Networks[C]//Proceedings of the 19th IEEE International Conference on Mobile Data Management. Washington D.C., USA: IEEE Press, 2018: 217-226.
[7]	XU R. Research on resource allocation strategy of wireless sensor network based on cloud computing[J]. Journal of Daqing Normal University, 2017, 37(6): 28-33. (in Chinese) 徐荣. 基于云计算的无线传感网络资源分配策略研究[J]. 大庆师范学院学报, 2017, 37(6): 28-33.
[8]	YI Q, WANG J. Research on data storage strategy in wireless sensor networks deployed in challenging environments[J]. Computer Technology and Development, 2015, 25(11): 139-144. (in Chinese) 易琼, 王珺. 恶劣环境下无线传感器网络数据存储策略研究[J]. 计算机技术与发展, 2015, 25(11): 139-144.
[9]	MAHATO D P, SINGH R S. On maximizing reliability of grid transaction processing system considering balanced task allocation using social spider optimization[J]. Swarm and Evolutionary Computation, 2018, 38: 202-217. DOI:10.1016/j.swevo.2017.07.011
[10]	NAVNEET KAUR G, SARBJEET S. A dynamic, cost-aware, optimized data replication strategy for heterogeneous cloud data centers[J]. Future Generation Computer Systems, 2016, 65: 10-32. DOI:10.1016/j.future.2016.05.016
[11]	HAN Y, WANG J Y, TAN Y S. Trust model for user behavior in cloud computing environment[J]. Journal of Nanjing University of Posts and Telecommunications(Natural Science), 2016, 36(1): 104-110. (in Chinese) 韩艳, 王静宇, 谭跃生. 云计算环境下网格用户行为信任模型研究[J]. 南京邮电大学学报(自然科学版), 2016, 36(1): 104-110.
[12]	LI B, WANG M D, ZHAO Y X, et al. Modeling and verifying Google file system[C]//Proceedings of the 16th IEEE International Symposium on High Assurance Systems Engineering. Washington D.C., USA: IEEE Press, 2015: 207-214.
[13]	TSAI J C, LIU J S, CHANG T Y. Optimality of a simple replica placement strategy for chord Peer-to-Peer networks[J]. IEICE Transactions on Communications, 2017, 100(4): 557-565.
[14]	JAYALAKSHMI D S, RASHMI R T P, SRINIVASAN R. Dynamic data replication strategy in cloud environments[C]//Proceedings of the 5th International Conference on Advances in Computing and Communications. Kochi, India: [s. n. ], 2015: 102-105.
[15]	QIN J, SUN M, FENG L L. A task scheduling algorithm for green cloud computing[J]. Computer Technology and Development, 2017, 27(8): 92-96. (in Chinese) 秦军, 孙蒙, 冯亮亮. 一种面向绿色云计算的任务调度算法[J]. 计算机技术与发展, 2017, 27(8): 92-96. DOI:10.3969/j.issn.1673-629X.2017.08.019
[16]	LIU X, YUAN C W, YANG Z, et al. VM dynamic scheduling algorithm for mobile cloud computing[J]. Systems Engineering and Electronics, 2015, 37(9): 2176-2181. (in Chinese) 柳兴, 袁超伟, 杨震, 等. 面向移动云计算的VM动态调度算法[J]. 系统工程与电子技术, 2015, 37(9): 2176-2181.
[17]	LIN Z Y, XU Z M, HU D, et al. Hybrid spatial data model for indoor space: combined topology and grid[J]. ISPRS International Journal of Geo-Information, 2017, 6(11): 343-350. DOI:10.3390/ijgi6110343
[18]	YANG Y, YUAN D LI W H. Ensuring cloud data reliability with minimum replication by proactive replica checking[J]. IEEE Transactions on Computers, 2016, 65(5): 1494-1506. DOI:10.1109/TC.2015.2451644
[19]	URAS T, RIAD M, ABDELKADER H, et al. Dynamic replication strategies in data grid systems: a survey[J]. The Journal of Supercomputing, 2015, 71(11): 4116-4140. DOI:10.1007/s11227-015-1508-7
[20]	NIU X J. Fine-grained access control scheme based on cloud storage[C]//Proceedings of 2017 International Conference on Computer Network. Washington D.C., USA: IEEE Press, 2017: 512-515.

	Download: JPG larger image
图 1 HDFS体系结构 Fig. 1 HDFS architecture

	Download: JPG larger image
图 2 协调器结构 Fig. 2 Structure of coordinator

下载CSV 表 1 参数符号及其含义 Table 1 Parameter symbols and their implications

	Download: JPG larger image
图 3 GDT管理示例 Fig. 3 Example of GDT management

	Download: JPG larger image
图 4 从物理节点和图生成染色体的编码实现 Fig. 4 Coding implementation of creation of a chromosome from physical nodes and graphs

	Download: JPG larger image
图 5 两点交叉示意图 Fig. 5 Schematic diagram of two-point cross-over

下载CSV 表 2 LRM的配置 Table 2 LRM configuration

	Download: JPG larger image
图 6 不同策略的复制因子 Fig. 6 Replication factors of different strategies

	Download: JPG larger image
图 7 不同策略访问的物理节点数 Fig. 7 Number of physical nodes accessed by different strategies

	Download: JPG larger image
图 8 不同策略物理节点的负荷分配 Fig. 8 Load allocation of physical nodes in different strategies

	Download: JPG larger image
图 9 不同策略系统的平均可用率 Fig. 9 Average system availability in different strategies

	Download: JPG larger image
图 10 不同策略在满足请求时的平均延迟 Fig. 10 Average delay of different strategies when meeting requests

返回顶部