2. 上海大学 特种光纤与光接入网重点实验室, 上海 200444;
3. 上海大学 特种光纤与先进通信国际合作联合实验室, 上海 200444
2. Key Laboratory of Specialty Fiber Optics and Optical Access Networks, Shanghai University, Shanghai 200444, China;
3. Joint International Research Laboratory of Specialty Fiber Optics and Advanced Communication, Shanghai University, Shanghai 200444, China
随着智能终端数量的急剧增加和网络流量的指数级增长,目前蜂窝网络对网络容量和用户速率的需求面临着巨大挑战。超密集异构网络[1]作为5G移动通信的关键技术之一,可有效提高网络覆盖率和网络容量。由于基站的密集部署将会产生严重的干扰和能耗问题,从而导致网络性能下降[2],致使用户网络服务质量(Quality of Service,QoS)无法得到有效保障。
超密集网络中的资源分配策略会影响网络性能和用户体验,针对异构网络和超密集网络中的资源分配问题已有广泛研究。文献[3-4]利用随机几何分析系统能效(Energy Efficient,EE)与基站(Base Stations,BSs)密度之间的关系。文献[5]提出利用联合功率控制和用户调度的策略对网络能效进行优化。文献[6]提出了基于分簇的高能效资源管理方案,并阐述了资源分配和功率分配分阶段优化方法可实现能效优化。文献[7]通过联合考虑功率分配及负载感知来优化网络能效。文献[8]考虑了用户QoS需求并对网络能效进行分析。上述研究主要是通过传统的优化算法对网络能效进行优化。而在超密集网络中,基站数量的增加使得上述算法的复杂度将会急剧增大。为降低算法的计算复杂度,基于强化学习的无线资源分配策略受到了广泛关注。
文献[9-11]表明,无模型强化学习框架可用来解决无线网络中的动态资源分配问题。文献[12]利用强化学习框架对网络的功率分配进行优化,在提升网络容量的同时保障了用户QoS。然而在超密集网络中,网络规模庞大且结构复杂,基于Q-学习的资源分配算法存在动作状态空间的爆炸问题,使得基于Q-学习的资源分配算法收敛缓慢且难以找到最优解。而深度强化学习(Deep Reinforcement Learning,DRL)作为一种新兴工具可有效克服上述问题。利用DRL进行资源分配具有允许网络实体学习和构建关于通信和网络环境的知识、提供自主决策以及学习速度快等优点。因此,DRL适合解决超密集网络中具有较大状态和动作空间的复杂资源管理优化分配问题。在目前基于DRL的无线通信网络资源管理研究中,多数采用的是深度Q-学习网络(Deep Q-learning Network,DQN)。DQN是一种新的DRL算法[13],其通过将RL与深度神经网络相结合[14]来解决Q-学习的局限性。文献[15]在多小区网络中利用深度强化学习框架对基站功率进行控制,实现了网络容量的优化。文献[16]采用DQN优化小型基站的ON/OFF策略,以有效提高能源效率。文献[17]阐述了基于DQN的频谱资源分配,以实现网络能效和频谱效率的平衡。在超密集网络中,基于DRL框架对网络能效进行优化时多数是通过对单一资源控制而实现的,且很少考虑满足用户的QoS需求。因此,本文研究基于DRL的资源分配和功率控制联合优化问题,并考虑用户的QoS需求,以实现网络能效的进一步提升。
1 系统模型及优化问题 1.1 系统模型本文考虑由一个宏基站和N个毫微基站(Femto Base Station,FBS)组成的超密集异构网络下行链路场景,如图 1所示。宏基站作为整个网络的信息中心可收集整个网络的信息,并决定整个网络的资源块分配和功率控制策略。宏基站和各个毫微基站之间共享整个频率资源。同一时刻,每个用户设备(User Equipment,UE)只能与一个基站相关联,而宏用户之间及各个毫微基站内用户之间使用正交频谱资源。宏用户设备(Macro User Equipment,MUE)与毫微用户设备(Femto User Equipment,FUE)之间及不同毫微基站下的毫微用户之间均可使用相同的频谱资源。
![]() |
Download:
|
图 1 超密集网络场景示意图 Fig. 1 Schematic diagram of ultra-dense network scenario |
在超密集异构网络中,FBS的集合可表示为
$ \mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{\mathrm{m}, l, k}^{t}=\frac{{p}_{\mathrm{m}, l}^{t}{h}_{\mathrm{m}, l, k}^{t}}{\sum\limits_{i\in A}{p}_{\mathrm{f}, i, l}^{t}{h}_{\mathrm{f}, i, l, k}^{t}+{\sigma }^{2}} $ | (1) |
其中,
同理,毫微用户会受到宏基站和毫微基站的干扰。在时隙
$ \mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{\mathrm{f}, i, l, k}^{t}=\frac{{p}_{\mathrm{f}, i, l}^{t}{h}_{\mathrm{f}, i, l, k}^{t}}{{p}_{\mathrm{m}, l}^{t}{h}_{\mathrm{m}, l, k}^{t}+\sum\limits_{i\ne j, j\in A}{p}_{\mathrm{f}, j, l}^{t}{h}_{\mathrm{f}, j, l, k}^{t}+{\sigma }^{2}} $ | (2) |
因此通过香农公式可得到在资源块
$ {R}_{\mathrm{m}, l, k}^{t}=W\mathrm{l}\mathrm{b}(1+\mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{\mathrm{m}, l, k}^{t}) $ | (3) |
$ {R}_{\mathrm{f}, i, l, k}^{t}=W\mathrm{l}\mathrm{b}(1+\mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{\mathrm{f}, i, l, k}^{t}) $ | (4) |
其中,
$ {R}_{\mathrm{m}, k}^{t}=\sum\limits_{l\in B}{x}_{\mathrm{m}, l, k}^{t}W\mathrm{l}\mathrm{b}(1+\mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{\mathrm{m}, l, k}^{t}) $ | (5) |
$ {R}_{\mathrm{f}, i, k}^{t}=\sum\limits_{l\in B}{x}_{\mathrm{f}, i, l, k}^{t}W\mathrm{l}\mathrm{b}(1+\mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{\mathrm{f}, i, l, k}^{t}) $ | (6) |
总的系统容量可表示为:
$ {R}^{t}=\sum\limits_{k\in {\boldsymbol{U}}_{m}^{t}}\sum\limits_{l\in B}{R}_{\mathrm{m}, l, k}^{t}+\sum\limits_{i\in A}\sum\limits_{k\in {\boldsymbol{U}}_{i}^{t}}\sum\limits_{l\in B}{R}_{\mathrm{f}, i, l.k}^{t} $ | (7) |
每个基站的功率包括发射功率和电路固定运行功率两个部分。本文定义毫微基站的发射功率集合为
$ {P}^{t}=\sum\limits_{k\in {\boldsymbol{U}}_{\mathrm{m}}^{t}}\sum\limits_{l\in B}{x}_{\mathrm{m}, l, k}^{t}{P}_{\mathrm{m}, l}^{t}+{P}_{\mathrm{m}, c}+\sum\limits_{i\in A}\sum\limits_{k\in {\boldsymbol{U}}_{i}^{t}}\sum\limits_{l\in B}{x}_{\mathrm{f}, i, l.k}^{t}{P}_{\mathrm{f}, i, l}^{t}+{P}_{\mathrm{f}, c} $ | (8) |
其中,
在时隙
$ \mathrm{E}{\mathrm{E}}^{t}=\frac{{R}^{t}}{{P}^{t}} $ | (9) |
根据文献[19],用户
$ {D}_{i}^{t}=\sum\limits_{k\in {U}_{i}^{t}}\frac{M}{{R}_{\mathrm{f}, i, k}^{t}} $ | (10) |
在时隙
$ {D}^{t}=\sum\limits_{i\in A}{D}_{i}^{t} $ | (11) |
为联合优化网络能源效率及用户服务质量,效用函数可定义为:
$ \eta \left(t\right)=\varepsilon \mathrm{E}{\mathrm{E}}^{t}-(1-\varepsilon ){D}^{t} $ | (12) |
同时考虑能源效率和QoS,其中,
$ \begin{array}{l}\eta \left(t\right)=\varepsilon \mathrm{E}{\mathrm{E}}^{t}-(1-\varepsilon ){D}^{t}\\ \mathrm{s}.\mathrm{t}.\mathrm{C}1:{x}_{m, l, k}^{t}=\left\{\mathrm{0, 1}\right\}\mathrm{ }, \forall t, \forall l\in B\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{C}2:{x}_{f, i, l, k}^{t}=\left\{\mathrm{0, 1}\right\}, \forall t, \forall i\in A, \forall l\in B\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{C}3:{P}_{m, l, k}^{t}>0, \forall t, \forall l\in B\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{C}4:{P}_{f, i, l, k}^{t}>0, \forall t, \forall i\in A, \forall l\in B\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{C}5:\sum\limits_{k\in {U}_{m}}\sum\limits_{l\in B}{P}_{m, l, k}^{t}\le {P}_{m}^{t}, \forall t\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\sum\limits_{\mathrm{k}\in {U}_{f, i}}\sum\limits_{l\in B}{P}_{f, i, l, k}^{t}\le {P}_{f, i}^{t}, \forall t, \forall i\in A\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{C}6:\sum\limits_{k\in {\boldsymbol{U}}_{m}}{x}_{m, l, k}^{t}\le 1, \sum\limits_{k\in {U}_{f, i}}{x}_{f, i, l, k}^{t}\le 1, \forall t, \forall i\in A\end{array} $ | (13) |
其中,
上述UDN场景下的联合资源分配问题可表示为马尔科夫决策过程(Markov Decision Processes,MDP)。采用强化学习技术可有效解决MDP问题,然而超密集网络规模庞大且拓扑结构复杂,使得算法的计算复杂度难以控制。DRL作为强化学习的升级,网络实体经过不断交互可学习和构建关于网络环境的知识,并进行自主决策,同时DNN的引入可大幅提高学习速度,在具有较大状态和动作空间的优化问题求解上有显著优势。因此,本文提出基于DRL的联合资源分配框架以优化网络能效。本节首先给出了强化学习的基本要素,并分别定义了联合资源分配和功率控制的状态、动作空间以及回报函数。其次提出了集中式的DRL算法以解决上述联合资源分配和功率控制的优化问题。
2.1 强化学习基本要素在强化学习问题中,智能体(代理)基于策略选择动作与环境进行交互。强化学习框架中有状态空间、动作和回报3个要素。针对本文考虑的超密集异构网络以宏基站作为智能体,定义了基于强化学习框架的状态空间、动作和回报。具体描述如下:
1)状态空间:动作的选择由智能体决定,因此智能体需要整个网络信息。为了保证用户的QoS,同时优化网络能效,智能体需要获取网络中用户的QoS需求、时延、占用RB及各个基站功率等信息。则在时隙
$ {s}_{t}=\{{\boldsymbol{M}}^{t}, {\boldsymbol{D}}^{t}, {\boldsymbol{X}}_{m}^{t}, {\boldsymbol{X}}_{f}^{t}, {\boldsymbol{P}}_{f}^{t}\} $ | (14) |
2)动作空间:为联合优化资源分配和功率控制,智能体需要决定每个用户的RB分配情况和毫微基站的发射功率。同时为了减少动作空间的大小,对基站的发射功率进行离散化并分为
$ \begin{array}{l}{a}_{t}=\left\{\right\{{\boldsymbol{X}}_{m, l, k}^{t}\in \left\{\mathrm{0, 1}\right\}|k\in {\boldsymbol{U}}_{m, }^{t}l\in B\}, \\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\{{\boldsymbol{X}}_{f, i, l, k}^{t}\in \{\mathrm{0, 1}\left\}\right|i\in A, k\in {\boldsymbol{U}}_{f, i}^{t}, l\in B\}, \\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\{{\boldsymbol{P}}_{f, i}^{t}={P}_{s}|i\in A, s=\mathrm{1, 2}, \cdots , S\left\}\right\}\end{array} $ | (15) |
动作空间随基站的增加呈指数级增长,动作空间的爆炸将是一个重要且困难的问题。每个动作都影响一个状态,这意味着状态空间的数量也很大。
3)回报函数:回报奖励代表框架的目标。为优化网络能效并同时保证用户的QoS,本文将优化问题式(13)作为最终优化目标。因此,回报函数可定义为:
$ {r}_{t}=\eta \left(t\right)=\eta \left(t\right|{s}_{t}, {a}_{t}) $ | (16) |
智能体的目标是学习一个选择策略
$ {V}^{\pi }({s}_{t}, {a}_{t})={E}_{\pi }\left[\sum\limits_{t=1}^{T}{\lambda }^{t}\eta \left(t\right|s={s}_{t}, a={a}_{t})\right] $ | (17) |
其中,
强化学习的目标是通过在线训练找到最优选择策略
$ Q({s}_{t}, {a}_{t})=(1-\alpha )Q({s}_{t}, {a}_{t})+\alpha [{r}_{t}+\lambda \underset{{a}_{t+1}}{\mathrm{m}\mathrm{a}\mathrm{x}}Q({s}_{t+1}, {a}_{t+1}\left)\right] $ | (18) |
其中,
在超密集异构网络中,由于基站密集部署且网络环境更加复杂,使得状态、动作空间大小随基站数量呈指数级增加,很难通过查找Q值表的方式找到最优策略。为解决在复杂环境下Q-学习状态空间较大的问题,将深度神经网络引入到RL框架中以形成深度强化学习。DQN是DRL中较为经典的方法。通过RL在线学习和DNN网络的线下训练,可有效解决状态空间爆炸问题。在DQN中,通过强化学习技术产生训练数据,再利用DNN线下训练拟合出最佳值函数
$ {\pi }^{\mathrm{*}}\left(s\right)=\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}{Q}^{\mathrm{*}}({s}_{t}, {a}_{t}|\theta ) $ | (19) |
其中,
$ \tilde{Q}({s}_{t}, {a}_{t}|{\theta }^{-})=\eta (t|s={s}_{t}, a={a}_{t})+\gamma Q({s}_{t+1}, {\pi }^{\mathrm{*}}({s}_{t+1}\left)\right|{\theta }^{-}) $ | (20) |
其中,
$ L\left(\theta \right)=E\left[\right(\tilde{Q}({s}_{t}, {a}_{t}|{\theta }^{-})-Q({s}_{t}, {a}_{t}{\left|\theta \right))}^{2}] $ | (21) |
在线学习阶段中为了防止目标策略陷入局部最优,本文在该阶段引入
在线下训练阶段,利用DNN对在线学习产生的数据进行训练,并拟合出最佳值函数。当使用非线性函数逼近器时,强化学习算法得到的平均报酬可能不稳定甚至是发散的。这是因为一个小的Q值变化可能会显著影响政策。因此,数据分布和Q值与目标值
1)固定目标Q网络。在训练过程中Q值会发生偏移。因此,如果使用一组不断变化的值来更新主深度神经网络,那么值估计可能会失控,这将导致算法不稳定。为解决该问题,本文使用目标Q网络频繁而缓慢地更新主深度神经网络的值。即在训练时只训练主深度神经网络,经过多次在线训练后将主深度神经网络的参数更新到目标Q网络中。该做法会使得目标与估计Q值间的相关性显著降低,有效提高算法的稳定性。
2)经验重放策略。在线下训练阶段中,为使学习更加稳定,本文引入了经验重放策略。该算法首先初始化回放经验
本文所提基于DQN的联合资源和功率分配算法流程如算法1所示。
算法1 基于DQN的联合资源和功率分配算法
输入 强化学习状态:用户QoS,时延,RB及功率
输出 最优策略(RB及功率分配)、能效和时延折中
1.初始化经验池
2.for
3.初始化超密集异构网络,初始状态
4.for
5.由状态
6.执行动作
7.接收下一个状态
8.存储经验
9.if
10.从经验池
11.根据式(20)计算样本目标
12.通过式(21)最小化损失函数,更新网络权重θ
13.更新选择策略
14.end
15.end
3 仿真与结果分析本节对所提算法进行仿真分析,以验证本文算法在保证用户QoS的前提下,在降低网络干扰和优化UDHN能源效率方面的有效性。在实验选择的场景中,毫微基站和宏用户都均匀地部署在覆盖区域。为了简化分析,本文设置一个毫微基站关联一个用户,同时将毫微基站的发射功率进行离散化处理,并分为3个等级,可取值为
![]() |
下载CSV 表 1 仿真参数设置 Table 1 Simulation parameters setting |
为更好地分析本文所提DQN算法的性能,实验将DQN算法与最优能效枚举算法、基于Q-学习算法及两阶段算法[6]这3种算法进行对比。图 2给出了当用户速率需求M分别为0.1、0.5、1.0时,本文所提DQN算法的网络能效随基站密度的变化情况。从图 2可以看出,当用户速率需求一定时,随着基站密度的增大,网络能效逐渐减小。当基站密度一定时,随着用户速率需求的增大,网络需要更高的发射功率满足用户需求,网络能效呈下降趋势。因此,本文所提DQN算法可以根据用户QoS动态调整网络状态,优化网络能效。
![]() |
Download:
|
图 2 不同用户速率需求下网络的总能效 Fig. 2 Total energy efficiency of the network under different user rate requirements |
网络的总能效随基站密度变化如图 3所示,此时用户的速率需求为0.5M。从图中可知,随着网络中毫微基站的密度增大,所有算法的网络整体能效都呈下降趋势。这是由于随着毫微基站数量的增加,网络干扰和能耗更加严重,导致网络性能下降。与典型的Q-学习算法及两阶段算法相比,所提DQN算法具有更好的能效,与最优的能效遍历算法比较接近。这是由于在两阶段算法中,将RB分配和功率控制分为两步分别优化,然而RB分配阶段虽然避免了一部分网络干扰,但进行功率控制时,RB分配策略已经确定,制约着整体性能的提升。随着基站密度的增大,对网络性能影响越大。在DQN中,智能体不断与环境交互,将RB的分配策略以及相应的功率分配策略同时作为网络动作优化网络性能,综合考虑了RB分配和功率分配的相互影响。智能体通过不断尝试与探索,逐步找到最佳的选择策略。同时,智能体经过DNN的训练后可根据网络环境变化自适应调整网络的资源分配策略。因此,相较于Q-学习和两阶段算法,本文算法具有更好的网络性能。由于DQN算法中加入用户QoS约束,且随着基站密度的增加网络中干扰加剧,并且需要更高的发射功率以保证用户速率,因此随着基站密度减小,本文所提DQN算法与枚举算法的差距逐渐减小。
![]() |
Download:
|
图 3 4种算法在不同基站密度下的总能效 Fig. 3 Total energy efficiency of four algorithms under different base station densities |
当用户速率需求为0.5M时,网络中用户总时延随基站密度变化如图 4所示。从图 4可以看出,本文所提DQN算法相比其他算法具有更好的总用户时延性能。随着基站密度的增加,网络中用户基数增大,网络干扰加剧,且总的用户时延逐渐增大。由于枚举算法以最优能效为优化目标,基站密度增加会导致个别用户速率下降,导致整个网络总时延增大,因此枚举算法的时延会更大。而本文所提DQN算法将用户总时延作为回报函数的一部分,通过将RB分配和功率分配策略作为执行动作对RB和功率进行联合优化,可有效降低网络干扰,保证用户速率。结合图 3和图 4可知,DQN算法在提升网络能效的同时,可有效保证用户的QoS。
![]() |
Download:
|
图 4 4种算法在不同基站密度下的用户总时延 Fig. 4 Total user delay of four algorithms under different base station density |
本文所提DQN和Q-学习算法的迭代收敛曲线如图 5所示。从图 5可以看出,算法在经过近100次迭代后逐渐收敛,且在前50次迭代中,DQN算法的表现比Q-学习算法差。这是因为在前50次迭代中,Q-学习算法可从开始的反馈中学习,而DQN算法只是随机选择动作并将反馈信息存储在回放经验池中。而在100次迭代后,DQN和Q-学习算法都趋于稳定,且DQN算法的性能比Q-学习算法好。与典型的Q-学习算法相比,本文所提DQN算法不仅收敛更快,而且具有更好的性能指标。
![]() |
Download:
|
图 5 2种算法的迭代收敛曲线 Fig. 5 Iterative convergence curves of two algorithms |
为降低超密集异构网络的同层和跨层干扰,并提高网络的能效,本文联合考虑用户QoS,提出联合RB分配和功率控制的优化问题。针对传统算法复杂度较高的问题,引入DQN框架并定义了优化网络能效和确保用户QoS的奖励函数。仿真结果表明,与典型Q-学习算法、两阶段算法及枚举算法相比,本文所提DQN算法可有效保证用户的QoS,且性能更优。下一步将研究基于多智能体的分布式资源管理问题,利用多智能协作减小网络干扰,进一步提升网络能效。
[1] |
KAMEL M, HAMOUDA W, YOUSSEF A. Ultra-dense networks: a survey[J]. IEEE Communications Surveys & Tutorials, 2016, 18(4): 2522-2545. |
[2] |
NAM W, BAI D, LEE J, et al. Advanced interference management for 5G cellular networks[J]. IEEE Communications Magazine, 2014, 52(5): 52-60. DOI:10.1109/MCOM.2014.6815893 |
[3] |
REN Qi, FAN Jiancun, LUO Xinmin, et al. Analysis of spectral and energy efficiency in ultra-dense network[C]//Proceedings of 2015 IEEE International Conference on Communication Workshop. Washington D.C., USA: IEEE Press, 2015: 2812-2817.
|
[4] |
AN Lu, ZHANG Tiankui, FENG Chunyan. Stochastic geometry based energy-efficient base station density optimization in cellular networks[C]//Proceedings of 2015 IEEE Wireless Communications and Networking Conference. Washington D.C., USA: IEEE Press, 2015: 1614-1619.
|
[5] |
SAMARAKOON S, BENNIS M, SAAD W, et al. Energy-efficient resource management in ultra dense small cell networks: a mean-field approach[C]//Proceedings of 2015 IEEE Global Communications Conference. Washington D.C., USA: IEEE Press, 2015: 1-6.
|
[6] |
LIANG Liang, WANG Wen, JIA Yunjian, et al. A cluster-based energy-efficient resource management scheme for ultra-dense networks[J]. IEEE Access, 2016, 4: 6823-6832. DOI:10.1109/ACCESS.2016.2614517 |
[7] |
WU Shie, ZENG Zhimin, XIA Hailun. Load-aware energy efficiency optimization in dense small cell networks[J]. IEEE Communications Letters, 2016, 21(2): 366-369. |
[8] |
COSKUN C C, AYANOGLU E. Energy-spectral efficiency tradeoff for heterogeneous networks with QoS constraints[C]//Proceedings of 2017 IEEE International Conference on Communications. Washington D.C., USA: IEEE Press, 2017: 1-7.
|
[9] |
GAO Yang, CHEN Shifu, LU Xin. Research on reinforcement learning technology: a review[J]. Acta Automatica Sinica, 2004, 30(1): 86-100. (in Chinese) 高阳, 陈世福, 陆鑫. 强化学习研究综述[J]. 自动化学报, 2004, 30(1): 86-100. |
[10] |
SIMSEK M, BENNIS M, CZYLWIK A. Dynamic inter-cell interference coordination in HetNets: a reinforcement learning approach[C]//Proceedings of 2012 IEEE Global Communications Conference. Washington D.C., USA: IEEE Press, 2012: 5446-5450.
|
[11] |
ZHAO Nan, LIANG Yingchang, PEI Yiyang. Dynamic contract incentive mechanism for cooperative wireless networks[J]. IEEE Transactions on Vehicular Technology, 2018, 67(11): 10970-10982. DOI:10.1109/TVT.2018.2865951 |
[12] |
AMIRI R, MEHRPOUYAN H, FRIDMAN L, et al. A machine learning approach for power allocation in HetNets considering QoS[C]//Proceedings of 2018 IEEE International Conference on Communications. Washington D.C., USA: IEEE Press, 2018: 1-7.
|
[13] |
LIU Quan, ZHAI Jianwei, ZHANG Zongchang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1-27. (in Chinese) 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述[J]. 计算机学报, 2018, 41(1): 1-27. |
[14] |
LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539 |
[15] |
ZHANG Yong, KANG Canping, MA Tengteng, et al. Power allocation in multi-cell networks using deep reinforcement learning[C]//Proceedings of the 88th Vehicular Technology Conference. Washington D.C., USA: IEEE Press, 2018: 1-6.
|
[16] |
LI Han, GAO Hui, LÜ Tiejun, et al. Deep Q-learning based dynamic resource allocation for self-powered ultra-dense networks[C]//Proceedings of 2018 IEEE International Conference on Communications Workshops. Washington D.C., USA: IEEE Press, 2018: 1-6.
|
[17] |
LIU Zhiyong, CHEN Xin, CHEN Ying, et al. Deep reinforcement learning based dynamic resource allocation in 5G ultra-dense networks[C]//Proceedings of 2019 IEEE International Conference on Smart Internet of Things. Washington D.C., USA: IEEE Press, 2019: 168-174.
|
[18] |
HAN F, SAFAR Z, LIU K J R. Energy-efficient base-station cooperative operation with guaranteed QoS[J]. IEEE Transactions on Communications, 2013, 61(8): 3505-3517. DOI:10.1109/TCOMM.2013.061913.120743 |
[19] |
LEE G, SAAD W, BENNIS M, et al. Online ski rental for scheduling self-powered, energy harvesting small base stations[C]//Proceedings of 2016 IEEE International Conference on Communication. Washington D.C., USA: IEEE Press, 2016: 1-6.
|
[20] |
WATKINS C J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279-292. DOI:10.1023/A:1022676722315 |