UUDN中双层Stackelberg博弈功率控制算法研究

引用本文

张鹏飞, 张月霞. UUDN中双层Stackelberg博弈功率控制算法研究[J]. 计算机工程, 2020, 46(9), 186-192. DOI: 10.19678/j.issn.1000-3428.0057204.

ZHANG Pengfei, ZHANG Yuexia. Research on Power Control Algorithm of Two-Layer Stackelberg Game in UUDN[J]. Computer Engineering, 2020, 46(9), 186-192. DOI: 10.19678/j.issn.1000-3428.0057204.

基金项目

国家自然科学基金（51334003，61471046）

作者简介

张鹏飞(1989-), 男, 硕士研究生, 主研方向为无线通信资源分配;
张月霞, 教授、博士

文章历史

收稿日期：2020-01-14
修回日期：2020-03-26

Contents Abstract Full text Figures/Tables PDF

UUDN中双层Stackelberg博弈功率控制算法研究

张鹏飞^a,b,c , 张月霞^a,b,c

a. 北京信息科技大学信息与通信工程学院, 北京 100101;
b. 北京信息科技大学现代测控技术教育部重点实验室, 北京 100101;
c. 北京信息科技大学高动态导航技术北京市重点实验室, 北京 100101

收稿日期：2020-01-14；修回日期：2020-03-26

基金项目：国家自然科学基金（51334003，61471046）

作者简介：张鹏飞(1989-), 男, 硕士研究生, 主研方向为无线通信资源分配; 张月霞, 教授、博士.

E-mail: zhang_pengfei2018@163.com

摘要：针对以用户为中心的超密集网络（UUDN）信号干扰严重及功耗过大的问题，提出一种双层Stackelberg博弈功率控制（TSGPC）算法。建立UUDN上行功率控制系统模型并采用TSGPC算法为服务用户与协作用户设置合适的收益函数，从理论上推导协作用户最优发射功率及最佳惩戒因子的纳什均衡解，使所有用户收益达到最大，同时证明纳什均衡解的存在性与唯一性，并验证TSGPC算法的有效性。仿真结果表明，该算法在保证通信质量的前提下，能使协作用户的信干噪比较SGUPPC、PCBSW等算法更高，系统吞吐量较Nash算法上升5.58%，有效减少了UUDN用户间干扰，系统吞吐量与容量得到明显提升。

Research on Power Control Algorithm of Two-Layer Stackelberg Game in UUDN

ZHANG Pengfei^a,b,c , ZHANG Yuexia^a,b,c

a. School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China;
b. Key Laboratory of Modern Measurement and Control Technology of Ministry of Education, Beijing Information Science and Technology University, Beijing 100101, China;
c. Beijing Key Laboratory of High Dynamic Navigation Technology, Beijing Information Science and Technology University, Beijing 100101, China

Abstract: To address the problem of serious signal interference and excessive power consumption in User-Centric Ultra Dense Network(UUDN), this paper proposes a Two-Layer Stackelberg Game Power Control(TSGPC) algorithm.The model of UUDN uplink power control system is established and the TSGPC algorithm is used to set the appropriate revenue functions for service users and cooperative users.The Nash equilibrium solution of the optimal transmit power and the best punishment factor of cooperative users are derived theoretically, so that the benefits of all users can be maximized.At the same time, the existence and uniqueness of the Nash equilibrium solution are proved and the effectiveness of TSGPC algorithm is verified.Simulation results show that, on the premise of ensuring the communication quality, the proposed algorithm significantly improves the Signal to Interference plus Noise Ratio(SINR) of cooperative users compared with SGUPPC, PCBSW and other algorithms, and increases the system throughput by 5.58% compared with the Nash algorithm.The algorithm significantly reduces the interference between UUDN users, and significantly improves the system throughput and capacity.

0 概述

近年来, 随着移动互联网的广泛普及与移动智能设备的大量应用, 5G系统业务需求出现大幅增长, 如何提升系统吞吐量和容量成为5G领域的研究热点^[1]。超密集网络(Ultra Dense Network, UDN)通过部署大量低功率接入点(Access Point, AP)可有效提高系统吞吐量和容量^[2-3], 但是网络节点的增加导致小区间干扰(Inter-Cell Interference, ICI)严重, 从而降低了小区用户的服务质量^[4]。针对该问题, 研究者们提出以用户为中心的超密集网络(User-Centric Ultra Dense Network, UUDN), 采用去蜂窝方式对传统蜂窝网络体系结构进行改进, 使得处于小区任意地点的用户设备(User Equipment, UE)获得相同服务质量^[5]。UUDN通过组建1个动态接入点组(Access Point Group, APG)使用户设备能实时接收到信号。每个用户设备有1个自身专属APG, 在用户设备移动过程中, AP会根据其位置动态调整APG内的AP以使用户设备位于网络中心^[6]。虽然UUDN能提高用户的服务质量, 但是仍存在复杂的信号干扰, 因此, 如何减少信号干扰成为其亟需解决的问题。

针对上述问题, 国内外学者们进行了深入研究, 将功率控制作为抑制信号干扰的有效手段。文献[7]提出以用户为中心的蜂窝网上行功率控制方案, 通过波束赋形层面有效提升系统容量, 但仅适用于多进多出(Multiple In Multiple Out, MIMO)情况, 未考虑超密集网络下多个用户之间的复杂干扰。文献[8]提出基于用户为中心的博弈论功率控制算法, 针对5G异构网络进行分层博弈, 有效提高了系统容量, 但未考虑同层用户之间的干扰。文献[9]提出上行功率控制方案, 分析了天线数目对系统容量的作用, 但未考虑用户之间同频干扰的影响。文献[10]提出以用户为中心的动态小区分簇聚类算法, 将用户分簇并采用贪婪算法对系统容量进行优化, 虽然考虑了不同簇间的干扰, 但其频谱效率大幅降低。上述算法在一定程度上提高了系统的吞吐量和容量, 但是未对UUDN中同频小区间干扰问题进行研究, 且缺乏可行性分析。

本文针对UUDN用户间存在复杂干扰及系统容量受限的问题, 提出一种UUDN结构中双层Stackelberg博弈的功率控制(Two-Layer Stackelberg Game Power Control, TSGPC)算法。建立UUDN上行功率控制系统模型, 采用TSGPC算法设定不同用户的收益函数, 计算得到最优发射功率和最佳惩戒因子的纳什均衡解, 并对纳什均衡解的存在性和唯一性进行证明。

1 系统模型

本文建立了UUDN上行功率控制系统模型, 如图 1所示。协作用户1与协作基站1、协作用户2与协作基站2、服务用户1和服务用户k及服务基站这3组分别进行组内数据通信。以服务用户k为中心组建1个APG, 大圆圈表示服务用户k的APG覆盖范围, APG中有1个服务基站, 并有1个或多个协作基站。

	Download: JPG larger image
图 1 UUDN上行功率控制系统模型 Fig. 1 Uplink power control system model of UUDN

假设在APG中有T个协作基站(1, 2, …, q, …, T), 有M个服务用户(1, 2, …, k, …, M)与服务基站进行数据通信, 有N个协作用户(1, 2, …, i, …, j, …, N)与各自的协作基站进行数据通信。由于服务用户(1, 2, …, k, …, M)均使用不同频率与服务基站通信, 因此他们之间不存在干扰; 而服务用户k与协作用户使用相同频率, 因此他们之间存在相互干扰。假设服务用户以固定功率p_t进行发射, 而协作用户以可变功率p_i进行发射, 其中p_i为第i个协作用户的发射功率, 其对应协作基站q, 则某个协作用户i的信噪比为:

$ {\gamma _i}({p_i}) = \frac{{{p_i}{h_{iq}}}}{{\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2}}} $

(1)

其中, h_iq=A/d_iq^m为协作用户i到对应协作基站q的信道增益, g_kq=A/r_kq^m为服务用户k到协作基站q的信道增益, d_iq为协作用户i到协作基站q的距离, r_kq为服务用户k到协作基站q的距离, A为常数增益, σ²为高斯白噪声功率, m为路径衰减因子, 取值范围为[2, 6]。

UUDN上行功率控制系统模型取消了小区边缘用户, 能为每个用户提供较高的服务质量。在该系统模型中, 每个UE均有专属的动态APG为其提供服务。用户在移动过程中, 无论位于何处, APG都将为其提供良好的链路通信质量。此外, 服务用户能根据不同用户发射功率与收到的惩戒因子, 动态调整自身发射功率, 从而减小用户之间的干扰, 提升系统吞吐量^[11-12]。

2 TSGPC算法 2.1 TSGPC模型

在标准的博弈模型中, 通常包含博弈参与者、参与者决策集以及博弈方收益函数3个基本元素。本文提出的TSGPC博弈模型中基本元素如下:

1) 第1层博弈参与者。参与博弈的协作用户集合Ψ={1, 2, …, N}。

2) 第1层参与者的决策。每位参与者的决策可表示为{p₁, p₂, …, p_i, …, p_n}, 且各决策相互独立。

3) 第1层博弈方的收益函数。协作用户i的收益函数为U_i(p_i, λ_i)。

4) 第2层博弈的参与者。参与博弈的协作用户集合Ψ={1, 2, …, N}。

5) 第2层参与者的决策。每位参与者的决策可表示为{λ₁, λ₂, …, λ_i, …, λ_n}, 且各决策相互独立。

6) 第2层服务用户的收益函数UU_k(p_i, λ_i)。

在双层博弈之间, 第1层博弈所求最佳发射功率会影响第2层博弈最佳惩戒因子的结果, 而第2层博弈所求最佳惩戒因子也会影响第1层博弈最佳发射功率的结果, 两者相互制约并调节以获取动态平衡, 最终求解出协作用户的最优发射功率和最佳惩戒因子, 使所有用户的收益达到最大。

2.2 协作用户收益

协作用户i发送信息到基站时, 总希望使自身发送速率最大化, 即实现最大传输速率R_i。由于所有协作用户为使自身收益最大化, 均不考虑对其他用户的影响, 因此各协作用户之间属于非合作博弈。

假设所有用户的传输带宽为单位带宽, 则协作用户i的传输速率R_i表达式为:

$ {R_i} = {\rm{ln}}(1 + {\gamma _i}) = {\rm{ln}}\left( {1 + \frac{{{p_i}{h_{iq}}}}{{\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2}}}} \right) $

(2)

然而协作用户的信号传输会对服务用户产生干扰, 为减弱该干扰, 需对协作用户设置抑制干扰函数如下:

$ {C_i} = {\lambda _i}{p_i}{l_i} $

(3)

其中, 协作用户i的惩戒因子λ_i>0, l_i=A/D_i^m为协作用户i到服务基站的信道增益, D_i为协作用户i到服务基站的距离。将协作用户i的收益函数定义为该用户传输速率减去其抑制干扰函数^[13-14], 表达式为:

$ \begin{array}{*{20}{l}} {{U_i}({p_i},{\lambda _i}) = {R_i} - {C_i} = }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{ln}}\left( {1 + \frac{{{p_i}{h_{iq}}}}{{\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2}}}} \right) - {\lambda _i}{p_i}{l_i}} \end{array} $

(4)

2.3 服务用户收益

本文同时考虑了协作用户和服务用户的收益函数。服务用户的收益函数定义为服务用户对协作用户的总惩罚量减去协作用户干扰给服务用户造成的性能损失, 表达式为^[15]:

$ {\rm{U}}{{\rm{U}}_k}({p_i},{\lambda _i}) = \sum\limits_{i = 1}^N {{\lambda _i}} {p_i}{l_i} - \frac{{\sum\limits_{i = 1}^N {{p_i}} {l_i} - T}}{T} $

(5)

其中, $ \sum\limits_{i = 1}^N {{\lambda _i}} {p_i}{l_i}$为服务用户对协作用户的总惩罚量, $ \frac{{\sum\limits_{i = 1}^N {{p_i}{l_i} - T} }}{T}$为协作用户干扰给服务用户造成的性能损失, T为服务用户所能承受协作用户带来干扰的门限值。

由于当惩戒因子λ_i较小时, 协作用户的发射功率会增大, 从而对服务用户造成强干扰, 因此对协作用户发射的干扰进行以下限制:

$ \sum\limits_{i = 1}^N {{p_i}} {l_i} \le T $

(6)

若门限值T较小, 则会给服务用户带来较大的性能损失。当协作用户发射功率给服务用户造成的干扰接近门限值时, 服务用户的收益函数会增大。协作用户对服务用户的干扰功率不超过门限值T。

上述服务用户收益函数考虑了服务用户对协作用户的惩戒收益总量, 并分析了协作用户对服务用户产生的干扰, 函数设置更合理。当惩戒因子λ_i很大时, 根据式(5), 服务用户收益将增大, 但是根据式(4), 协作用户收益将减小, 协作用户为增大收益会提高自身发射功率, 导致服务用户收益降低, 系统总干扰增加; 当惩戒因子λ_i很小时, 根据式(4), 协作用户收益将增大, 其会采用较高发射功率, 但是根据式(5), 服务用户收益将降低, 系统总干扰增加。因此, 需要服务用户和协作用户之间相互博弈, 以获取最佳发射功率使双方收益达到最大。

3 Stackelberg博弈过程及求解 3.1 协作用户博弈目标

根据Stackelberg安全博弈模型, 参与者任何决策都应满足服务用户收益UU_k(p_i, λ_i)和每个协作用户收益U_i(p_i, λ_i)最大, 而由于服务用户与协作用户的收益都是关于p_i和λ_i的函数, 因此优化目标可表示为:

$ {{\rm{max}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {U_i}(p_i^*,{\lambda _i}) \ge {U_i}({p_i},{\lambda _i})} $

(7)

$ {{\rm{max}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{U}}{{\rm{U}}_k}(p_i^*,\lambda _i^*) \ge {\rm{U}}{{\rm{U}}_k}(p_i^*,{\lambda _i})} $

(8)

约束条件为:

$ {p_i^{{\rm{max}}} \ge p_i^* \ge 0} $

(9)

$ {\lambda _i^* \ge 0} $

(10)

其中, p_i^*为协作用户i的最优发射功率, λ_i^*为协作用户i的最佳惩戒因子, p_i^max为协作用户i限定的最大发射功率。

优化目标式(7)、式(8)及约束条件式(9)、式(10)构成Stackelberg博弈。基于该博弈, 对协作用户的发射功率及惩戒因子进行迭代更新, 并最终找到1个纳什均衡点, 使服务用户收益和协作用户收益均达到最大。其中:只有满足式(7), 才能保证当用户发射功率p_i为任意值时, 协作用户收益不会比用户发射功率为p_i^*时更大; 只有满足式(8), 才能保证当用户惩戒因子λ_i为任意值时, 服务用户收益均不会比协作用户惩戒因子为λ_i^*时更大; 只有同时满足式(7)和式(8)才能保证各用户单一决策时所得收益不会比协作用户在纳什均衡点所得收益更大。因此, (p_i^*, λ_i^*)为本文TSGPC博弈模型的纳什均衡解, 即由Stackelberg博弈得到的纳什均衡点。p_i^*和λ_i^*分别由协作用户之间的非合作博弈以及服务用户收益函数通过求极值方式获得。

3.2 纳什均衡解p_i^*的求解

对协作用户收益函数求导得到如下关系式:

$ \frac{{\partial {U_i}}}{{\partial {p_i}}} = \frac{{{h_{iq}}}}{{\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2} + {p_i}{h_{iq}}}} - {\lambda _i}{l_i} $

(11)

根据式(11), 令$\frac{{\partial {U_i}}}{{\partial {p_i}}} = 0 $, 计算得到最优解如下:

$ p_i^* = \frac{{{h_{iq}} - {\lambda _i}{l_i}\left( {\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2}} \right)}}{{{\lambda _i}{l_i}{h_{iq}}}} $

(12)

由式(9)得到:

$ p_i^* = \left\{ {\begin{array}{*{20}{l}} {0,p_i^* \le 0}\\ {p_i^*,0 < p_i^* < p_i^{{\rm{max}}}}\\ {p_i^{{\rm{max}}},p_i^* \ge p_i^{{\rm{max}}}} \end{array}} \right. $

(13)

3.3 纳什均衡解λ_i^*的求解

结合式(5)和式(12), 服务用户的收益UU_k(p_i^*, λ_i)可化简为:

$ \begin{array}{*{20}{l}} {{\rm{U}}{{\rm{U}}_k}(p_i^*,{\lambda _i}) = N + 1 - ({\lambda _i}T - 1) \times }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \left( {\sum\limits_{i = 1}^N {\frac{{{l_i}(\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2})}}{{{h_{iq}}T}}} - \frac{N}{{{\lambda _i}T}}} \right)} \end{array} $

(14)

根据式(14), 服务用户收益为N+1减去1个关于λ_i的对勾函数, 计算公式为:

$ {\rm{U}}{{\rm{U}}_k}(p_i^*,{\lambda _i}) = N + 1 - {F_k}(p_i^*,{\lambda _i}) $

(15)

$ \begin{array}{*{20}{l}} {{F_k}(p_i^*,{\lambda _i}) = ({\lambda _i}T - 1) \times }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \left( {\sum\limits_{i = 1}^N {\frac{{{l_i}(\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2})}}{{{h_{iq}}T}}} + \frac{N}{{{\lambda _i}T}}} \right)} \end{array} $

(16)

由此可将求解UU_k(p_i^*, λ_i)最大化的问题转化为求解F_k(p_i^*, λ_i)最小值的问题。由于F_k(p_i^*, λ_i)是关于λ_i的对勾函数, 因此根据对勾函数的求最值公式得到:

$ \lambda _i^* = \pm \frac{1}{T}\sqrt {\frac{N}{{\sum\limits_{i = 1}^N {\frac{{{l_i}(\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2})}}{{{h_{iq}}T}}} }}} $

(17)

由式(10)得到:

$ \lambda _i^* = \frac{1}{T}\sqrt {\frac{N}{{\sum\limits_{i = 1}^N {\frac{{{l_i}(\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2})}}{{{h_{iq}}T}}} }}} $

(18)

式(12)中的p_i^*和式(18)中的λ_i^*共同构成超密集网络下TSGPC算法的纳什均衡解, 但是p_i^*是关于λ_i的函数, 而λ_i^*是关于p_i^*的函数, 因此, p_i^*和λ_i^*需反复博弈才能达到最终的纳什均衡。为便于计算, 由式(1)和式(12)求得协作用户i迭代s次的最佳迭代表达式为:

$ f(p) = p_i^{(s + 1)} = \left( {\frac{{\gamma _i^{(s)}}}{{\gamma _i^{(s)} + 1}}} \right)/{\lambda _i}{l_i} $

(19)

3.4 博弈流程

具体博弈流程如图 2所示。设服务用户针对每个协作用户的惩戒因子λ_i=λ₀(i=1, 2, …, N), 协作用户发射功率均为p₀, 即{p₁=p₀, p₂=p₁, …, p_n=p₀}, 协作用户根据式(13)计算出自身最佳发射功率p_i^*。服务用户根据式(18)计算出协作用户的最佳惩戒因子λ_i^*, 并根据式(5)计算出服务用户的收益函数UU_k^*, 协作用户再根据新惩戒因子λ_i^*及式(19)动态调整自身发射功率, 此过程不断迭代直到满足UU_k^* < UU_k后停止迭代。最终服务用户和协作用户的收益达到最大, 从而达到抑制干扰并提升系统容量的目的。

	Download: JPG larger image
图 2 博弈流程 Fig. 2 Game procedure

4 纳什均衡解的存在性和唯一性证明 4.1 纳什均衡解的存在性

定理1 对于协作用户的惩戒因子λ_i, 协作用户之间非合作博弈必定存在纳什均衡解。非合作博弈存在纳什均衡解, 需要满足以下条件:1)所有协作用户参与博弈的集合有限; 2)所有协作用户的决策集合封闭有界; 3)收益函数在所有协作用户的决策集上, 且为连续拟凹函数。

证明具体过程如下:

1) 参与博弈的协作用户人数Ψ={1, 2, …, N}, 为有限集合。

2) 所有协作用户的决策集合为{p₁, p₂, …, p_i, …, p_n}, 每个决策相互独立且{0≤p_i≤p_i^max}封闭有界。

3) 对协作用户i的收益函数进行2阶求导得到:

$ \frac{{{\partial ^2}{U_i}}}{{\partial p_i^2}} = \frac{{ - {{({h_{iq}})}^2}}}{{{{(\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2} + {p_i}{h_{iq}})}^2}}} $

(20)

由式(20)得到$\frac{{{\partial ^2}{U_i}}}{{\partial p_i^2}} \le 0 $, 因此, 收益函数为拟凹函数。综上可知, 此协作用户之间的非合作博弈存在纳什均衡解。

4.2 纳什均衡解的唯一性

定理2 对于协作用户的惩戒因子λ_i, 协作用户间的非合作博弈必存在唯一纳什均衡解。非合作博弈收敛得到唯一纳什均衡解, 需满足以下条件:1)函数具有非负性, 即f(p)≥0;2)函数具有单调性, ∀p_a≥p_b, f(p_a)≥f(p_b); 3)函数具有扩展性:若α>1, 则αf(p)≥f(αp)。

证明具体过程如下:

1) 根据式(20), 得到0≤p≤p_max且p^(k+1)=f(p^(k))>0。

2) 对式(19)求导得到:

$ f{(p)^\prime } = \frac{1}{{{\lambda _i}{l_i}}} \times \frac{1}{{{{({\gamma _i} + 1)}^2}}} \times \frac{{{h_{iq}}}}{{\sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2}}} $

(21)

由于式(21)各项均为正数, f(p)′>0, 因此f(p)为单调增函数, p_a≥p_b, f(p_a)≥f(p_b)。

3) 令L(p)=αf(p)－f(αp), 结合式(1)和式(12), 将该式转化为:

$ \begin{array}{*{20}{l}} {L(p) = \frac{1}{{{\lambda _i}{l_i}}} \times p_i^2h_{iq}^2\alpha (\alpha - 1) \times }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{1}{{\alpha {p_i}{h_{iq}} + \sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2}}} \times }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{1}{{{p_i}{h_{iq}} + \sum\limits_{j = 1,j \ne i}^N {{p_j}} {h_{jq}} + {p_t}{g_{kq}} + {\sigma ^2}}}} \end{array} $

(22)

其中, 由于α>1, L(p)中各项均为正数, 因此L(p)>0, 即αf(p)≥f(αp)。综上可知, 协作用户之间非合作博弈的纳什均衡解唯一。

5 实验与结果分析 5.1 参数设置

为验证TSGPC算法的有效性, 本文构建以用户为中心的网络架构, 将服务基站的半径覆盖范围设置为200 m, 并假设存在4个服务用户和6个协作用户, 具体参数设置如表 1所示。

下载CSV 表 1 仿真参数设置 Table 1 Simulation parameter setting

5.2 结果分析

图 3为TSGPC算法中不同协作用户的发射功率随迭代次数的收敛情况。可以看出, 协作用户之间相互博弈, 随着迭代次数的增加, 协作用户自身发射功率逐渐提高, 并在多次博弈后达到稳定状态。

	Download: JPG larger image
图 3 协作用户发射功率的收敛情况 Fig. 3 Convergence of transmitting power of cooperative users

图 4为TSGPC算法中服务用户k和协作用户i收益随迭代次数的变化情况(由于协作用户收益曲线大致相同, 因此以协作用户i(i=4)为例)。可以看出:在迭代初始阶段, 协作用户i的发射功率低且惩戒因子小, 导致服务用户k和协作用户i的收益较低; 随着迭代次数的增加, 由于协作用户之间相互博弈, 其自身发射功率不断提高, 导致协作用户i和服务用户k的收益增大, 服务用户k为获取更大收益, 提高了协作用户i的惩戒因子, 从而造成协作用户i收益降低。协作用户之间通过相互博弈提高自身发射功率, 提升了协作用户i和服务用户k的收益。最终协作用户通过多次博弈到稳定状态, 使得服务用户和协作用户的收益达到最大。

	Download: JPG larger image
图 4 不同用户收益随迭代次数的变化情况 Fig. 4 The change of different users' income with the number of iterations

图 5为K-G算法^[16]、SGUPPC算法^[17]、PCBSW算法与TSGPC算法中协作用户的信干噪比(Signal to Interference plus Noise Ratio, SINR)^[18]随迭代次数的收敛情况。可以看出, 上述4种算法经过博弈后均达到稳定状态, 但是K-G算法、SGUPPC算法、PCBSW算法中协作用户的SINR仅收敛到6 dB, 虽满足正常通信要求, 但通信质量远不如TSGPC算法, TSGPC算法的通信质量更优。

	Download: JPG larger image
图 5 不同算法中协作用户的SINR收敛情况对比 Fig. 5 Comparison of SINR convergence of cooperative users in different algorithms

图 6为TSGPC算法和CHAOS算法中服务用户收益随惩戒因子的变化情况。可以看出:在TSGPC算法中服务用户收益随着惩戒因子增加而先增后减, 并在惩戒因子为7×10¹²时达到最大值; CHAOS算法^[19]中服务用户收益随着惩戒因子增大而逐渐降低。理论上, 当协作用户的惩戒因子为0时, 由于服务用户未对协作用户的发射功率进行惩罚, 因此协作用户将提高发射功率以获取更高的协作用户收益, 从而导致服务用户收益降低, 此时服务用户收益为最小值。但图 6中协作用户惩戒因子为0时, CHAOS算法中服务用户收益最大, 这与理论值相悖。本文TSGPC算法优化了效用函数, 使协作用户惩戒因子为0时, TSGPC算法中服务用户收益最小, 这与理论值一致, 同时经过博弈使服务用户收益逐渐提升。此外, TSGPC算法与CHAOS算法最终收敛值较接近, 这证明了TSGPC算法的正确性。

	Download: JPG larger image
图 6 不同算法中服务用户收益随惩戒因子的变化情况 Fig. 6 The change of service user's income with punishment factor in different algorithms

图 7为TSGPC算法与Nash算法^[20]的单位带宽吞吐量随协作用户数量的变化情况。可以看出, 2种算法的系统吞吐量均随协作用户数量的增加而逐渐增大, 但是当协作用户数量增大到一定程度后, 系统吞吐量增速逐渐减缓。和Nash算法相比, TSGPC算法的系统吞吐量更大。

	Download: JPG larger image
图 7 不同算法中单位带宽吞吐量随协作用户数量的变化情况 Fig. 7 The change of throughput per unit bandwidth with the number of cooperative users in different algorithms

6 结束语

本文在UUDN应用场景下提出TSGPC算法, 通过建立UUDN上行功率控制系统模型, 求解出最优发射功率控制方案和最佳惩戒因子, 使协作用户与服务用户的收益最大化, 并证明其纳什均衡解的存在性和唯一性。仿真实验表明, 与SGUPPC、PCBSW等算法相比, 该算法能更有效地降低UUDN用户间干扰, 提升系统吞吐量与容量。下一步将在考虑用户速率的情况下改进功率, 对功率、信道和用户速率进行联合优化, 以满足多用户速率服务需求。

参考文献

[1]	ITU.IMT vision-framework and overall objectives of the future development of IMT for 2020 and beyond[EB/OL].[2019-12-30]. https://standards.globalspec.com/std/9964221/itu-r-m-2083.
[2]	LOPEZ P D, DING M, CLAUSSEN H, et al. Towards 1 Gbps/UE in cellular systems:understanding ultra-dense small cell deployments[J]. IEEE Communications Surveys and Tutorials, 2015, 17(4): 2078-2101. DOI:10.1109/COMST.2015.2439636
[3]	YE Junliang, GE Xiaohu, MAO Guoqiang, et al. 5G ultradense networks with nonuniform distributed users[J]. IEEE Transactions on Vehicular Technology, 2018, 67(3): 2660-2670. DOI:10.1109/TVT.2017.2771481
[4]	BAI Lu, LIU Tingting, YANG Chenyang. Interference coordination method and performance analysis under ultra-dense networks[J]. Journal of Signal Processing, 2015, 31(10): 1263-1271.
[5]	CHEN Shanzhi, QIN Fei, HU Bo, et al. User-centric ultra-dense networks for 5G:challenges, methodologies, and directions[J]. IEEE Wireless Communications, 2016, 23(2): 78-85. DOI:10.1109/MWC.2016.7462488
[6]	ZHANG Hongtao, MENG Na, LIU Yang, et al. Performance evaluation for local anchor-based dual connectivity in 5G user-centric network[J]. IEEE Access, 2016, 4(9): 5721-5729.
[7]	BUZZI S, ANDREA D C, ZAPPONE A, et al. User-centric 5G cellular networks:resource allocation and comparison with the cell-free massive MIMO approach[J]. IEEE Transactions on Wireless Communications, 2020, 19(2): 1250-1264. DOI:10.1109/TWC.2019.2952117
[8]	HAMNAH M, SYED A H, HARIS P, et al.A game theoretical network-assisted user-centric design for resource allocation in 5G heterogeneous networks[C]//Proceedings of 2016 IEEE Vehicular Technology Conference.Washington D.C., USA: IEEE Press, 2016: 256-261.
[9]	CHEN Ying, ZHANG Hongtao.Outage probability and average rate analysis of user-centric ultra-dense networks[EB/OL].[2019-12-30]. https://ieeexplore.ieee.org/document/8761977.
[10]	LI Hao, SUN Changyin, LIANG Yanxia. User clustering algorithm for user-centric and multi-dimensional collaborative in ultra-dense networks[J]. Video Engineering, 2018, 42(3): 50-57.
[11]	CHEN Zhonglin.Research on the key technologies of user centered ultra dense network security[D].Beijing: Beijing University of Posts and Telecommunications, 2019.(in Chinese) 陈中林.以用户为中心的超密集网络安全关键技术研究[D].北京: 北京邮电大学, 2019. http://cdmd.cnki.com.cn/Article/CDMD-10013-1019047304.htm
[12]	ZHANG Hongtao, YANG Zihua, LIU Yang, et al. Power control for 5G user-centric network:performance analysis and design insight[J]. IEEE Access, 2016, 4(10): 7347-7355.
[13]	LUO Ronghua, YANG Zhen. Distributed power allocation algorithm based on Stackelberg game in cognitive radio[J]. Journal of Electronics and Information Technology, 2010, 32(12): 2964-2969. (in Chinese) 罗荣华, 杨震. 认知无线电中基于Stackelberg博弈的分布式功率分配算法[J]. 电子与信息学报, 2010, 32(12): 2964-2969.
[14]	ZHU Jiang, YANG Haolei, HAN Chao. A game based adaptive power control algorithm in cognitive wireless networks[J]. Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition), 2014, 26(4): 439-444. (in Chinese) 朱江, 杨浩磊, 韩超. 认知无线网络中一种基于博弈的自适应功率控制算法[J]. 重庆邮电大学学报(自然科学版), 2014, 26(4): 439-444.
[15]	YU Hui, GAO Lin, LI Zheng, et al. Pricing for uplink power control in cognitive radio networks[J]. IEEE Transaction on Vehicular Technology, 2010, 59(4): 1769-1778. DOI:10.1109/TVT.2010.2040492
[16]	KOSKIE S, GAJIC Z. A Nash game algorithm for SIR-based power control in 3G wireless CDMA networks[J]. ACM Transactions on Networking, 2005, 13(5): 1017-1026. DOI:10.1109/TNET.2005.857068
[17]	WANG Zeng, HU Bo, WANG Xin, et al. Interference pricing in 5G ultra-dense small cell networks:a Stackelberg game approach[J]. IET Communications, 2016, 10(15): 1865-1872. DOI:10.1049/iet-com.2016.0116
[18]	CHEN Hao, LI Rongfeng, ZHOU Bilei, et al. FDA optimal frequency increment selection method based on weighted modules[J]. Modern Radar, 2019, 41(1): 30-35. (in Chinese) 陈浩, 李荣锋, 周必雷, 等. 基于加权模值的FDA最优频率间隔选取方法[J]. 现代雷达, 2019, 41(1): 30-35.
[19]	TALABANI A A, NALLANATHAN A, NGUYEN H X. Anovel chaos based cost function for power control of cognitive radio networks[J]. IEEE Communications Letters, 2015, 19(4): 657-660. DOI:10.1109/LCOMM.2014.2385068
[20]	XIAO Nanhua, LIANG Jun, LIU Yipei, et al. Power control based on non-cooperative game for cognitive radio networks[J]. Journal of Huazhong University of Science and Technology(Nature Science Edition), 2016, 44(1): 112-117.