C-V2X通信中资源分配与功率控制联合优化

引用本文

金久一, 邱恭安. C-V2X通信中资源分配与功率控制联合优化[J]. 计算机工程, 2021, 47(10), 147-152. DOI: 10.19678/j.issn.1000-3428.0059152.

JIN Jiuyi, QIU Gongan. Joint Optimization of Resource Allocation and Power Control in C-V2X Communications[J]. Computer Engineering, 2021, 47(10), 147-152. DOI: 10.19678/j.issn.1000-3428.0059152.

基金项目

国家自然科学基金（61771263）

作者简介

金久一(1996-), 男, 硕士研究生, 主研方向为车联网通信、资源分配;
邱恭安, 教授

文章历史

收稿日期：2020-08-03
修回日期：2020-09-09

Contents Abstract Full text Figures/Tables PDF

C-V2X通信中资源分配与功率控制联合优化

金久一 , 邱恭安

南通大学信息科学技术学院, 江苏南通 226019

收稿日期：2020-08-03；修回日期：2020-09-09

基金项目：国家自然科学基金（61771263）

作者简介：金久一(1996-), 男, 硕士研究生, 主研方向为车联网通信、资源分配; 邱恭安, 教授.

E-mail: 1281557682@qq.com

摘要：在C-V2X通信中，Mode 4资源分配方式使用基于感知的半持续调度（SB-SPS）算法进行资源分配，但该算法以最大功率传输安全消息，在高密度交通流状态下会导致系统的可靠性下降。为对SB-SPS算法进行优化，提出一种基于深度强化学习的联合资源分配与功率控制算法。车辆在感知到信道后，为安全消息选择干扰最小的子信道，并根据信道状态自适应调整传输功率，通过与环境交互学习的方式求解最优的子信道选择方案和功率控制方案。仿真结果表明，与SB-SPS优化算法相比，该算法在高密度公路场景下分组接收率提高5%，有效提升了车间通信的可靠性。

Joint Optimization of Resource Allocation and Power Control in C-V2X Communications

JIN Jiuyi , QIU Gongan

School of Information Science and Technology, Nantong University, Nantong, Jiangsu 226019, China

Abstract: In C-V2X communications, Mode 4 uses the Sensing Based Semi-Persistent Scheduling(SB-SPS) algorithm for resource allocation.This algorithm transmits messages with the maximum power, which will reduce the reliability of the system in the high-density traffic flow state.To optimize the SB-SPS algorithm, a joint resource allocation and power control algorithm based on Deep Reinforcement Learning(DRL) is proposed.After sensing the channel, the vehicle selects the sub-channel with the least interference and adjusts the transmission power adaptively according to the channel state.Then, it solves the optimal sub-channel selection scheme and power control scheme by interactive learning with the environment.The simulation results show that compared with the existing SB-SPS optimization algorithms, the proposed algorithm can improve the packet reception ratio by 5% in high-density highway scenarios, effectively improving the reliability of vehicle-to-vehicle communication.

开放科学（资源服务）标志码（OSID）：

0 概述

第3代合作伙伴计划（Third Generation Partnership Project，3GPP）在Release14中发布了C-V2X（Cellular-Vehicle to Everything）通信模式，其支持高可靠性、低时延及高移动性的车间通信场景^[1]。在车联网中，车辆使用C-V2X通信模式周期性地向周围邻居车辆广播协作感知消息（Cooperative Awareness Message，CAM），通告位置、方向、移动速度等车辆运动状态消息，以保证道路交通安全^[2]。C-V2X支持Mode 3和Mode 4两种不同的资源分配方式^[3]。在Mode 3中，车辆处于网络覆盖范围之内，通过基站集中调度的方式分配资源。然而在Mode 4中，网络覆盖范围之外的车辆自主选择资源传输CAM，拥有更好的拓展性。Mode 4采用基于感知的半持续调度（Sensing Based Semi-Persistent Scheduling，SB-SPS）算法来进行资源分配，车辆通过感知持续监测资源池中可用子信道的干扰等级，为CAM选择干扰最小的子信道进行传输，并对选择的子信道保留随机数目的传输次数，提高了交通安全业务数据传输的可靠性^[4]。

目前已有相关文献对C-V2X中的2种资源分配方式进行了研究。对于Mode 3，文献[5]提出一种基于地理位置的资源分配方案，该方案综合考虑车辆的速度、方向和位置，为不同的安全消息分配不同的资源，提高了系统的可靠性。对于Mode 4，文献[6-7]对SB-SPS算法进行分析，研究不同传输参数对系统性能的影响。文献[8]针对SB-SPS算法的参数进行优化。文献[9]在SB-SPS算法的基础上提出一种资源交替选择算法，车辆交替选择不同的2个资源直至重选计数器减至零，减少数据包由于连续碰撞导致的系统性能下降。文献[10]研究了SB-SPS算法中碰撞概率和平均时延的权衡关系。文献[11]利用指数加权移动平均的方法对重选的资源进行优先级排序，能够提升资源传输的可靠性。文献[12]对SB-SPS算法进行了优化，根据行车方向将资源池划分为2个子资源池，并让资源块携带位置相关信息，减少了车辆之间的干扰，降低了资源碰撞概率。但是上述文献中的SB-SPS算法始终以最大功率传输CAM，在高密度交通流状态下，传输功率越大，通信范围就越大，竞争相同子信道的车辆就越多，从而引发资源碰撞。因此，SB-SPS算法有必要联合功率控制技术来解决这一问题。近年来功率控制技术广泛应用于无线通信的相关问题。文献[13]研究D2D信道选择和功率控制策略，为系统内的D2D用户选择合适的信道复用资源并分配最优的传输功率，提升了系统的平均吞吐量。文献[14]为协调D2D通信的相互干扰，提出一种基于博弈论的功率控制机制，使得所有的D2D链路功率配置合理，提高整体的通信质量。文献[15]针对超密集网中严重的区间干扰，提出一种基于小区分簇的功率控制优化方案，降低了网络中的干扰，提高了系统的吞吐量。

深度强化学习（Deep Reinforcement Learning，DRL）由于具备自主决策且学习速度快等优点，可用于解决车联网中状态空间和动作空间较大的相关问题。文献[16]针对车间通信提出一种基于DRL的分布式资源分配算法，支持单播和广播场景。每个车辆被当作一个智能体，根据信道的局部信息自主决策。文献[17]针对C-V2X中传输模式选择和资源分配的联合优化问题，提出一种基于DRL的资源分配算法，保证V2V链路时延和可靠性的同时最大化V2I链路的总吞吐量。但是，目前DRL还没有用于解决C-V2X Mode 4中的资源分配和功率控制的相关问题。

考虑到C-V2X Mode 4是资源自主选择模式，在高密度交通流状态下车辆无法获得基站反馈的传输功率控制指令。为此，本文提出一种基于DRL的联合资源分配与功率控制算法。车辆从环境中自动提取特征，构造一个神经网络作为函数逼近器去拟合信道状态，根据信道状态自适应调整传输功率，通过与环境的交互为CAM选择最优的子信道和传输功率，以提高车间通信的可靠性。

1 系统模型

本文考虑一个双向六车道的公路车间通信模型，资源分配方式为Mode 4。Mode 4采用单载波频分多址接入，支持带宽为10 MHz和20 MHz的两类通信信道。信道在时域被划分为子帧，在频域被划分为子信道。子信道由相同子帧中多个资源块（Resource Block，RB）组成，所需要的RB数目与CAM大小和调制及编码方案（Modulation and Coding Scheme，MCS）有关^[18]。车辆在通信范围内从预分配好的资源池中自主选择干扰最小的子信道传输CAM，车辆的工作模式为半双工。具体的系统模型如图 1所示。

	Download: JPG larger image
图 1 系统模型 Fig. 1 System model

假设M={1，2，…，M}表示车辆的集合，N={1，2，…，N}表示资源池中由RB组成的子信道的集合，其中M和N都是正整数。在高密度交通流状态下，通信范围内的车辆数目急剧增加，由于资源池中的子信道数目是固定的，会导致2个或2个以上车辆同时选中相同子信道传输CAM，从而引发资源碰撞。当车辆i选择子信道n向车辆j传输CAM时，接收端车辆j的信干噪比（Signal to Interference plus Noise Ratio，SINR）如下：

$ {\rm{SINR}}_{ij}^n = \frac{{{P_i}{G_{ij}}}}{{{\sigma ^2} + \sum\limits_{k \in {K_n}} {{P_k}} {G_{ik}}}} $

(1)

其中：$ {P}_{i} $是车辆i的传输功率；$ {G}_{ij} $是车辆i和车辆j之间的信道增益；$ {\sigma }^{2} $是噪声功率；$ {K}_{n} $是与车辆i选择相同子信道传输CAM的干扰车辆集合；$ {P}_{k} $是干扰车辆k的传输功率；$ {G}_{ik} $是车辆i和干扰车辆k之间的干扰链路的信道增益。则车辆i传输CAM的数据速率由香农公式表示如下：

$ {R}_{ij}^{n}=W\mathrm{l}\mathrm{b}(1+\mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{ij}^{n}) $

(2)

其中：W是10 MHz或20 MHz的通信信道带宽。

为避免车辆在高密度交通流状态下使用最大功率传输CAM引起资源碰撞，需要在资源分配过程中联合功率控制技术来保证CAM传输的高性能要求。本文优化目标为最大化系统吞吐量，综合考虑传输功率和接收端车辆SINR的约束条件，优化目标如下：

$ {\rm{max}}\;R = \sum\limits_{m \in M} {\sum\limits_{n \in N} W } {\rm{lb}}(1 + {\rm{SINR}}_{ij}^n) $

(3)

$ {\rm{s}}.{\rm{t}}.\;\;\;{\rm{SINR}}_{ij}^n \ge {\rm{SIN}}{{\rm{R}}_{{\rm{min}}}}, \forall i, j \in M, \forall n \in N $

(4)

$ 0 <{P}_{i}\le {P}_{\mathrm{m}\mathrm{a}\mathrm{x}}, \forall i\in M $

(5)

其中：R表示系统的总吞吐量；$ {P}_{\mathrm{m}\mathrm{a}\mathrm{x}} $表示车载通信终端的最大传输功率；$ \mathrm{S}\mathrm{I}\mathrm{N}{\mathrm{R}}_{\mathrm{m}\mathrm{i}\mathrm{n}} $表示接收端车辆能够成功接收CAM的最小SINR。

2 基于DRL的联合资源分配与功率控制算法

本文要解决的资源分配和功率控制联合优化问题包括子信道选择和功率控制。但是，C-V2X通信中网络状态较多且变化较快，并且随着车流密度的增加，该问题的计算复杂度也会迅速增加。而DRL与环境交互时不需要任何先验信息，通过不断地学习获得最优策略，这对于动态时变的车联网环境来说尤为重要。因此，提出一种基于DRL的联合资源分配与功率控制算法来优化车间通信性能。本节首先介绍DRL的基本要素，并分别定义联合资源分配和功率控制的状态空间、动作空间和奖赏函数，然后利用DQN算法具体求解资源分配和功率控制联合优化问题。

2.1 DRL基本要素

DRL结合了强化学习的决策能力和深度学习的感知能力，包括智能体、环境、状态、动作和奖赏5个基本要素。智能体不断地与环境进行交互，根据当前状态下采取动作受到的奖赏改变自己的下一动作，以最大化累计折扣奖赏的方式获得最优策略。对于本文要解决的资源分配和功率控制联合优化问题，将传输CAM的车辆作为智能体，将Mode 4的资源分配过程作为环境。下文分别定义状态空间、动作空间和奖赏函数：

1）状态空间。车辆需要知道资源池中子信道的干扰等级和传输CAM时的信道状态，t时刻的状态由子信道的干扰等级$ {I}_{t} $、车辆之间的信道增益$ {G}_{t} $、信道负载$ {L}_{t} $和车流密度$ {D}_{t} $组成，表示为$ {s}_{t} $={$ {I}_{t} $，$ {G}_{t} $，$ {L}_{t} $，$ {D}_{t} $}。其中，$ {I}_{t} $={$ {I}_{t}^{1} $，$ {I}_{t}^{2} $，…，$ {I}_{t}^{N} $}分别表示资源池中每个子信道的干扰等级。

2）动作空间。车辆需要知道CAM选择的子信道和自适应的传输功率，于是t时刻的动作由CAM传输选择的子信道$ {C}_{t} $和自适应的传输功率$ {P}_{t} $组成，表示为$ {a}_{t} $={$ {C}_{t} $，$ {P}_{t} $}。其中，$ {C}_{t} $={$ {C}_{t}^{1} $，$ {C}_{t}^{2} $，…，$ {C}_{t}^{N} $}表示车辆可能选择的子信道的集合。为降低算法的复杂度和动作空间的大小，将传输功率离散化，分为L个等级，所以$ {P}_{t} $={$ {P}_{t}^{1} $，$ {P}_{t}^{2} $，…，$ {P}_{t}^{L} $}。

3）奖赏函数。奖赏函数表示优化目标，本文的优化目标是最大化系统吞吐量，因此t时刻的奖赏函数定义如下：

$ {r_t} = R = \sum\limits_{m \in M} {\sum\limits_{n \in N} W } {\rm{lb}}(1 + {\rm{SINR}}_{ij}^n) $

(6)

2.2 基于DQN的联合资源分配与功率控制算法

DQN作为DRL中的经典算法，目标是估计最优策略的Q值。该算法通过构造深度神经网络（Deep Neural Networks，DNN）来近似值函数，把Q表的更新问题转化为函数拟合问题，以此解决传统Q学习算法在高维连续方面的不足^[19]。DQN分别利用式（7）和式（8）实现函数值的更新和逼近。

$ \begin{array}{l} Q({s_t}, {a_t}) = Q({s_t}, {a_t}) + \alpha ({r_t} + \mathop {\gamma {\rm{max}}}\limits_{{a_{t + 1}}} Q({s_{t + 1}}, {a_{t + 1}}) - \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;Q({s_t}, {a_t})) \end{array} $

(7)

$ Q(s, a;\theta )\approx Q(s, a) $

(8)

其中：$ {s}_{t} $和$ {a}_{t} $分别表示智能体在t时刻的状态和动作；$ Q\left({s}_{t}, {a}_{t}\right) $表示t时刻在状态$ {s}_{t} $下执行动作$ {a}_{t} $的累计折扣奖赏；$ {s}_{t+1} $是下一时刻状态；$ {a}_{t+1} $是下一时刻状态的所有可能的动作；$ \alpha $是学习率；$ \gamma $是折扣因子；$ {r}_{t} $是执行动作$ {a}_{t} $之后的即时奖赏；$ \theta $是DNN的参数。

下文利用DQN算法具体求解资源分配和功率控制联合优化问题，提出一种基于DQN的联合资源分配与功率控制算法，该算法包括构造DNN和使用误差函数训练DNN 2个步骤。基于DQN的联合资源分配与功率控制算法框架如图 2所示。

	Download: JPG larger image
图 2 基于DQN的联合资源分配与功率控制算法框架 Fig. 2 Framework of Joint resource allocation and power control algorithm based on DQN

算法具体步骤如下：

步骤1 构造DNN，考虑到研究的联合优化问题包括子信道选择和功率控制，因此构造的DNN包括输入层、子信道选择层、功率控制层和输出层。在t时刻，将在环境中观测到的状态$ {s}_{t} $作为DNN的输入，经过子信道选择层和功率控制层，在输出层会输出一组数据，每一个数据都由CAM传输选择的子信道和自适应的传输功率组成，分别对应一种子信道选择方案和功率控制方案，选择最大Q值作为当前Q值，其所对应的子信道选择方案$ {C}_{t} $和功率控制方案$ {P}_{t} $作为t时刻的动作$ {a}_{t} $。DNN结构如图 3所示。

	Download: JPG larger image
图 3 DNN结构 Fig. 3 DNN structure

步骤2 利用误差函数训练DNN实现网络参数的更新。DQN中存在主网络和目标网络两个结构相同参数不同的网络。$ Q\left({s}_{t}, {a}_{t};\theta \right) $表示主网络的输出，用来计算当前Q值，$ Q\left({s}_{t+1}, {a}_{t+1};{\theta }^{-}\right) $表示目标网络的输出，用来计算目标Q值。其中，$ \theta $和$ {\theta }^{-} $分别是主网络和目标网络的参数。在执行t时刻的动作$ {a}_{t} $之后，由式（6）得到即时奖励$ {r}_{t} $，转移到下一个状态。在t+1时刻，与t时刻采取同样的方法，将在环境中观测到的状态$ {s}_{t+1} $重新输入DNN，利用式（9）求出目标Q值，然后根据式（10）构建误差函数。最后通过随机梯度下降法最小化损失函数来反向更新主网络的参数$ \theta $，如式（11）所示。每隔一定次数的迭代将主网络的参数$ \theta $复制给目标网络的参数$ {\theta }^{-} $以降低两者之间的相关性^[20]。

$ \mathrm{T}\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{e}{\mathrm{t}} \;Q={r}_{t}+\gamma {\underset{{a}_{t+1}}{\mathrm{m}\mathrm{a}\mathrm{x}}} \;Q({s}_{t+1}, {a}_{t+1};{\theta }^{-}) $

(9)

$ L\left(\theta \right)=E\left[\right(\mathrm{T}\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{e}{\mathrm{t}} \;Q-Q({s}_{t}, {a}_{t}{;\theta \left)\right)}^{2}] $

(10)

$ \begin{array}{l}{\nabla }_{\theta }L\left(\theta \right)=\\ \frac{\partial L\left(\theta \right)}{\partial \left(\theta \right)}=E\left[(\mathrm{T}\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{e}{\mathrm{t}} \;Q-Q({s}_{t}, {a}_{t};\theta \left)\right)\frac{\partial Q({s}_{t}, {a}_{t};\theta )}{\partial \theta }\right]\end{array} $

(11)

在选择动作时，为避免局部最优，DQN利用了$ \varepsilon $-$ \mathrm{g}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{d}\mathrm{y} $策略，即以$ \varepsilon $的概率随机选取行为探索环境，以$ 1-\varepsilon $的概率选择动作当前Q值最大的动作。为消除数据之间的关联性，DQN采用了经验回放机制，即在学习过程中建立一个经验池，将一段时间内与环境交互的样本储存在经验池里，产生训练数据。每次训练DNN时，从经验池里随机抽取小批量的样本更新神经网络的参数，不断重复直至损失函数收敛，使车辆找到最优的子信道选择策略和功率控制策略。

最后分析本文算法的时间复杂度，由于本文是利用DQN解决资源分配和功率控制联合优化问题，算法的时间复杂度取决于误差函数训练DNN这一过程。根据构造的DNN可知，算法的时间复杂度为$ O\left( {m \times {n_1} \times {n_2}} \right) $，其中：m是DNN的输入；$ {n}_{1} $为子信道选择层神经元的数目；$ {n}_{2} $为功率控制层神经元的数目。

3 仿真结果与性能分析

本节对所提算法进行仿真分析以验证其优越性。为更好地分析所提算法的性能，本文将与文献[9]中的资源替代选择（RAS）算法和文献[11]中的指数加权平均（WEA）算法进行对比。仿真对比场景为高密度交通流的公路场景，在长度为4 km的双向六车道上，车辆的平均速度为60 km/h，平均车流密度是150 vehicle/km，表示公路上每千米的车辆数目为150，车辆在公路上服从空间泊松分布。CAM频率为10 Hz，信道带宽为10 MHz。MCS为6，接收端车辆成功接收CAM的最小SINR为4.4 dB。DQN的学习率为0.01，折扣因子为0.9，探索概率为0.1，经验池大小为3 000，每次抽取的小批量样本数目为8。具体的仿真参数见表 1。

下载CSV 表 1 仿真参数 Table 1 Simulation parameters

由于车辆传输的CAM是安全消息，因此要保证高可靠低时延的车间通信，使用分组接收率（Packet Reception Ratio，PRR）和更新时延（Update Delay，UD）作为性能指标。PRR定义为通信范围内车辆成功接收的CAM数目与发送的全部CAM数目的比值。UD定义为通信范围内车辆成功接收2个CAM的时间间隔，表示接收端车辆CAM的更新时间。

图 4对比了车间距离分别为100 m、200 m和300 m时，本文算法PRR与车流密度的关系。从图 4可以看出，当车间距离一定时，随着车流密度的增大，车间干扰更加严重，PRR逐渐减小。当车流密度一定时，随着车间距离的增大，PRR呈下降趋势，且车间距离越大，PRR的下降趋势也越快。

	Download: JPG larger image
图 4 不同车间距离下PRR与车流密度的关系 Fig. 4 Relationship of PRR and traffic density at different vehicle-to-vehicle distances

图 5对比了在高密度交通流状态下CAM大小分别为190 Byte和300 Byte时，3种算法的PRR与车间距离的关系，此时的车流密度为150 vehicle/km。从图 5可以看出，当CAM的大小从190 Byte增加至300 Byte时，PRR逐渐减小，这是因为更大的CAM传输时子信道需要占用更多的RB，导致资源池中的子信道数目减少，降低了系统性能。还可以看出，车间距离越大PRR越小，这是因为随着车间距离的增加，干扰车辆的数目也相应增加，会产生更高的信道干扰，降低SINR，使得成功接收的CAM数目降低，因此导致PRR减小。相比RAS算法和WEA算法，本文提出算法的PRR性能更好，这是因为在DQN中，车辆不断与环境交互，将子信道选择方案和功率控制方案同时作为输出动作优化车间通信性能，为CAM选择最优的子信道和传输功率，确保CAM的可靠传输。比如，当CAM的大小为190 Byte且车间距离为300 m时，本文算法的PRR为90%，相比于RAS算法和WEA算法的85%和88%分别提高了5%和2%。

	Download: JPG larger image
图 5 PRR与车间距离的关系 Fig. 5 Relationship of PRR and vehicle-to-vehicle distances

图 6对比了3种算法的UD与车间距离的关系。

	Download: JPG larger image
图 6 UD与车间距离的关系 Fig. 6 Relationship of UD and vehicle-to-vehicle distances

从图 6可以看出，随着车间距离的增加，3种算法的UD均增加，但是本文算法的UD在3种算法中性能最好。这是因为UD表示接收端车辆成功接收2个CAM时间间隔，这与PRR的性能有关，PRR越大UD则越小，而本文算法的PRR性能相比较其他2种算法更好，因此UD的性能也最好。比如，当车间距离为200 m时，本文提出算法中车辆每隔3.9 ms就正确更新一次CAM，而RAS算法和WEA算法的UD为4.5 ms和4.2 ms，分别降低了0.6 ms和0.3 ms。

4 结束语

本文针对C-V2X Mode 4场景的资源分配和功率控制联合优化问题，提出一种基于DQN的联合资源分配与功率控制算法。通过构造DNN车辆从环境中自动获取信道状态，通过迭代学习为CAM选择最优子信道和传输功率。仿真结果表明，与基准算法相比，该算法不仅能够提高系统的PRR，加快CAM的更新频率，而且提高车间通信的可靠性，可应用于基站覆盖范围受限的高密度交通流短距离车间通信场景。下一步将联合资源自主选择模式和资源调度分配模式，进行混合资源分配模式的研究，并在真实仿真模型中对比算法性能。

参考文献

[1]	3GPP. Evolved Universal Terrestrial Radio Access (E-UTRA) and Evolved Universal Terrestrial Radio Access Network (E-UTRAN); overall description; stage 2(v14.3.0, release 14)[EB/OL]. [2020-07-01]. https://www.arib.or.jp/IMT-2000/.
[2]	BAZZI A, MASINI B M, ZANELLA A, et al. On the performance of IEEE 802.11 p and LTE-V2V for the cooperative awareness of connected vehicles[J]. IEEE Transactions on Vehicular Technology, 2017, 66(11): 10419-10432. DOI:10.1109/TVT.2017.2750803
[3]	MOLINAM R, GOZALVEZ J. LTE-V for Sidelink 5G V2X vehicular communications: anew 5G technology for short-range vehicle-to-everything communications[J]. IEEE Vehicular Technology Magazine, 2017, 12(4): 30-39. DOI:10.1109/MVT.2017.2752798
[4]	NABIL A, KAUR K, DIETRICH C, et al. Performance analysis of sensing-based semi-persistent scheduling in C-V2X networks[C]//Proceedings of the 88th IEEE Vehicular Technology Conference. Washington D.C., USA: IEEE Press, 2018: 1-5.
[5]	KIM J, LEE J, MOON S, et al. A position-based resource allocation scheme for V2V communication[J]. Wireless Personal Communications, 2018, 98(1): 1569-1586. DOI:10.1007/s11277-017-4935-3
[6]	GONZALEZ-MARTIN M, SEPULCRE M. Analytical models of the performance of C-V2X mode 4 vehicular communications[J]. IEEE Transactions on Vehicular Technology, 2018, 68(2): 1155-1166.
[7]	MOLINA-MASEGOSA R, GONZALEZ J, SEPULCRE M. Configuration of the C-V2X Mode-4 sidelink PC5 interface for vehicular communications[C]//Proceedings of the 14th International Conference on Mobile Ad-Hoc and Sensor Networks. Washington D.C., USA: IEEE Press, 2018: 43-48.
[8]	BAZZI A, CECCHINI G, ZANELLA A, et al. Study of the impact of PHY and MAC parameters in 3GPP C-V2V Mode 4[J]. IEEE Access, 2018, 7: 1685-1698.
[9]	JUNG S Y, CHEON H R, KIM J H. Reducing consecutive collisions in sensing based semi persistent scheduling for cellular-V2X[C]//Proceedings of the 90th IEEE Vehicular Technology Conference. Washington D.C., USA: IEEE Press, 2019: 1-5.
[10]	WANG X, BERRY R A, VUKOVIC I, et al. A fixed-point model for semi-persistent scheduling of vehicular safety messages[C]//Proceedings of the 88th IEEE Vehicular Technology Conference. Washington D.C., USA: IEEE Press, 2018: 1-5.
[11]	ABANTO-LEON L F, KOPPELAAR A, DE GROOT S H. Enhanced C-V2X Mode-4 subchannel selection[C]//Proceedings of the 88th IEEE Vehicular Technology Conference. Washington D.C., USA: IEEE Press, 2018: 112-121.
[12]	YU X, CHEN X D, WANG Z, et al. Resource allocation algorithm of vehicular network based on LTE-V2X[J]. Computer Engineering, 2021, 47(2): 188-193. (in Chinese) 余翔, 陈晓东, 王政, 等. 基于LTE-V2X的车联网资源分配算法[J]. 计算机工程, 2021, 47(2): 188-193.
[13]	QIAN Z H, TIAN C S, WANG X, et al. Research on channel selection and power control strategy in D2D network[J]. Journal of Electronics and Information Technology, 2019, 41(10): 2287-2293. (in Chinese) 钱志鸿, 田春生, 王鑫, 等. D2D网络中信道选择与功率控制策略研究[J]. 电子与信息学报, 2019, 41(10): 2287-2293. DOI:10.11999/JEIT190149
[14]	HUANG J, HUANG S, XING C C, et al. Game-theoretic power control mechanisms for device-to-device communications underlaying cellular system[J]. IEEE Transactions on Vehicular Technology, 2018, 67(6): 4890-4900. DOI:10.1109/TVT.2018.2800051
[15]	XU C B, WU J. Power optimization control scheme based on clustering in ultra-dense networks[J]. Computer Engineering, 2019, 45(1): 55-60. (in Chinese) 徐昌彪, 吴杰. 超密集网中基于分簇的功率优化控制方案[J]. 计算机工程, 2019, 45(1): 55-60.
[16]	YE H, LI G Y, JUANG B H F. Deep reinforcement learning based resource allocation for V2V communications[J]. IEEE Transactions on Vehicular Technology, 2019, 68(4): 3163-3173. DOI:10.1109/TVT.2019.2897134
[17]	ZHANG X, PENG M, YAN S, et al. Deep reinforcement learning based mode selection and resource allocation for cellular V2X communications[J]. IEEE Internet of Things Journal, 2019, 23(6): 2372-2385.
[18]	TOGHI B, SAIFUDDIN M, MAHJOUB H, et al. Multipleaccess in cellular V2X: performance analysis in highly congested vehicular networks[C]//Proceedings of the 88th IEEE Vehicular Networking Conference. Washington D.C., USA: IEEE Press, 2018: 57-68.
[19]	ARULKUMARAN K, DEISENROTTH M P, BRUNDAGE M, et al. Deep reinforcement learning: a brief survey[J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38. DOI:10.1109/MSP.2017.2743240
[20]	LIU J W, GAO F, LUO X L. Review of deep reinforcement learning based on value function and policy gradient[J]. Chinese Journal of Computers, 2019, 42(6): 1406-1438. (in Chinese) 刘建伟, 高峰, 罗雄麟. 基于值函数和策略梯度的深度强化学习综述[J]. 计算机学报, 2019, 42(6): 1406-1438.