在现实生活中, 很多问题可转化为拥塞博弈。拥塞博弈理论由ROSENTHAL提出, 是指玩家争夺有限资源的一类非合作博弈, 其中每个玩家的花费只取决于玩家所选的资源和选择相同资源的玩家的数量。ROSENTHAL指出, 任意一个拥塞博弈都是一个势博弈[1], 即每一个拥塞博弈都至少有一个纯策略纳什均衡, 玩家无法通过单方面改变自己的策略来降低花费。由此, 拥塞博弈理论在许多学者的推动下得以迅速发展[2-4], 并且在交通网络[5-6]、认知无线电网络[7-8]以及资源分配问题[9]等诸多领域被广泛应用。拥塞博弈可被重复进行多次, 即为演化拥塞博弈。
近年来, 矩阵的半张量积理论得到快速发展[10], 其在布尔网络、多值逻辑网络以及博弈论领域已取得诸多成果, 形成了多值逻辑网络的能控性、能观性[12]、稳定性[13]、镇定性[14]、布尔网络的同步[15]以及鲁棒输出跟踪问题[16]等理论。利用半张量积方法, 研究人员进一步发展了网络演化博弈[17-18]、演化博弈[19-20]、拥塞博弈[21]等理论。文献[21]利用矩阵的半张量积将经典拥塞博弈表示成代数形式, 对于动态设备系统, 通过优化每个玩家的支付函数实现全局最优, 并考虑玩家采用串联型短视最优响应更新规则的演化动态会全局收敛到纳什均衡。上述半张量积方法的应用均认为博弈的策略更新只依赖于其最后一步, 然而在生物系统和经济活动中, 每个玩家都能记住过去不止一个时刻的决策行为, 在这种情况下, 所有玩家的下一步策略选择都是基于最后有限步的行为。因此, 在演化拥塞博弈中考虑所有玩家都能记住最后有限步策略是合理的。
目前, 已有许多学者对带有时滞的演化博弈进行了研究。文献[22]研究了带有时滞的演化博弈的动态变化和稳定性, 主要考虑两种时滞(时不变和时变)的局势轨迹动态, 并利用矩阵的半张量积理论将其动态系统表示成代数形式, 通过分析其状态转移矩阵来研究系统稳定到纳什均衡的条件。文献[23]对带有有限步记忆的网络演化博弈的收敛性问题进行研究, 其在一个正确的假设下, 通过设计自由控制序列使得带有有限步记忆的网络演化博弈全局收敛到纳什均衡。此外, 时滞现象同样存在于演化拥塞博弈问题中, 目前还没有相关文献对该问题进行研究。
本文在文献[21]的基础上, 利用半张量积的方法, 考虑策略更新规则为并联型短视最优响应的拥塞博弈的时滞演化过程, 并且其时滞是有限步记忆。因为交通系统中的出行者互不相识, 所以在遇到拥塞时, 所有出行者都有可能更换路径。如果下一时刻只有一个玩家更新其策略, 那么任意给定的初始局势一定会全局收敛到纳什均衡。然而, 如果所有玩家在下一时刻同时更新自己的策略, 其并不能保证所有初始状态时滞演化后的拥塞博弈全局收敛到纳什均衡, 因此, 在拥塞博弈的时滞演化过程中, 通过对玩家施加控制来影响博弈过程是非常必要的。本文通过设计开环控制和状态反馈控制, 使时滞演化拥塞博弈全局镇定到纳什均衡, 从而实现资源花费最小。
1 预备知识本节主要介绍矩阵的半张量积理论和演化博弈论的相关符号、概念及性质。
令
定义1 令A∈
$ \mathit{\boldsymbol{A}} \ltimes \mathit{\boldsymbol{B}}: = (\mathit{\boldsymbol{A}} \otimes {\mathit{\boldsymbol{I}}_{t/n}})(\mathit{\boldsymbol{B}} \otimes {\mathit{\boldsymbol{I}}_{t/p}}) \in {\mathcal{M}_{mt/n \times qt/p}} $ |
其中, ⊗表示Kronecker积。由于矩阵的半张量积几乎保持了传统矩阵乘积的所有主要性质, 因此在不混淆的情况下, 可以省略“⋉”。
定义2 令A∈
$ \begin{array}{*{20}{l}} {\mathit{\boldsymbol{A}} * \mathit{\boldsymbol{B}} = [C_{{\rm{col}}}^1(\mathit{\boldsymbol{A}}) \ltimes C_{{\rm{col}}}^1(\mathit{\boldsymbol{B}}),}\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} C_{{\rm{col}}}^2(\mathit{\boldsymbol{A}}) \ltimes C_{{\rm{col}}}^2(\mathit{\boldsymbol{B}}), \cdots ,C_{{\rm{col}}}^n(\mathit{\boldsymbol{A}}) \ltimes C_{{\rm{col}}}^n(\mathit{\boldsymbol{B}})]} \end{array} $ |
命题1 设X∈Δk, 则有[10]:
$ {\mathit{\boldsymbol{X}}^2} = \mathit{\boldsymbol{O}}_k^R\mathit{\boldsymbol{X}} $ |
其中, OkR:=δk2[1, k+2, 2k+3, …, k2]∈
命题2 设X∈Rm是一列向量, A为任意矩阵[10], 则有:
$ \mathit{\boldsymbol{X}} \times \mathit{\boldsymbol{A}} = ({\mathit{\boldsymbol{I}}_m} \ltimes \mathit{\boldsymbol{A}})\mathit{\boldsymbol{X}} $ |
命题3 设X∈Rm, Y∈Rn是2个列向量[10], 则有:
$ {\mathit{\boldsymbol{W}}_{[m,n]}}\mathit{\boldsymbol{XY}} = \mathit{\boldsymbol{YX}} $ |
其中, W[m, n]=δmn[1, m+1, …, (n-1)m+1, 2, m+2, …, (n-1)m+2, …, m, 2m, …, nm]为换位矩阵。
引理1 设f:
$ f({x_1},{x_2}, \cdots ,{x_n}) = {\mathit{\boldsymbol{M}}_f} \ltimes _{i = 1}^n{x_i} $ |
其中, Mf是f的结构矩阵。
定义3 给定一个有限博弈G=(N, S, C), 局势s*=(s*1, s*2, …, s*n)称为一个纳什均衡[11], 如果ci(s*1, s*2, …, s*n)≤ci(s*1, …, s*i-1, si, s*i+1, …, s*n), 则有si∈Si, i=1, 2, …, n。其中, C表示玩家的花费。
2 本文方法本节给出经典的拥塞博弈, 对时滞演化拥塞博弈的动态系统进行建模, 并将其表示成代数形式, 设计开环控制和状态反馈控制, 使时滞演化拥塞博弈全局镇定到纳什均衡。
2.1 拥塞博弈一个拥塞博弈G=(N, P, (Si)i∈N, (Ξj)j∈P), 其中:
1) N={1, 2, …, n}表示有限的玩家集。
2) P={1, 2, …, p}表示有限的所有玩家共享的资源集。
3) Si⊂P表示玩家i的策略集, 其中, si∈Si是i的策略。
4) Ξj表示资源j∈P的花费, 其只依赖于局势中选取资源j的玩家数量, 局势记作s=(s1, s2, …, sn), 局势的集合为
令所有资源的花费函数为:
$ \Xi = \left[ {\begin{array}{*{20}{l}} {{\Xi _1},{\Xi _2}, \cdots ,{\Xi _p}]} \end{array}} \right. $ | (1) |
其中, Ξj=[ξ1j, ξ2j, …, ξnj], j=1, 2, …, p, ξkj表示有k个玩家选取资源j的花费, 则玩家i的花费函数为:
$ {c_i}(s) = \sum\limits_{j = {s^i}} {{\Xi _j}} ({k_j}(s)),i = 1,2, \cdots ,n $ |
本文考虑一类演化拥塞博弈, 其中所有玩家的策略都带有时滞, 则时滞演化拥塞博弈的动态方程如下:
$ \begin{array}{*{20}{l}} {{x_i}(t + 1) = {f_i}({x_1}(t - \tau + 1),{x_2}(t - \tau + 1), \cdots ,}\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {x_n}(t - \tau + 1), \cdots ,{x_1}(t),{x_2}(t), \cdots ,{x_n}(t))} \end{array} $ | (2) |
其中, i=1, 2, …, n, xi(l)∈P是玩家i在时刻l的策略, l=t-τ+1, t-τ+2, …, t, fi:
本文采用的更新规则是时间并联型短视最优响应, 最优响应策略集记作:
$ {O_i}(x(t)) = \mathop { {\rm{argmin}} }\limits_{{x_i}{\kern 1pt} \in {\kern 1pt} {\kern 1pt} P} \{ {c_i}({x^i},{x^{ - i}})\} $ |
如果xi(t)∈Oi(x(t)), 则xi(t+1)=xi(t), 否则选择最小下标j, 使得xj(t)∈Oi(x(t)), 并令xi(t+1)=xj(t)。
将时滞演化拥塞博弈的动态方程转化为代数形式, 根据引理1, 令
$ \begin{array}{*{20}{l}} {{x_i}(t + 1) = {\mathit{\boldsymbol{M}}_i}x(t - \tau + 1)x(t - \tau + 2) \cdots x(t)}\\ {i = 1,2, \cdots ,n} \end{array} $ |
其中, Mi∈
整合上述方程, 得到如下公式:
$ x(t + 1) = \mathit{\boldsymbol{M}}x(t - \tau + 1)x(t - \tau + 2) \cdots x(t) $ | (3) |
其中, M=M1*M2*…*Mn∈
为方便研究, 本文将带时滞的动态系统, 即式(3)转换成不带时滞的动态系统。令y(t)=x(t-τ+1)x(t-τ+2)…x(t), 则有如下公式:
$ \begin{array}{l} \begin{array}{*{20}{l}} {y(t + 1) = x(t - \tau + 2)x(t - \tau + 3) \cdots x(t)x(t + 1) = }\\ {x(t - \tau + 2)x(t - \tau + 3) \cdots x(t)\mathit{\boldsymbol{M}}y(t) = } \end{array}\\ \begin{array}{*{20}{l}} {({\mathit{\boldsymbol{I}}_{p(\tau - 1)n}} \otimes \mathit{\boldsymbol{M}})x(t - \tau + 2)x(t - \tau + 3) \cdots x(t)}\\ {x(t - \tau + 1)x(t - \tau + 2) \cdots x(t - 1)x(t) = } \end{array}\\ \begin{array}{*{20}{l}} {({\mathit{\boldsymbol{I}}_{p(\tau - 1)n}} \otimes \mathit{\boldsymbol{M}}){\mathit{\boldsymbol{W}}_{[{p^n},p(\tau - 1)n]}}x(t - \tau + 1)}\\ {O_{p(\tau - 1)n}^Rx(t - \tau + 2)x(t - \tau + 3) \cdots x(t - 1)x(t) = } \end{array}\\ ({\mathit{\boldsymbol{I}}_{p(\tau - 1)n}} \otimes \mathit{\boldsymbol{M}}){\mathit{\boldsymbol{W}}_{[{p^n},p(\tau - 1)n]}}({\mathit{\boldsymbol{I}}_{{p^n}}} \otimes \mathit{\boldsymbol{O}}_{p(\tau - 1)n}^R)y(t) \end{array} $ |
经整理得到如下公式:
$ y(t + 1) = \mathit{\boldsymbol{\tilde M}}y(t) $ | (4) |
其中,
注1 本文将x(t)称为策略局势, 将X(t)=(x(t-τ+1), x(t-τ+2), …, x(t))称为长度为τ的轨迹局势。
对于时滞演化拥塞博弈(式(3)), 可以用不带时滞的动态系统的状态转移矩阵
定理1 考虑不带时滞的系统(式(4)), δpτnb是纳什均衡的充要条件为
证明(必要性) 假设:
$ \begin{array}{l} y(t) = x(t - \tau + 1)x(t - \tau + 2) \cdots x(t) = \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \ltimes _{i = 1}^n{x_i}(t - \tau + 1) \ltimes _{i = 1}^n{x_i}(t - \tau + 2) \cdots \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \ltimes _{i = 1}^n{x_i}(t) = \delta _{{p^{\tau n}}}^b \end{array} $ |
是一个纳什均衡, 则对于每个玩家i∈N, 都有xi(l)∈Oi(x(l)), l=t-τ+1, t-τ+2, …, t。因此, y(t+1)=
证明(充分性) 假设:
$ \begin{array}{l} y(t) = x(t - \tau + 1)x(t - \tau + 2) \cdots x(t - 1)x(t) = \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \ltimes _{i = 1}^n{x_i}(t - \tau + 1) \ltimes _{i = 1}^n{x_i}(t - \tau + 2) \cdots \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \ltimes _{i = 1}^n{x_i}(t) = \delta _{{p^{\tau n}}}^b \end{array} $ |
不是纳什均衡, 则至少存在一个玩家i, 使得xi(l)∉Oi(x(l)), l=t-τ+1, t-τ+2, …, t。因此, y(t+1)=
该定理说明, 对于不带时滞的动态系统(式(4)), 纳什均衡与不动点是重合的, 则式(4)至少有一个不动点。
注2 该定理与文献[24]的不同之处主要有两点:
1) 系统不同, 本文的演化动态系统是带有时滞的。
2) 证明方法不同, 本文采用矩阵的半张量积方法。
2.3 控制器设计本文考虑通过添加控制玩家来研究时滞演化拥塞博弈的镇定性。不失一般性, 假设玩家1~玩家m是控制玩家, 其他n-m个玩家是正常玩家, 则记
$ \begin{array}{*{20}{l}} {y(t + 1) = \mathit{\boldsymbol{L}}u(t - \tau + 1)y(t - \tau + 1)u(t - \tau + 2)}\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} y(t - \tau + 2) \cdots u(t)y(t)} \end{array} $ | (5) |
其中, L=Mm+1*Mm+2*…*Mn, u(t)∈Δpm。
根据命题2和命题3, 式(5)可转化为如下形式:
$ \begin{array}{*{20}{l}} {y(t + 1) = \mathit{\boldsymbol{L \boldsymbol{\varPhi} }}u(t - \tau + 1)u(t - \tau + 2) \cdots u(t)}\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} y(t - \tau + 1)y(t - \tau + 2) \cdots y(t)} \end{array} $ | (6) |
其中,
令z(t)=y(t-τ+1)y(t-τ+2)…y(t), v(t)=u(t-τ+1)u(t-τ+2)…u(t), 则式(6)可转化为如下形式:
$ z(t + 1) = \mathit{\boldsymbol{\tilde L}}v(t)z(t) $ | (7) |
其中,
引理2 对于式(7), 状态δpτnj从状态δpτni可达的充要条件为Ccolb(
在设计开环控制和状态反馈控制时, 使系统中的所有状态全局镇定到纳什均衡点集, 记为Ω。由于时滞演化拥塞博弈至少有一个纳什均衡, 因此将每一个纳什均衡点δpτnj分解成δpmi1δpn-mk1δpmi2δpn-mk2…δpmiτδpn-mkτ, 对任意给定的初始状态δpτ(n-m)l, 选取任意的控制δpmi1δpmi2…δpmiτ=δpτmi∈Δpτm, 只要保证z(t+1)=δpτ(n-m)k=δpn-mk1δpn-mk2…δpn-mkτ即可。时滞演化拥塞博弈经过有限次演化之后, 不论初始状态是什么, 所有状态最终定会进入不动点或简单极限环。为了使式(7)中的所有状态全局镇定到纳什均衡, 只需对简单极限环中的局势施加控制即可。鉴于极限环的特点, 控制极限环中的一个局势即可。
考虑时滞演化拥塞博弈的开环控制, 给出以下定理:
定理2 式(7)中的所有状态全局镇定到纳什均衡, 当且仅当存在控制v(t), 使得对极限环中的任意初始状态z(t)=δpτ(n-m)l时, 有如下公式:
$ {C_{{\rm{col}}{\kern 1pt} l}}(\mathit{\boldsymbol{\tilde L}}v(t)) \in {\varOmega _1} $ | (8) |
其中, Ω1={δpτ(n-m)k|δpmiδpτ(n-m)k=δpτnj∈Ω}。
证明 由式(7)可知, 对极限环中的任意初始状z(t)=δpτ(n-m)l, 通过设计控制v(t), 使得z(t+1)∈Ω1。z(t+1)∈Ω1与Ccoll(
在设计状态反馈控制v(t)=Kz(t)时, 使得博弈演化过程中的所有状态全局镇定到纳什均衡。将式(7)转化为如下形式:
$ z(t + 1) = \mathit{\boldsymbol{\tilde L}}z(t)v(t) $ | (9) |
其中,
记Ω1的γ步可达集为Eγ(Ω1), 定义一步可达集E(Ω1)={δpτ(n-m)i|col(Ω1)⊂col(
定理3 式(9)能够通过状态反馈控制全局镇定到纳什均衡, 当且仅当存在一个逻辑矩阵K和一个整数γ≥1, 使得:
$ {C_{{\rm{col}}}}({(\mathit{\boldsymbol{\bar L}}({\mathit{\boldsymbol{I}}_{{p^{\tau (n - m)}}}} \otimes \mathit{\boldsymbol{K}})\mathit{\boldsymbol{O}}_{{p^{\tau (n - m)}}}^R)^\gamma }) \in {\varOmega _1} $ | (10) |
证明(充分性) 假设式(10)成立, 通过构建状态反馈控制使得式(9)全局镇定到纳什均衡。将
假设:
$ \overline {{E_w}({\varOmega _1})} = {E_w}({\varOmega _1})\backslash {E_{w - 1}}({\varOmega _1}),w = 1,2, \cdots ,\gamma $ | (11) |
其中,
记K=[δpτmα1, δpτmα2, …, δpτmαpτ(n-m)]∈
在控制v(t)=Kz(t)下, 对任意给定的初始状态z(t), 有z(t+1)∈Ω1, 因此, 式(9)能够通过状态反馈控制全局镇定到纳什均衡。
证明(必要性) 假设式(9)能够通过状态反馈控制v(t)=Kz(t), K∈
$ z(t + 1) = \mathit{\boldsymbol{\bar L}}z(t)\mathit{\boldsymbol{K}}z(t) = \mathit{\boldsymbol{\bar L}}({\mathit{\boldsymbol{I}}_{{p^{\tau (n - m)}}}} \otimes \mathit{\boldsymbol{K}})\mathit{\boldsymbol{O}}_{{p^{\tau (n - m)}}}^Rz(t) $ | (12) |
对任意给定的初始状态z(t), 在控制v(t)=Kz(t)下, 有z(t+1)∈Ω1, 且z(t+1)∈Ω1与Ccol(
注3 定理3给出了状态反馈控制矩阵的设计过程。
3 算例分析例1 考虑交通系统中的时滞演化拥塞博弈。令N={1, 2, 3}表示3个玩家(即3辆大货车), P={1, 2}表示2个资源(即2条路)。3辆货车同时从A点运货到B点, 并且共享2条路, 可以看出, 选同一条路的货车数越多, 每一辆货车花费的时间就越多。根据式(1), 设所有资源的花费为Ξ=10131551223。
假设τ=2, 记x(t)=x1(t)x2(t)x3(t), y(t)=x(t-1)x(t), 则采用时间并联型的短视最优响应得到局势演化方程的代数形式如下:
$ y(t + 1) = \mathit{\boldsymbol{\tilde M}}y(t) $ |
其中,
由
为了使所有的状态全部演化到不动点集合Ω, 需要设计控制器。假设玩家1是控制玩家, 则局势控制演化方程的代数形式如下:
$ z(t + 1) = \mathit{\boldsymbol{\tilde L}}v(t)z(t) $ |
其中, z(t)=y(t-1)y(t), v(t)=u(t-1)u(t),
在考虑开环控制时, 将不动点局势进行分解, 则可选的控制有{δ41, δ42, δ43, δ44}、Ω1={δ166, δ1611, δ1616}。由定理2可知, 当环中的初始状态为z(t)∈{δ164, δ168, δ1612}时, 取控制v(t)=δ41, 有coll(
然后设计状态反馈控制v(t)=Kz(t), K=[δ4α1, δ4α2, …, δ4α16]。由式(9)可得:
$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \mathit{\boldsymbol{\bar L}} = [4,4,4,4,8,8,8,6,12,12,12,11,16,16,\\ \begin{array}{*{20}{l}} {16,13,4,4,4,2,8,6,6,6,12,12,12,9,16,14,14,13,}\\ {4,4,4,3,8,8,8,5,12,11,11,11,16,15,15,13,4,4,}\\ {\left. {4,1,8,6,6,5,12,11,11,9,16,13,13,13} \right]}。\end{array} \end{array} $ |
由定理3, 将
$ \begin{array}{*{20}{l}} {{{\mathit{\boldsymbol{\bar L}}}_1} = {\delta _{16}}[4,4,4,4],{{\mathit{\boldsymbol{\bar L}}}_2} = {\delta _{16}}[8,8,8,6]}\\ {{{\mathit{\boldsymbol{\bar L}}}_3} = {\delta _{16}}[12,12,12,11],{{\mathit{\boldsymbol{\bar L}}}_4} = {\delta _{16}}[16,16,16,13]}\\ {{{\mathit{\boldsymbol{\bar L}}}_5} = {\delta _{16}}[4,4,4,2],{{\mathit{\boldsymbol{\bar L}}}_6} = {\delta _{16}}[8,6,6,6]}\\ {{{\mathit{\boldsymbol{\bar L}}}_7} = {\delta _{16}}[12,12,12,9],{{\mathit{\boldsymbol{\bar L}}}_8} = {\delta _{16}}[16,14,14,13]}\\ {{{\mathit{\boldsymbol{\bar L}}}_9} = {\delta _{16}}[4,4,4,3],{{\mathit{\boldsymbol{\bar L}}}_{10}} = {\delta _{16}}[8,8,8,5]}\\ {{{\mathit{\boldsymbol{\bar L}}}_{11}} = {\delta _{16}}[12,11,11,11],{{\mathit{\boldsymbol{\bar L}}}_{12}} = {\delta _{16}}[16,15,15,13]}\\ {{{\mathit{\boldsymbol{\bar L}}}_{13}} = {\delta _{16}}[4,4,4,1],{{\mathit{\boldsymbol{\bar L}}}_{14}} = {\delta _{16}}[8,6,6,5]}\\ {{{\mathit{\boldsymbol{\bar L}}}_{15}} = {\delta _{16}}[12,11,11,9],{{\mathit{\boldsymbol{\bar L}}}_{16}} = {\delta _{16}}[16,13,13,13]} \end{array} $ |
对于{δ166, δ1611, δ1616}∈Ω1, 可以得到Ccoli(
对于{δ161, δ162, δ163, δ164, δ165, δ167, δ168, δ169, δ1610, δ1612, δ1613, δ1614, δ1615}∉Ω1, 根据式(14)可得如下公式:
$ \begin{array}{l} \overline {{E_1}({\varOmega _1})} = {E_1}({\varOmega _1})\backslash {\varOmega _1} = \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \{ \delta _{16}^2,\delta _{16}^3,\delta _{16}^4,\delta _{16}^8,\delta _{16}^{14},\delta _{16}^{15},\delta _{16}^{12}\} \\ \overline {{E_2}({\varOmega _1})} = {E_2}({\varOmega _1})\backslash {E_1}({\varOmega _1}) = \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \{ \delta _{16}^1,\delta _{16}^5,\delta _{16}^7,\delta _{16}^9,\delta _{16}^{10},\delta _{16}^{13}\} \end{array} $ |
此时有:
$ \begin{array}{l} {C_{{\rm{col}}{\kern 1pt} {\rm{4}}}}({{\mathit{\boldsymbol{\bar L}}}_2}) \in \overline {{E_0}({\Omega _1})} \\ {C_{{\rm{col}}{\kern 1pt} {\rm{4}}}}({{\mathit{\boldsymbol{\bar L}}}_3}) \in \overline {{E_0}({\Omega _1})} \\ \begin{array}{*{20}{l}} {{C_{{\rm{ col}}{\kern 1pt} {\kern 1pt} i}}({{\mathit{\boldsymbol{\bar L}}}_4}) \in \overline {{E_0}({\Omega _1})} ,i = 1,2,3}\\ {{C_{{\rm{col}}{\kern 1pt} {\rm{1}}}}({{\mathit{\boldsymbol{\bar L}}}_8}) \in \overline {{E_0}({\Omega _1})} }\\ {{C_{{\rm{col}}{\kern 1pt} {\rm{1}}}}({{\mathit{\boldsymbol{\bar L}}}_{12}}) \in \overline {{E_0}({\Omega _1})} } \end{array}\\ \begin{array}{*{20}{l}} {{C_{{\rm{ col}}{\kern 1pt} {\kern 1pt} i}}({{\mathit{\boldsymbol{\bar L}}}_{14}}) \in \overline {{E_0}({\Omega _1})} ,i = 2,3}\\ {{C_{{\rm{ col}}{\kern 1pt} {\kern 1pt} i}}({{\mathit{\boldsymbol{\bar L}}}_{15}}) \in \overline {{E_0}({\Omega _1})} ,i = 2,3}\\ {{C_{{\rm{ col}}{\kern 1pt} {\kern 1pt} i}}({{\mathit{\boldsymbol{\bar L}}}_1}) \in \overline {{E_1}({\Omega _1})} ,i = 1,2,3,4} \end{array}\\ \begin{array}{*{20}{l}} {{C_{{\rm{col}}{\kern 1pt} {\rm{4}}}}({{\mathit{\boldsymbol{\bar L}}}_5}) \in \overline {{E_1}({\Omega _1})} }\\ {{C_{{\rm{ col}}{\kern 1pt} {\kern 1pt} i}}({{\mathit{\boldsymbol{\bar L}}}_7}) \in \overline {{E_1}({\Omega _1})} ,i = 1,2,3}\\ {{C_{{\rm{col}}{\kern 1pt} {\rm{4}}}}({{\mathit{\boldsymbol{\bar L}}}_9}) \in \overline {{E_1}({\Omega _1})} }\\ {{C_{{\rm{ col}}{\kern 1pt} {\kern 1pt} i}}({{\mathit{\boldsymbol{\bar L}}}_{10}}) \in \overline {{E_1}({\Omega _1})} ,i = 1,2,3}\\ {{C_{{\rm{ col}}{\kern 1pt} {\kern 1pt} i}}({{\mathit{\boldsymbol{\bar L}}}_{13}}) \in \overline {{E_1}({\Omega _1})} ,i = 1,2,3} \end{array} \end{array} $ |
因此, α2、α3、α5、α9列可选的控制是δ44, α8、α12列可选的控制是δ41, α14、α15列可选的控制是δ42和δ43, α4、α7、α10、α13列可选的控制是δ41、δ42、δ43, α1列可选的控制是δ41、δ42、δ43、δ44, 具体镇定过程如图 1所示。
![]() |
Download:
|
图 1 例1设计所用的控制序列 Fig. 1 Control sequence used in the design of example 1 |
任取K=[δ41, δ44, δ44, δ42, δ44, δ42, δ43, δ41, δ44, δ43, δ43, δ41, δ43, δ42, δ43, δ41], 由式(12)可得下式:
$ \begin{array}{*{20}{l}} {z(t + 1) = {{[\mathit{\boldsymbol{\bar L}}({\mathit{\boldsymbol{I}}_{16}} \otimes \mathit{\boldsymbol{K}})\mathit{\boldsymbol{O}}_{16}^R]}^2}z(t) = }\\ {[16,6,11,16,6,6,16,16,11,16,11,16,16,6,11,16]z(t)} \end{array} $ |
可以看出, 在状态反馈控制下, 时滞拥塞博弈的所有初始状态都演化到不动点Ω1, 即时滞演化拥塞博弈全局镇定到纳什均衡。
4 结束语本文对时滞演化拥塞博弈的控制问题进行研究, 提出一种基于半张量积的时滞演化拥塞博弈镇定方法。将时滞演化拥塞博弈建模成多值逻辑动态系统, 利用矩阵的半张量积给出等价的代数形式。在此基础上, 分析时滞演化拥塞博弈的动态行为, 通过在该博弈中添加可以自由选择策略的控制玩家研究其镇定问题。对于给定的任意初始局势, 给出该博弈是否存在控制使得其全局镇定到纳什均衡的充要条件及控制的具体设计过程。在基于半张量积方法的演化拥塞博弈中, 仍有一些问题有待解决, 如在实际的演化拥塞博弈中, 可能存在攻击玩家干扰其他玩家的策略选择的情况。因此, 带有攻击玩家的演化拥塞博弈有待进一步研究。
[1] |
ROSENTHAL R W. A class of games possessing pure-strategy Nash equilibria[J]. International Journal of Game Theory, 1973, 2(1): 65-67. |
[2] |
IWASE T, TADOKORO Y, FUKUDA D. Self-fulfilling signal of an endogenous state in network congestion games[J]. Networks and Spatial Economics, 2017, 17(3): 889-909. DOI:10.1007/s11067-017-9351-4 |
[3] |
LIU Juefu, CHEN Xiao. Research on dynamic spectrum allocation algorithm based on spatial congestion games with adaptive load balancing[J]. Computer Engineering and Science, 2013, 35(7): 64-70. (in Chinese) 刘觉夫, 陈晓. 基于空间拥塞博弈的自适应负载频谱分配算法研究[J]. 计算机工程与科学, 2013, 35(7): 64-70. DOI:10.3969/j.issn.1007-130X.2013.07.011 |
[4] |
YAO Yukun, LI Juan, ZHANG Yi, et al. Multipath routing algorithm for code-aware congestion avoidance in WMN[J]. Computer Engineering and Design, 2019, 40(5): 1237-1242. (in Chinese) 姚玉坤, 李娟, 张毅, 等. WMN中编码感知的拥塞避免多路径路由算法[J]. 计算机工程与设计, 2019, 40(5): 1237-1242. |
[5] |
BELGHITI I D, MABROUK A.5G-dynamic resource sharing mechanism for vehicular networks: congestion game approach[C]//Proceedings of International Symposium on Advanced Electrical and Communication Technologies.Washington D.C., USA: IEEE Press, 2018: 1-5.
|
[6] |
LI Yong, CAI Mengsi, LI Li. Research on critical value of traffic congestion propagation based on coordination game[J]. Application Research of Computers, 2016, 33(7): 1971-1982. (in Chinese) 李勇, 蔡梦思, 李黎. 基于协调博弈的交通拥塞传播临界值研究[J]. 计算机应用研究, 2016, 33(7): 1971-1982. DOI:10.3969/j.issn.1001-3695.2016.07.010 |
[7] |
LU Lingyun, CHEN Yating, LI Tingting. Collaborative congestion control of sensing router group in high speed railway[J]. Computer Engineering, 2017, 43(12): 136-154. (in Chinese) 鲁凌云, 陈娅婷, 李婷婷. 高速铁路下感知路由器群的协同拥塞控制[J]. 计算机工程, 2017, 43(12): 136-154. DOI:10.3969/j.issn.1000-3428.2017.12.026 |
[8] |
JIA Jie, LIN Qiusi, CHEN Jian, et al. Joint power control and channel assignment for congestion avoidance in cognitive radio mesh network[J]. Chinese Journal of Computers, 2013, 36(5): 915-925. (in Chinese) 贾杰, 林秋思, 陈剑, 等. 认知无线Mesh网络中联合功率控制与信道分配的拥塞避免[J]. 计算机学报, 2013, 36(5): 915-925. |
[9] |
MARDEN J R, WIERMAN A. Distributed welfare games[J]. Operations Research, 2013, 61(1): 155-168. |
[10] |
CHENG Daizhan, QI Hongsheng. Analysis and control of Boolean networks:a semi-tensor product approach[M]. Berlin, Germany: Springer, 2011.
|
[11] |
JOHN F N. Non-cooperative game[J]. The Annals of Mathematics, 1951, 54(2): 286-295. DOI:10.2307/1969529 |
[12] |
CHENG Daizhan, QI Hongsheng. Controllability and obser-vability of Boolean control networks[J]. Automatica, 2009, 45(7): 1659-1667. DOI:10.1016/j.automatica.2009.03.006 |
[13] |
YU Yongyuan, MENG Min, FENG Jun'e, et al. Stabilizability analysis and switching signals design of switched Boolean networks[J]. Nonlinear Analysis-Hybrid Systems, 2018, 30: 31-44. DOI:10.1016/j.nahs.2018.04.004 |
[14] |
LIU Rongjian, LU Jianquan, LIU Yang, et al. Delayed feedback control for stabilization of Boolean control networks with state delay[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(7): 3283-3288. |
[15] |
ZHONG Jie, LU Jianquan, LIU Yang, et al. Synchronization in an array of output-coupled Boolean networks with time delay[J]. IEEE Transactions on Neural Networs and Learning Systems, 2014, 25(12): 2288-2294. DOI:10.1109/TNNLS.2014.2305722 |
[16] |
LI Haitao, WANG Yuzhen, XIE Lihua. Output tracking control of Boolean control networks via state feedback:constant reference signal case[J]. Automatica, 2015, 59: 54-59. DOI:10.1016/j.automatica.2015.06.004 |
[17] |
CHENG Daizhan, HE Fenghua, QI Hongsheng, et al. Modeling, analysis and control of networked evolutionary games[J]. IEEE Transactions on Automatic Control, 2015, 60(9): 2402-2415. DOI:10.1109/TAC.2015.2404471 |
[18] |
GE Meixia, ZHAO Jianli, XING Haiyun, et al.Impact of social punishment on networked evolutionary games via semi-tensor product method[C]//Proceedings of the 35th Chinese Control Conference.Washington D.C., USA: IEEE Press, 2016: 165-170.
|
[19] |
WANG Yuanhua, CHENG Daizhan. Stability and stabilization of a class of finite evolutionary games[J]. Journal of the Franklin Institute, 2017, 354(3): 1603-1617. DOI:10.1016/j.jfranklin.2016.12.007 |
[20] |
FU Shihua.Modeling, analysis and optimization of a type of evolutionary public goods games[C]//Proceedings of 2017 Chinese Automation Congress.Washington D.C., USA: IEEE Press, 2017: 1977-1982.
|
[21] |
HAO Yaqi, PAN Sisi, QIAO Yupeng, et al. Cooperative control via congestion game approach[J]. IEEE Transactions on Automatic Control, 2016, 63(12): 1-8. |
[22] |
WANG Yuanhua, CHENG Daizhan. Dynamics and stability for a class of evolutionary games with time delays in strategies[J]. Sciences China Information Sciences, 2016, 59(9): 1-10. |
[23] |
ZHAO Guodong, WANG Yuzhen, LI Haitao. A matrix approach to the modeling and analysis of networked evolutionary games with time delays[J]. IEEE/CAA Journal of Automatica Sinica, 2018, 5(4): 818-826. DOI:10.1109/JAS.2016.7510259 |
[24] |
ZHANG Kaize, XIAO Nan, XIE Lihua.Convergence speed analysis for evolutionary congestion games[C]//Proceedings of the 10th Asian Control Conference.[S.l.]: Asian Control Association, 2015: 1-5.
|
[25] |
ZHAO Yin, LI Zhiqiang, CHENG Daizhan. Optimal control of logical control networks[J]. IEEE Transactions on Automatic Control, 2011, 56(8): 1766-1776. DOI:10.1109/TAC.2010.2092290 |