1.3 本书的主要研究内容
第1章概述。首先介绍博弈学习通信抗干扰的研究背景,并提炼出相关研究面临的技术挑战;其次介绍博弈学习通信抗干扰的来源;最后给出本书的主要研究内容。
第2章博弈学习通信抗干扰的基础知识。主要从通信抗干扰基础知识、博弈论基础知识、典型博弈模型、博弈学习框架以及博弈学习通信抗干扰国内外研究动态等方面展开。
第3章基于Stackelberg博弈的功率控制抗干扰。面向功率抗干扰这一主题,针对现有研究工作难以充分考虑信息不完全对功率控制抗干扰决策的影响,研究了在不完全信息条件下Stackelberg 博弈功率控制抗干扰决策算法,提出了一种贝叶斯 Stackelberg 博弈功率控制抗干扰决策方案。利用对偶优化理论分析求解,获得了该博弈的 Stackelberg 均衡,并证明了Stackelberg均衡的存在性和唯一性。为了便于与目前实际无线通信网络中的离散功率策略相匹配,设计了一种离散功率策略条件下基于 Q 学习的分层功率控制算法,并从理论上分析了所提算法的收敛性能。
第4章基于Stackelberg博弈的多用户功率控制抗干扰。将功率控制抗干扰进一步扩展到多用户场景中,此时外部恶意干扰和用户间互扰同时存在,并考虑通信用户和干扰方获取信息的不完全性,构建基于贝叶斯-Stackelberg 博弈的抗干扰算法,证明了所提博弈具有唯一的Stackelberg 均衡解,并提出一种基于不完全信息的次梯度迭代算法求解 Stackelberg 均衡。仿真分析了不完全信息对用户效用产生的影响,并进一步分析了距离对通信用户所受干扰产生的影响。
第 5 章基于分层学习的信道选择抗干扰。面向信道选择抗干扰这一主题,针对通信用户密集部署的无线网络中同时存在外部恶意干扰和用户间互扰的场景,研究了复杂干扰条件下的信道选择抗干扰决策算法,并将其建模为一个 Stackelberg 博弈。该博弈同时考虑了两个层面的竞争:外部恶意干扰与用户之间的竞争以及用户间内部竞争。此外,分析了该博弈的性质和Stackelberg 均衡的存在性。为了获得该博弈的 Stackelberg 均衡,提出了一种基于随机学习理论的分层学习算法,并从理论上分析了所提算法的收敛性。
第6章面向QoE的信道选择抗干扰。研究了面向用户QoE的信道选择抗干扰问题,将用户和干扰之间的对抗关系建模为一个 Stackelberg 博弈。为了实现全网最优,将用户间的竞争与协同关系建模为一种局部利他博弈。通过证明该博弈是一个精确势能博弈,进一步证明了用户间纯策略纳什均衡(NE)的存在性以及用户与干扰间Stackelberg均衡(SE)的存在性。为了得到所提博弈的均衡解,设计了一种信道选择抗干扰算法并通过异构学习参数改进了其收敛速度。仿真结果证明了所提算法的收敛性和有效性。
第 7 章面向动态业务需求的信道选择抗干扰。针对无线业务需求的动态变化特性,研究了动态业务需求条件下的信道选择抗干扰决策问题。考虑通信用户和干扰的空间分布特性,构建了一种广义干扰模型精确刻画用户间互扰和外部恶意干扰,利用一种超图干扰模型同时表征用户间的强干扰关系和弱干扰累加效应,采用一种分级干扰模型精确刻画外部恶意干扰的影响。将动态业务条件下信道选择抗干扰决策问题建模为一个抗干扰动态博弈,证明了该博弈是一个精确势能博弈。为了获得该博弈的纳什均衡,提出了一种分布式信道选择算法,并从理论上分析了所提算法的收敛性。
第 8 章面向动态频谱环境的多域抗干扰。研究多域抗干扰问题,针对信道可用状态动态变化且统计信息未知的无线环境,研究了动态频谱环境中的多域(功率域和频域)抗干扰问题。从多域角度出发,灵活采用多种抗干扰手段,提出了一种多域抗干扰算法。在功率域中,通过调整用户发射功率的方式进行“硬抗”,将其建模为一个功率控制博弈。当干扰严重时(超过一定的门限),采用信道切换的方式躲避外部恶意干扰的攻击,将其建模为一个考虑信道切换开销的多臂老虎机信道选择问题,提出了一种基于 UCB1 的信道选择算法,并从理论上证明了所提算法的悔恨函数随时间呈对数关系。
第 9 章基于多智能体强化学习的协作抗干扰。面向多用户协作抗干扰问题,同时考虑通信用户间的“协作”和“竞争”两种特性。从通信用户协作的角度出发,基于用户间信息交互层面的用户间协作,研究了多用户协作抗干扰决策问题。基于马尔可夫博弈和多智能体强化学习理论,提出了一种多用户协作抗干扰决策算法,并仿真分析了所提算法在扫频干扰条件下的性能。此外,进一步拓展到动态网络拓扑场景中,根据用户接收到互扰能量值的大小,判断是否受互扰影响。当用户接收到其他用户的信号能量小于互扰门限时,各用户独立进行抗干扰信道决策;当用户接收到其他用户的信号能量大于互扰门限时,采用协作抗干扰方式进行信道决策,并提出了基于互扰感知的协作信道选择抗干扰算法。
第10章基于干扰利用的协作抗干扰。从干扰利用的角度出发研究协作抗干扰问题,引入“变害为利”的理念,将敌方恶意干扰信号作为指导网络选频的协调信号。将多用户用频问题建模为抗干扰频谱接入博弈,并证明了纳什均衡和相关均衡的存在性。此外,设计了基于相关均衡学习的抗干扰频谱接入算法获取博弈的相关均衡解。所提算法无须信息交互,即可快速收敛,并且可同时避开外部恶意干扰和同频互扰。最后,分析了所提算法在不同干扰模式下的公平性,分析表明所提算法可在复杂干扰模式下为网内用户提供公平的频谱接入机会。
第11章未来研究方向展望。对本书内容进行总结,并对未来研究方向进行了展望。