博弈学习通信抗干扰理论与方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5.4 协作抗干扰的研究现状

在通信抗干扰问题中,由于干扰活动的因素,信道质量通常在“好”与“差”之间动态变化,有效的抗干扰方法应该具备动态调整能力。马尔可夫决策过程[131-132](MDP)提供了一种可在信道状态动态变化场景中进行优化决策的数学架构。因此,可将抗干扰决策建模为一个马尔可夫决策过程问题。而在实际通信抗干扰场景中,马尔可夫决策过程问题的状态转移概率函数往往很难有效获取,经典的策略迭代和值迭代方法不能直接应用。因此,需要考虑状态转移概率未知情况下的求解方法——强化学习方法[47]

Q学习[133]作为经典的强化学习方法,通过不断与环境进行交互,并采用根据反馈回报值调整策略的方式实现策略优化,在无线通信领域中已经得到了广泛使用。文献[122]将抗干扰过程建模为马尔可夫决策过程问题,并提出了一种基于Q学习的抗干扰信道选择方法。为了有效避开被干扰的信道,文献[37]提出了一种改进型Q学习抗干扰决策方法,并分析了其在扫频干扰条件下的性能。此外,考虑到Q学习收敛时间较长的问题,借助于宽带频谱感知同时更新多个 Q 值,进而加速收敛过程。针对宽带自主认知无线电(Wideband Autonomous Cognitive Radios,WACR)中的抗干扰决策问题,文献[134]提出了一种抗干扰决策方案。基于频谱知识获取能力,WACR用户可以检测和识别扫频干扰的位置。接着,利用获取的信息和Q学习获得干扰条件下的最佳策略。文献[135-137]将其进一步拓展到多用户场景中,建模为马尔可夫博弈[50-51,138-139],并提出了相应的多用户强化学习算法。马尔可夫博弈[52]也称为随机博弈,它是MDP问题在多用户场景中的扩展。然而,文献[135-137]仍利用标准的单用户强化学习方法,每个用户进行独立的学习。虽然每个用户进行独立学习的多用户强化学习方法已有很多应用[135-137,140-141],但其存在一定的缺陷。因为 Q 学习在收敛过程中要求状态转移模型是平稳的,即不随时间而改变。当多个用户同时学习时,一个用户的状态转移模型会因其他用户的学习而不断改变。

综上所述,现有的基于马尔可夫博弈抗干扰研究工作中没有考虑用户间的协作问题[141]。在无线通信系统中,“协作”有不同的理解。文献[90-91]通过中继增强的方式应对干扰的攻击,中继节点帮助用户将信息传送到目的节点。文献[142-143]构建了一种基于代理的协作抗干扰方案,利用代理用户(Proxy Users)充当中继实现通信。中继协作需要固定的中继[89-90]或选择合适的用户充当中继[142-143]。文献[144]提出了一种基于反向散射通信(Backscatter Communications)的协作抗干扰方法,通过利用环境中的干扰信号作为载体,传输用户合法通信数据。干扰利用主要考虑当干扰无明显规律、干扰压制性强时,通过利用干扰信号提高用户的通信抗干扰能力。

针对基于信息交互的协作抗干扰问题,在文献[145]中,在随机干扰条件下通过交互学习策略实现用户间协作,然而每个用户仍旧是一个独立的智能体。为了获得更好的抗干扰性能,可采用耦合的多用户强化学习方法,在用户学习的过程中考虑用户间协作,实现抗干扰由“独立到协作”的提升。通过用户间协作学习,一方面可以有效对抗外部恶意干扰;另一方面也能避免因用户间竞争而产生的内部己方互扰问题。因此,面对多用户场景中的抗干扰决策,同时考虑用户间的“协作”和“竞争”两种特性,研究基于信息交互的多用户协作抗干扰方法是一个有意义的问题。

在反向散射通信中,发送端通过反射和不反射收到的环境干扰信号来表示“0”和“1”这两种状态,接收端根据反射和不反射信号两种不同情况下接收信号的差别和特点,采取一定的信号处理方式来检测出这两种状态。反向散射通信可利用存在的信号进行通信传输,因而具有一定的抗干扰应用价值。然而,反向散射通信技术在抗干扰领域中的应用有待进一步挖掘,将反向散射通信与其他抗干扰方法结合,寻找最优抗干扰决策,具有较好的应用前景。文献[146]研究了一种相关均衡学习方法,通过发送随机数作为公共协调信号,协调分布式无线网络用户内部选频。文献[147]利用自干扰生产和自干扰抑制技术产生协调信号,无须信息交互,利用协调信号在时域上的动态轮换,实现了分布式选频协调。然而,由于外部恶意干扰的存在,自干扰生成和抑制技术会受到恶意干扰的影响,导致观测出现误差,协调效果差。因此,考虑如何利用恶意干扰,协调内部用频决策,有待进一步研究。从现有研究可以看出,从干扰利用的角度出发,结合反向散射通信技术、相关均衡学习等方法,变害为利,提高用户通信抗干扰能力,是一种研究抗干扰问题的新思路。