AI自动化测试:技术原理、平台搭建与工程实践
上QQ阅读APP看书,第一时间看更新

3.3 基于策略梯度的强化学习

与基于值函数的强化学习方法相对应的是基于策略梯度的强化学习方法,这类方法不会评价策略的好坏,而是使用采样的方法直接优化策略,使其向着更大的累积奖励期望的目标改进。