上QQ阅读APP看书,第一时间看更新
去QQ阅读APP
上一章
目录
下一章
3.3 基于策略梯度的强化学习
与基于值函数的强化学习方法相对应的是基于策略梯度的强化学习方法,这类方法不会评价策略的好坏,而是使用采样的方法直接优化策略,使其向着更大的累积奖励期望的目标改进。
上一章
目录
下一章