Policy-Based Method RL
策略函数 是一个概率密度函数,以
为输入,输出是 每个动作的概率分布。
agent根据策略函数随机抽样选择动作执行。
1.策略网络
我们使用策略网络来近似策略函数,网络的训练参数为
2.状态价值函数
定义状态价值函数
当为离散随机变量时,我们将
通过策略网络的近似,我们可以得到如上图等式。
我们的目标是最大化对于
的期望,
用来表示当前策略
的胜率。
因此我们要最大化。
通过Policy Gradient 策略梯度算法实现。
通过带入,我们的对于
的导数也就是梯度的等式变形。
通过对 函数相对
的导数和
的乘积之和,便可以得到梯度,但是该方法过于简化且不严谨,因为
也与
有关,但是最终实际结果一样。
对于连续型随机变量,我们不能使用上述方法。
而是对
最后,我们可以用上图的期望所表示梯度。
因为策略函数是一个神经网络,无法进行积分求期望,因此我们考虑用蒙特卡洛近似,即根据策略函数随机抽样
,定义
作为无偏估计,近似表示梯度。
算法如下图所示:
3.价值函数如何近似
在该方法中,我们不知道价值函数,我们如何近似呢?
第一种方法是REINFORCE,将agent执行完一轮的动作,得到一个的轨迹,然后用
实际回报近似
第二种方法就是使用actor-critic method,使用策略网络近似