Value-Based RL
0.含折扣的回报(Discounted Return)
等于从时刻开始的奖励之和,并且给未来的奖励一个折扣率
1.动作价值函数
用 表示 的期望,该函数进行评估在策略 下状态执行动作的好坏。
我们定义最优动作价值函数来表示在所有策略下的最大,通过这个函数我们可以找到最优的。
2.DQN(Deep Q Network)
为了近似这个函数,我们便使用价值网络(DQN)来近似该函数。
DQN的输入就是状态,通过卷积层提取特征向量,在经过全连接层得到每个动作对应的价值。
通过该网络,我们便可以觉得每次执行什么动作,然后得到外界的奖励 和新一轮的状态,从而不断地执行下去。
3.TD算法
用来训练价值网络地算法称为:Temporal Difference (TD) Learning,时间差分序列算法。
上图是一个TD算法的实例,用来估计两地距离。
把它应用到DQN中,就是如下图所示。
可以看到,值由真实值和模型预测值组成。
我们对回报Return的期望进行变形,便可以得到与TD算法类似的等式关系。
通过该算法,我们便可以求出TD的目标函数 ,计算损失,然后进行梯度下降训练网络。
4.总结