Value-Based RL

0.含折扣的回报(Discounted Return)

Value-Based RL_深度学习

Value-Based RL_差分序列_02 等于从Value-Based RL_深度学习_03时刻开始的奖励之和,并且给未来的奖励一个折扣率Value-Based RL_差分序列_04

Value-Based RL_差分序列_02

1.动作价值函数

Value-Based RL_深度学习_06

Value-Based RL_人工智能_07 表示Value-Based RL_差分序列_02 的期望,该函数进行评估在策略Value-Based RL_人工智能_09 下状态Value-Based RL_人工智能_10执行动作Value-Based RL_深度学习_11的好坏。


Value-Based RL_深度学习_12

我们定义最优动作价值函数Value-Based RL_差分序列_13来表示在所有策略下的最大Value-Based RL_特征向量_14,通过这个函数我们可以找到最优的Value-Based RL_深度学习_11


2.DQN(Deep Q Network)

Value-Based RL_差分序列_16

为了近似这个Value-Based RL_人工智能_17函数,我们便使用价值网络(DQN)来近似该函数。


Value-Based RL_深度学习_18

DQN的输入就是状态Value-Based RL_人工智能_10,通过卷积层提取特征向量,在经过全连接层得到每个动作对应的价值。


Value-Based RL_差分序列_20

通过该网络,我们便可以觉得每次执行什么动作Value-Based RL_深度学习_11,然后得到外界的奖励Value-Based RL_深度学习_22 和新一轮的状态Value-Based RL_深度学习_23,从而不断地执行下去。


3.TD算法

用来训练价值网络地算法称为:Temporal Difference (TD) Learning,时间差分序列算法。

Value-Based RL_特征向量_24

Value-Based RL_深度学习_25

上图是一个TD算法的实例,用来估计两地距离。

把它应用到DQN中,就是如下图所示。

Value-Based RL_深度学习_26

可以看到,Value-Based RL_特征向量_14值由真实值和模型预测值组成。

Value-Based RL_人工智能_28

我们对回报Return的期望进行变形,便可以得到与TD算法类似的等式关系。

Value-Based RL_差分序列_29


Value-Based RL_机器学习_30

通过该算法,我们便可以求出TD的目标函数Value-Based RL_特征向量_31 ,计算损失Value-Based RL_人工智能_32,然后进行梯度下降训练网络。

4.总结

Value-Based RL_深度学习_33