1. 一些符号解释
- P(C∣D)表示条件概率,在D发生的条件下,C发生的概率
- E [C∣D] 表示在D发生的条件下,求C的期望,即有
- X 表示状态空间,即所有状态 x 的集合,有x ∈ X
- A 表示动作空间,即所有动作 a 的集合,有a ∈ A
- R表示获得的奖赏
- π 表示策略函数,有, 表示在状态 x 下执行动作 a 的概率
2.一些假设
1)马尔科夫假设:下一时刻的状态只与当前时刻的状态有关,而与其他时刻的状态无关。
2)下一时刻的状态只与这一时刻的状态以及这一时刻的行为有关:
表示执行动作 a 后从状态 x 转移到状态 x ′
3)下一时刻的奖赏函数值只与这一时刻的状态及这一时刻的行为有关:
eg:
在状态 x 下执行动作 a 后可能会转换到状态 x ′ 或 x'' ,即下一时刻的状态服从概率分布:
这两种情况会产生不同的奖赏:
,
表示在状态 x 下执行动作 a 后所产生奖赏的期望值:
由此得
(a)
3.两个定义
1. 状态值函数:衡量某个状态最终能获得多少累积奖赏的函数。下式表示从状态 x 出发,使用策略 π 所带来的累积奖赏:
2. 状态-动作值函数:衡量某个状态下采取某个行为后,最终能获得多少累积奖赏的函数。下式表示从以状态 x 出发,执行动作 a 后再使用策略 π 带来的累积奖赏:
4.展开和推导
1. 展开
是 x 确定的情况下的累积奖励,并没有指定执行哪个动作,而
是 x 和 a 确定时的累积奖励,应用全概率展开,有:
代入策略函数公式,得:
2. 展开
由
的定义和 (a) 式得:
应用全概率展开得:
(没有完全理解,是某状态下某行为得到的奖励 = 某状态下所有行为的奖励 * 某行为的概率吗?)
综上,
3. 结合
代入
得