1. 一些符号解释

  • P(C∣D)表示条件概率,在D发生的条件下,C发生的概率
  • E [C∣D] 表示在D发生的条件下,求C的期望,即有  
  • X 表示状态空间,即所有状态 x 的集合,有x ∈ X 
  • A 表示动作空间,即所有动作 a 的集合,有a ∈ A
  • R表示获得的奖赏
  • π 表示策略函数,有, 表示在状态 x 下执行动作 a 的概率

 2.一些假设

1)马尔科夫假设:下一时刻的状态只与当前时刻的状态有关,而与其他时刻的状态无关。

强化学习的奖励曲线图 强化奖励法_强化学习

2)下一时刻的状态只与这一时刻的状态以及这一时刻的行为有关:

强化学习的奖励曲线图 强化奖励法_强化学习的奖励曲线图_02

     

表示执行动作 a 后从状态 x 转移到状态 x ′ 

3)下一时刻的奖赏函数值只与这一时刻的状态及这一时刻的行为有关:

强化学习的奖励曲线图 强化奖励法_条件概率_03


      eg:      

      在状态 x 下执行动作 a 后可能会转换到状态 x ′ 或 x'' ,即下一时刻的状态服从概率分布:

强化学习的奖励曲线图 强化奖励法_强化学习_04

      这两种情况会产生不同的奖赏:

强化学习的奖励曲线图 强化奖励法_条件概率_05


强化学习的奖励曲线图 强化奖励法_强化学习_06

      

 表示在状态 x 下执行动作 a 后所产生奖赏的期望值:

强化学习的奖励曲线图 强化奖励法_机器学习_07

      由此得 

强化学习的奖励曲线图 强化奖励法_机器学习_08

                  (a)


3.两个定义

1. 状态值函数:衡量某个状态最终能获得多少累积奖赏的函数。下式表示从状态 x 出发,使用策略 π 所带来的累积奖赏:

强化学习的奖励曲线图 强化奖励法_机器学习_09

 2. 状态-动作值函数:衡量某个状态下采取某个行为后,最终能获得多少累积奖赏的函数。下式表示从以状态 x 出发,执行动作 a 后再使用策略 π 带来的累积奖赏:

强化学习的奖励曲线图 强化奖励法_条件概率_10

4.展开和推导

1.

强化学习的奖励曲线图 强化奖励法_条件概率_11

 展开

   

强化学习的奖励曲线图 强化奖励法_条件概率_12

是 x 确定的情况下的累积奖励,并没有指定执行哪个动作,而

强化学习的奖励曲线图 强化奖励法_机器学习_13

是 x 和 a 确定时的累积奖励,应用全概率展开,有:

强化学习的奖励曲线图 强化奖励法_概率分布_14

    代入策略函数公式,得:

强化学习的奖励曲线图 强化奖励法_条件概率_15

2. 

强化学习的奖励曲线图 强化奖励法_机器学习_16

 展开

强化学习的奖励曲线图 强化奖励法_机器学习_17

      由 

  的定义和 (a) 式得:

强化学习的奖励曲线图 强化奖励法_概率分布_18

      应用全概率展开得:

强化学习的奖励曲线图 强化奖励法_强化学习的奖励曲线图_19

    (没有完全理解,是某状态下某行为得到的奖励 = 某状态下所有行为的奖励 * 某行为的概率吗?)

       综上,

强化学习的奖励曲线图 强化奖励法_概率分布_20

3. 结合

    

强化学习的奖励曲线图 强化奖励法_机器学习_16

 代入

强化学习的奖励曲线图 强化奖励法_强化学习_22

 得

强化学习的奖励曲线图 强化奖励法_条件概率_23