强化学习的奖励曲线图强化奖励法

转载

码农小哥 2024-05-10 16:51:21

文章标签 强化学习的奖励曲线图机器学习强化学习概率分布条件概率 文章分类 copilot AIGC

1. 一些符号解释

P(C∣D)表示条件概率，在D发生的条件下，C发生的概率
E [C∣D] 表示在D发生的条件下，求C的期望，即有
X 表示状态空间，即所有状态 x 的集合，有x ∈ X
A 表示动作空间，即所有动作 a 的集合，有a ∈ A
R表示获得的奖赏
π 表示策略函数，有, 表示在状态 x 下执行动作 a 的概率

2.一些假设

1）马尔科夫假设：下一时刻的状态只与当前时刻的状态有关，而与其他时刻的状态无关。

强化学习的奖励曲线图强化奖励法_强化学习

2）下一时刻的状态只与这一时刻的状态以及这一时刻的行为有关：

强化学习的奖励曲线图强化奖励法_条件概率_02

表示执行动作 a 后从状态 x 转移到状态 x ′

3）下一时刻的奖赏函数值只与这一时刻的状态及这一时刻的行为有关：

强化学习的奖励曲线图强化奖励法_机器学习_03

eg:

在状态 x 下执行动作 a 后可能会转换到状态 x ′ 或 x'' ，即下一时刻的状态服从概率分布：

强化学习的奖励曲线图强化奖励法_概率分布_04

这两种情况会产生不同的奖赏：

强化学习的奖励曲线图强化奖励法_强化学习_05

强化学习的奖励曲线图强化奖励法_条件概率_06

表示在状态 x 下执行动作 a 后所产生奖赏的期望值:

强化学习的奖励曲线图强化奖励法_强化学习的奖励曲线图_07

由此得

强化学习的奖励曲线图强化奖励法_强化学习_08

(a)

3.两个定义

1. 状态值函数：衡量某个状态最终能获得多少累积奖赏的函数。下式表示从状态 x 出发，使用策略 π 所带来的累积奖赏：

强化学习的奖励曲线图强化奖励法_概率分布_09

2. 状态-动作值函数：衡量某个状态下采取某个行为后，最终能获得多少累积奖赏的函数。下式表示从以状态 x 出发，执行动作 a 后再使用策略 π 带来的累积奖赏：

强化学习的奖励曲线图强化奖励法_强化学习的奖励曲线图_10

4.展开和推导

展开

强化学习的奖励曲线图强化奖励法_条件概率_12

是 x 确定的情况下的累积奖励，并没有指定执行哪个动作，而

强化学习的奖励曲线图强化奖励法_强化学习_13

是 x 和 a 确定时的累积奖励，应用全概率展开，有：

强化学习的奖励曲线图强化奖励法_概率分布_14

代入策略函数公式，得：

强化学习的奖励曲线图强化奖励法_条件概率_15

展开

强化学习的奖励曲线图强化奖励法_概率分布_17

由

的定义和 (a) 式得：

强化学习的奖励曲线图强化奖励法_概率分布_18

应用全概率展开得：

强化学习的奖励曲线图强化奖励法_概率分布_19

（没有完全理解，是某状态下某行为得到的奖励 = 某状态下所有行为的奖励 * 某行为的概率吗？）

综上，

强化学习的奖励曲线图强化奖励法_机器学习_20

3. 结合

强化学习的奖励曲线图强化奖励法_强化学习的奖励曲线图_16

代入

强化学习的奖励曲线图强化奖励法_强化学习_22

得

强化学习的奖励曲线图强化奖励法_条件概率_23

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：unity 地形编辑器 bridge unity地形编辑器怎么用

下一篇：outofmemoryerror的dump文件位置 outofmemory错误的常见原因

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯