文章目录
- 什么是强化学习
- 马尔科夫决策过程
- 四元组
- ’机器‘与’环境‘界限
- 策略两种表示方法及奖赏π
什么是强化学习
强化学习:一种学习过程,包含很多学习步骤,经过一段时间才能收获结果。通常等到收获后,才得出反馈结果。若将得到的好结果作为学习完成的奖赏,则在学习过程中我们执行某个操作(e.g.种瓜过程中浇水)对最终奖赏的影响,仅能得到一个当前反馈(瓜苗看起来茁壮),需要多次进行这种学习过程,才能总结出比较好的学习策略
强化学习图示
马尔科夫决策过程
强化学习任务通常用马尔科夫决策过程(MDP)来描述:
四元组
强化学习对应4元祖E=<X,A,P,R>,其中P:X×A×X→R指定了状态转移概率
R:X×A×X→R指定而奖赏(在有的应用中,奖赏函数可能仅与转态转移有关即R:X×X→R)
- 机器处于环境E,状态空间为X,每个状态x∈X是机器感知到的环境描述(e.g.在种瓜任务是当前瓜苗长势的描述),机器能采取的动作构成了动作空间A(e.g.浇水、施肥…);
- 若某个动作a∈A作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态(e.g.瓜苗状态为缺水,若选择动作浇水,则瓜苗长势会发生变化,有概率恢复或无法恢复);
- 在转移到另一个状态的同时,环境会根据潜在奖赏函数R反馈给机器一个奖赏(e.g.瓜苗健康+1,凋零-10,最终种出好瓜+100)
’机器‘与’环境‘界限
:在环境中状态的转移、奖赏返回不受机器控制,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境
策略两种表示方法及奖赏π
- 机器通过环境中不断学习得到一个策略,在状态x下能得知要执行的动作a=π(x).策略两种表示方法:
1.确定性策略常用表示π:X→A
2.随机策略常用表示π:X×A→R,π(x,a)为状态x下选择动作a的概率,且
- 策略优劣取决于长期执行策略后得出的累计奖赏。在强化学习中目的是找到能是长期累计奖赏最大化的策略。