因为工作中涉及到强化学习知识,故开始利用闲暇时间学习,主要参考的书籍是 Richard S.Sutton 和 Andrew G.Barto 编写的 Reinforcement Learning (第二版)。
本章主要总结 书籍的第一章:Chapter 1 Introduction
文章目录
- 强化学习 是做什么
- 强化学习 与 监督学习、无监督学习区别
- 强化学习的一些基本要素
- 强化学习的挑战
强化学习 是做什么
强化学习 就是 学习,如何将环境状态(situations states)映射到动作(action),并且期望执行该动作能获得奖励(reward)越大越好。强化学习不是用来告诉哪个action应该被执行,而是学习和发现哪个action会使得reward最大。
action不仅影响当前的reward,而且还会影响下一阶段的situation,以及后续的所有reward。因此试错搜索 和 延迟奖励 是强化学习最重要的两个特征。
强化学习 与 监督学习、无监督学习区别
监督学习是从预先提供好的,标注的样本中进行学习,在强化学习的应用场景中,每个样本可以理解为 是由 状态描述(也就是特征)和 标签(是否是正确action)组成。这种监督学习的方式的目的是让系统具有泛化性,以便遇到未见过的情况时能正确地行动。但在需要与环境交互问题中,想要预先获得正确且期望奖励最大的样本通常是不切实际的。这时候需要不断的探索和试错,才能获取最大期望的奖励。
无监督学习 通常是寻找隐藏在未标注样本集合中的结构信息。
有监督学习 和 无监督学习 似乎覆盖了所有机器学习的范式,尽管有观点认为 强化学习 属于无监督学习,但是实际上,强化学习 是在寻找能使期望奖励最大化的情况,并不是寻找隐藏的结构信息。
通过上述分析可知,强化学习 是 有别与 有监督学习、无监督学习的第三种机器学习范式。
强化学习的一些基本要素
无论哪一种强化学习算法,通常都会涉及到以下四个基本要素,a Policy、a Reward Signal、a value function、 a model of the environment。
- a Policy:粗略而言就是 环境状态(states)到动作(action)的映射关系,在某些情况下,所谓policy 可能是一个简单的函数或查找表,而在其他情况下,它可能是比较复杂的模型,涉及大量的计算,例如搜索过程。policy是强化学习的核心,他能决定模型所输出的动作。一般来说,policy可以为每个动作指定概率。
- a reward signal:定义了强化学习的目标,一般在特定的阶段,环境都给Agent发送一个反馈信息/回报信息,这种反馈信息就是 reward signal(有正有负),Agent的长期目标就是获取最大化的total reward signal。reward signal 是policy 改变选择的主要依据;如果policy 选择的某个action之后是较低回报,则在未来,遇到类似状态(states),policy会选其他action。所以reward signal对强化学习是至关重要的,可以说reward定义了Agent的价值观。
- a value function:reward 表示能立即反馈action的好坏,而价值函数(value function)判断的是 长期上的好坏。粗略来说,value function 表示的是 在未来可以累积的总的reward值。价值函数就是 表明 比较长远的reward,而不是一时的。从某种意义上说,reward是主要的,而作为奖励预测的价值(value)则是次要的。 没有奖励就没有价值,估计价值的唯一目的就是获得更多的奖励。 然而,相对于reward,我们更关心的是value。 选择什么样的action 是基于value做出的,在学习过程中,Agent寻求带来最高价值(value)的行动,而不是最高回报(reward),因为从长远来看,这些行动为我们获得了最大的reward。 不过现实情况中,确定价值比确定奖励要困难得多。 奖励基本上由环境直接提供,而价值估计,需要根据Agent在其整个生命周期中进行的观察序列来估。
- a model of the environment:是最后一个元素是环境模型。它允许对环境的行为做出推断。例如,给定一个状态和动作,模型可能会预测结果的下一个状态和下一个奖励。
强化学习的挑战
强化学习面临的挑战之一是如何权衡 探索与开发。为了获得更多的奖励,强化学习更喜欢执行那些 它在过去尝试过的并且产生奖励的有效行为(开发过的)。但要这样容易陷入局部最优的情况,为了发现更大奖励的行为,它必须尝试以前没有选择过的行为(探索)。尴尬的是,无论是探索还是开发,都不可能在不失败的情况下独自进行,必须经历各种试错尝试,并逐步学习到最优的行为模式。例如在一个随机的任务中,每一个动作都必须尝试很多次,以获得对其预期奖励的可靠估计。
强化学习在很大程度上依赖于作为policy和value function 输入的状态特征,这种状态特征可以理解为 Agent对当前环境状态的理解,正确全面的认知环境对Agent很好的学习至关重要。