1. RL介绍
强化学习(Reinforcement Learning,RL),又称再励学习,评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在于环境的交互过程中通过学习策略以达成回报最大化或实现特性目标的问题。
- 基本要素
2.马尔科夫决策过程(Markov Decision Process, MDP )
2.1 马尔科夫过程(Markov Process)
在一个随机过程中,已知时刻所处的状态,如果在时刻时的状态至于状态相关,耳语时刻之前的状态无关,则称这个过程为马尔科夫过程。
具有马尔科夫性质的随机过程成为马尔科夫链。
2.2 马尔科夫回报过程(Markov Reward Process)
状态s
的期望奖励值表示为
计算累计奖励的方式
- 计算从当前状态到结束状态的所有奖励之和,适合有限时界强库抗下的强化学习
- 增加折扣因子,适合无限时界
2.3 马尔科夫决策过程(Markov Decision Process,MDP)
将马尔科夫决策过程定义为一个五元组:
强化学习要解决的问题是:agent(智能体)需要学习一个策略(policy) ,这个策略定义了从状态到动作的一个映射关系,也就是说,agent在任意状态下所能执行的动作为:,并且有
持续学习中…
附:
- 行内的公式不能有空格,如
$公式$
- 段间的公式在有其他的语法应用时,也不能有空格,如
$$\begin{aligned} 公式 \end{aligned}
,作用是将公式利用“&”进行对齐。