1. RL介绍

强化学习(Reinforcement Learning,RL),又称再励学习,评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在于环境的交互过程中通过学习策略以达成回报最大化或实现特性目标的问题。

  • 基本要素
    r语言col R语言colwise什么意思_强化学习

2.马尔科夫决策过程(Markov Decision Process, MDP )

2.1 马尔科夫过程(Markov Process)

在一个随机过程r语言col R语言colwise什么意思_状态转移_02中,已知时刻r语言col R语言colwise什么意思_笔记_03所处的状态r语言col R语言colwise什么意思_笔记_04,如果在时刻r语言col R语言colwise什么意思_笔记_05时的状态r语言col R语言colwise什么意思_状态转移_06至于状态r语言col R语言colwise什么意思_笔记_04相关,耳语r语言col R语言colwise什么意思_笔记_03时刻之前的状态无关,则称这个过程为马尔科夫过程。

具有马尔科夫性质的随机过程r语言col R语言colwise什么意思_状态转移_02成为马尔科夫链。

2.2 马尔科夫回报过程(Markov Reward Process)

状态s的期望奖励值表示为
r语言col R语言colwise什么意思_状态空间_10
计算累计奖励的方式

  • 计算从当前状态到结束状态的所有奖励之和,适合有限时界强库抗下的强化学习
    r语言col R语言colwise什么意思_强化学习_11
  • 增加折扣因子,适合无限时界
    r语言col R语言colwise什么意思_笔记_12

2.3 马尔科夫决策过程(Markov Decision Process,MDP)

将马尔科夫决策过程定义为一个五元组:
r语言col R语言colwise什么意思_状态转移_13
强化学习要解决的问题是:agent(智能体)需要学习一个策略(policy)r语言col R语言colwise什么意思_强化学习_14 ,这个策略r语言col R语言colwise什么意思_强化学习_14定义了从状态到动作的一个映射关系r语言col R语言colwise什么意思_强化学习_16,也就是说,agent在任意状态r语言col R语言colwise什么意思_状态空间_17下所能执行的动作为:r语言col R语言colwise什么意思_笔记_18,并且有
r语言col R语言colwise什么意思_状态空间_19



持续学习中…


附:

  • 行内的公式不能有空格,如$公式$
  • 段间的公式在有其他的语法应用时,也不能有空格,如$$\begin{aligned} 公式 \end{aligned},作用是将公式利用“&”进行对齐。