1. Tittle 2011

iOS MBProgressHUD 如何使用 mb approval_人工智能

2. 标签

  • model based
  • planning
  • data efficient
  • continuous / discrete

3. 总结

MB类算法,一个关键问题在于减少模型的偏差。一个模型偏差过大,那么使用这个模型进行planning必然不准确。PILCO减少误差的方式是学习一个基于概率的动力学模型,并且在进行long-term planning 时,引入了模型的不确定性(model uncertainty)

PILCO可以使用很少的数据并且在少数尝试之后完成任务。

PICO的两个创新点:

  1. 动力学模型是基于概率的,使用的是非参数化的概率模型,GPs模型

iOS MBProgressHUD 如何使用 mb approval_lua_02

可见,deterministic类方法只能输出一种可能结果(一条线),而基于概率的估计能很好的确定区间。

  1. model uncertainty引入到planning和policy envaluation中。
    planning 是用来考虑接下来怎么走的。policy envaluation是用来评估这么走所能达到的收益的。
    不需要一个value function model来进行policy envaluation了,因为Deterministic approximate inference techniques允许我们基于分析梯度来进行策略搜索。
    PILCO 对于model uncertainty的处理时认为成一个无关的噪声干扰

细节

  1. 动力学模型表示:

iOS MBProgressHUD 如何使用 mb approval_协方差_03

iOS MBProgressHUD 如何使用 mb approval_协方差_04代表t时刻状态

iOS MBProgressHUD 如何使用 mb approval_类方法_05代表t时刻动作

iOS MBProgressHUD 如何使用 mb approval_lua_06环境动力学模型

动力学模型使用的是GP model。预测输入为x,u,输出为iOS MBProgressHUD 如何使用 mb approval_人工智能_07

细节推导见原论文

iOS MBProgressHUD 如何使用 mb approval_人工智能_08

·

  1. 策略评估:
    目标是为了找到一个策略/Controller iOS MBProgressHUD 如何使用 mb approval_lua_09, 完成从状态x到动作u的映射:iOS MBProgressHUD 如何使用 mb approval_lua_10,同时能够最小化return的期望 J

iOS MBProgressHUD 如何使用 mb approval_类方法_11是状态t时刻状态x的损失,负的。(也就是到达某个状态的reward)

去计算(2)式的J,需要对于状态的长期预测,因为计算期望需要知道每个状态的概率,我们不得不利用上一步预测的结果进行下一步的预测,如(3)-(5)。

整体过程就是

1.来计算action u的均值和协方差,也就是动作的分布p(u)的两个关键系数 (这一步使用策略pi)

2. 计算互协方差函数

3. 通过估计state-control的节点分布。使用x和u以及互协方差 (使用动力学模型)

  1. 通过分析梯度来提升策略

iOS MBProgressHUD 如何使用 mb approval_协方差_12