1. Tittle 2011
2. 标签
- model based
- planning
- data efficient
- continuous / discrete
3. 总结
MB类算法,一个关键问题在于减少模型的偏差。一个模型偏差过大,那么使用这个模型进行planning必然不准确。PILCO减少误差的方式是学习一个基于概率的动力学模型,并且在进行long-term planning 时,引入了模型的不确定性(model uncertainty)
PILCO可以使用很少的数据并且在少数尝试之后完成任务。
PICO的两个创新点:
- 动力学模型是基于概率的,使用的是非参数化的概率模型,GPs模型
可见,deterministic类方法只能输出一种可能结果(一条线),而基于概率的估计能很好的确定区间。
- model uncertainty引入到planning和policy envaluation中。
planning 是用来考虑接下来怎么走的。policy envaluation是用来评估这么走所能达到的收益的。
不需要一个value function model来进行policy envaluation了,因为Deterministic approximate inference techniques允许我们基于分析梯度来进行策略搜索。
PILCO 对于model uncertainty的处理时认为成一个无关的噪声干扰
细节
- 动力学模型表示:
代表t时刻状态
代表t时刻动作
环境动力学模型
动力学模型使用的是GP model。预测输入为x,u,输出为
细节推导见原论文
·
- 策略评估:
目标是为了找到一个策略/Controller , 完成从状态x到动作u的映射:,同时能够最小化return的期望 J
是状态t时刻状态x的损失,负的。(也就是到达某个状态的reward)
去计算(2)式的J,需要对于状态的长期预测,因为计算期望需要知道每个状态的概率,我们不得不利用上一步预测的结果进行下一步的预测,如(3)-(5)。
整体过程就是
1.来计算action u的均值和协方差,也就是动作的分布p(u)的两个关键系数 (这一步使用策略pi)
2. 计算互协方差函数
3. 通过估计state-control的节点分布。使用x和u以及互协方差 (使用动力学模型)
- 通过分析梯度来提升策略