发表时间:2019
文章要点:这篇文章主要想把actor-critic方法里面加个replay buffer来提高采样效率。先是分析了把actor-critic变成off-policy的过程中需要做的修正,主要是importance sampling和V-trace,以及即使这样也会产生误差。然后就说把off-policy的数据混合on-policy的数据一起训练会环节这个问题,并在此基础上还加了个trust region的限制。最后混在一起成了个off-policy actor-critic方法。
总结:感觉有点大杂烩的感觉,以后要是想总结一下importance sampling这一系列的改进,可以再回过头来看看。但是看图里的曲线,特别是和baseline对比的曲线,几乎没有任何提升,貌似没啥用。可能这也是这个算法没啥名气的原因吧。
疑问:证明没有细看,其实还是底子不够,看一眼不知道在证个啥。
OFF-POLICY ACTOR-CRITIC WITH SHARED EXPERIENCE REPLAY(LASER)
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Actor-Critic Method
Actor-Critic Method
人工智能 机器学习 深度学习 特征向量 标量 -
【RL系列】On-Policy与Off-Policy
【RL系列】On-Policy与Off-Policy逮捕一篇介绍重要性采样的非常好的文章。
重要性采样 on policy off policy -
强化学习On-policy vs Off-policy
强化学习On-policy vs Off-policy这里我们讲讲强化学习中on-policy和off-policy的
强化学习 机器学习 人工智能 数据 html -
动手强化学习(十):Actor-Critic 算法
在之前的内容中,我们学习了基于值函数的方法(DQN)和基于策略的方法(REINFORCE),
算法 数据挖掘 人工智能 神经网络 基线 -
强化学习《基于策略&价值 - Actor-Critic》
一:回顾一下1:Policy Grident2:Q-learning二:Actor-Critic
Actor-Critic 强化学习 ide -
图解 RL/IL 问题范式(On-Policy、Off-policy、Offline/Batch、IL...)
图解常见强化学习、模仿学习框架
RL Batch RL Offline RL 图解 算法框架 -
强化学习 12 —— Actor-Critic 算法介绍与 Tensorflow 2.0 实现
一、Actor-Critic 介绍1、引入 Actor-Critic我们还是从上篇强化学习——REINFORCE Algorithm推导出的目标函数的梯度说起:∇θJ(θ)=Eπθ[∑t=0T−1Gt⋅∇θ log πθ
强化学习 Actor-Critic A2C tensorflow REINFORCE -
RL 实践(5)—— 二维滚球环境【REINFORCE & Actor-Critic】
ritic 这两个策略梯度方法解二维滚球问题
Actor-Critic REINFORCE 策略梯度方法 强化学习 ci