发表时间:2019
文章要点:这篇文章主要想把actor-critic方法里面加个replay buffer来提高采样效率。先是分析了把actor-critic变成off-policy的过程中需要做的修正,主要是importance sampling和V-trace,以及即使这样也会产生误差。然后就说把off-policy的数据混合on-policy的数据一起训练会环节这个问题,并在此基础上还加了个trust region的限制。最后混在一起成了个off-policy actor-critic方法。
总结:感觉有点大杂烩的感觉,以后要是想总结一下importance sampling这一系列的改进,可以再回过头来看看。但是看图里的曲线,特别是和baseline对比的曲线,几乎没有任何提升,貌似没啥用。可能这也是这个算法没啥名气的原因吧。
疑问:证明没有细看,其实还是底子不够,看一眼不知道在证个啥。