强化学习《基于策略&价值 - Asynchronous Adventage Actor-Critic》

原创

DreamSeaQainXun 2022-12-14 16:23:54 博主文章分类：强化学习 ©著作权

©著作权归作者所有：来自51CTO博客作者DreamSeaQainXun的原创作品，请联系作者获取转载授权，否则将追究法律责任

继续学习Asynchronous Advantage Actor-Critic (A3C)
一：原理

强化学习有一个问题就是训练过程很慢，为了解决这个问题就可以使用A3C算法。
A3C的原理也很简单——既然一个actor训练速度慢，那就开多个actor，最后这些actor会把各自学到的经验集合起来，这样就实现数倍的训练速度。
这个也算是很朴实的想法了，并行训练。

强化学习《基于策略&价值 - Asynchronous Adventage Actor-Critic》_A3C

训练过程就是如下：

注意：假设worker 1一开始从global network复制到的参数是θ1，在worker 1传回gradient之前，global network先收到其他worker的gradient并把参数更新到 θ2，这时worker 1仍然可以再传回gradient。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯