继续学习Asynchronous Advantage Actor-Critic (A3C)
一:原理
强化学习有一个问题就是训练过程很慢,为了解决这个问题就可以使用A3C算法。
A3C的原理也很简单——既然一个actor训练速度慢,那就开多个actor,最后这些actor会把各自学到的经验集合起来,这样就实现数倍的训练速度。
这个也算是很朴实的想法了,并行训练。
训练过程就是如下:
- 每个worker从global network复制参数
- 不同的worker与环境去做互动
- 不同的worker计算出各自的gradient
- 不同的worker把各自的gradient传回给global network
- global network接收到gradient后进行参数更新
注意:假设worker 1一开始从global network复制到的参数是θ1,在worker 1传回gradient之前,global network先收到其他worker的gradient并把参数更新到 θ2,这时worker 1仍然可以再传回gradient。