继续学习Asynchronous Advantage Actor-Critic (A3C)
一:原理

强化学习有一个问题就是训练过程很慢,为了解决这个问题就可以使用A3C算法。
A3C的原理也很简单——既然一个actor训练速度慢,那就开多个actor,最后这些actor会把各自学到的经验集合起来,这样就实现数倍的训练速度。
这个也算是很朴实的想法了,并行训练。

强化学习《基于策略&价值 - Asynchronous  Adventage Actor-Critic》_A3C

训练过程就是如下:

  1. 每个worker从global network复制参数
  2. 不同的worker与环境去做互动
  3. 不同的worker计算出各自的gradient
  4. 不同的worker把各自的gradient传回给global network
  5. global network接收到gradient后进行参数更新

注意:假设worker 1一开始从global network复制到的参数是θ1,在worker 1传回gradient之前,global network先收到其他worker的gradient并把参数更新到 θ2,这时worker 1仍然可以再传回gradient。