强化学习 double DQN 代码注释解析_神经网络

 

强化学习 double DQN 代码注释解析_神经网络_02

  

初始化过程:初始化操作。初始化神经网络的参数,同时也会执行若干次transition来初始化记忆库。例如,记忆库的容量N=500,可以选择执行200次transition来初始化记忆库,这样学习过程可以从记忆库中抽取batch个transition,进行学习了。

每发生一次transition,都会存入记忆库,超出记忆库容量N,会先删去记忆库中最早存入的transition。在存储过程中,只执行eval_net来获取Q值,进而根据实际情况,得到动作,奖励,和下一状态。

若干步存储过程,执行一次学习过程。

若干步学习过程,执行一次更新过程。