D Q N DQN DQN


前置:


一般掌握DQN需要看5篇文章:


前两篇基础:

  • 《Playing Atari with Deep Reinforcement Learning》-2013

DQN_代码实例

DQN_代码实例_02

  • 《Human-level control through deep reinforcement learning》-2015

DQN_强化学习_03


后三篇改进:

  • 《Deep Reinforcement Learning with Double Q-learning》-2016
  • 《Dueling Network Architectures for Deep Reinforcement Learning》-2016
  • 《PRIORITIZED EXPERIENCE REPLAY》-2016

代码实例(论文复现)


演示图片


DQN之前:

当时主流的研究方法是使用人工设计的特征,结合线性函数以拟合value function,这是因为非线性方法经常难以收敛

同时也有一部分使用深度学习拟合某个固定策略的value function,并保证了收敛,但是还没有类似的方法推广到非线性的控制问题中


Deep Q-Network历史意义:

  • 正式开启深度强化学习的阶段
  • 强化学习智能体首次轻易超越人类
  • 一部分研究人员开始认识到强化学习和深度学习结合的潜力
  • 这是第一篇成功的结合深度学习和强化学习的研究成果,让强化学习不借助人工设计的特征
  • 使用非线性函数来拟合value function