这本书的目的旨在整理不确定性条件下,决策判断相关的一系列知识及结果,就像普特曼在1994年写了一半关于马尔可夫决策过程的书,对马尔可夫决策过程理论进行详细整理。本书的一个主要目标是希望对一个连续决策问题的算法和理论进行完整整理,包括强化学习。从基本的统计决策理论出发,发展到强化学习问题和各种求解方法。这本书的结尾集中在模型和近似算法的当前最先进的科研成果。
文末付本书最新pdf版免费下载地址。
本书目录
本书正文截图
本书pdf免费版pdf下载地址
微信公众号“深度学习与NLP”回复关键字“drl2020”获取下载地址。
扫描下方二维码可以订阅哦!