虚拟遗憾最小化算法[Counterfactual Regret Minimization,CFR]
- 基础理论
- 博弈问题分类
- 博弈论基本概念与符号
- 算法框图
- 参考文献
基础理论
博弈问题分类
- 按照效用值之和:零和博弈、非零和博弈
- 按照参与人数:二人博弈、多人博弈
- 按照博弈双方的动作序列性:同时博弈、序贯博弈
(正则式博弈:博弈动作作出后,博弈结束)
博弈论基本概念与符号
正则式博弈
正则式博弈包含元素(N, A, u)
扩展式博弈
算法框图
- 遗憾匹配算法框图(cfr的前身)
随机选取策略,对于可选动作集中的动作,存储计算的遗憾值为:
然后策略计算为:
当分母为0时,随机选取下一个动作策略。
- cfr算法框图
- 如果不能遍历计算机所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算。
- 在遗憾匹配中,玩家通过跟踪所有过去所玩游戏的遗憾值来指导将来的决策,从而使遗憾值逐步减小,当遗憾值为 0(即玩家对没采取任何一种动作都表示不遗憾)时,证明当前策略最优,达到博弈的纳什均衡。
概念定义
- 平均整体遗憾:
玩家 i 进行 T 次游戏,在第 t 次游戏使用策略tσ ,则玩家 i在这 T 次游戏中的平均整体遗憾为:
即玩家的平均整体遗憾值是平均意义下每局选择策略与在 T 轮迭代中收益最大策略的收益差值。- 平均策略
在这 次游戏中,到达每个信息集 ,对于每个动作 ,定义平均策略
平均策略以信息集到达概率加权,定义了
平均策略、平均整体遗憾、近似纳什均衡策略
planning net
参考文献