虚拟遗憾最小化算法[Counterfactual Regret Minimization,CFR]

  • 基础理论
  • 博弈问题分类
  • 博弈论基本概念与符号
  • 算法框图
  • 参考文献


基础理论

博弈问题分类

  1. 按照效用值之和:零和博弈、非零和博弈
  2. 按照参与人数:二人博弈、多人博弈
  3. 按照博弈双方的动作序列性:同时博弈、序贯博弈
    (正则式博弈:博弈动作作出后,博弈结束)

博弈论基本概念与符号

正则式博弈

正则式博弈包含元素(N, A, u)

CFAR算法有没有python版本_最小化


扩展式博弈

CFAR算法有没有python版本_CFAR算法有没有python版本_02

CFAR算法有没有python版本_最小化_03

算法框图

  1. 遗憾匹配算法框图(cfr的前身)

随机选取策略CFAR算法有没有python版本_算法_04,对于可选动作集CFAR算法有没有python版本_CFAR算法有没有python版本_05中的动作CFAR算法有没有python版本_算法_06,存储计算的遗憾值为:

CFAR算法有没有python版本_最小化_07

然后策略计算为:

CFAR算法有没有python版本_机器学习_08

当分母为0时,随机选取下一个动作策略。

CFAR算法有没有python版本_算法_09

  1. cfr算法框图

CFAR算法有没有python版本_机器学习_10

  • 如果不能遍历计算机所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算。
  • 在遗憾匹配中,玩家通过跟踪所有过去所玩游戏的遗憾值来指导将来的决策,从而使遗憾值逐步减小,当遗憾值为 0(即玩家对没采取任何一种动作都表示不遗憾)时,证明当前策略最优,达到博弈的纳什均衡。

概念定义

- 平均整体遗憾:

玩家 i 进行 T 次游戏,在第 t 次游戏使用策略 ,则玩家 i在这 T 次游戏中的平均整体遗憾为:

CFAR算法有没有python版本_最小化_11


即玩家的平均整体遗憾值是平均意义下每局选择策略与在 T 轮迭代中收益最大策略的收益差值。- 平均策略

在这CFAR算法有没有python版本_机器学习_12 次游戏中,到达每个信息集CFAR算法有没有python版本_CFAR算法有没有python版本_13 ,对于每个动作 CFAR算法有没有python版本_机器学习_14 ,定义平均策略

CFAR算法有没有python版本_CFAR算法有没有python版本_15


平均策略以信息集到达概率加权,定义了 CFAR算法有没有python版本_机器学习_12

平均策略、平均整体遗憾、近似纳什均衡策略

planning net

参考文献