文章研究了视觉语言模型(VLMs)在动作角色扮演游戏(ARPG),特别是《黑神话:悟空》中的应用潜力,并提出了一个视觉动作角色扮演(Vision Action Role-Playing:VARP)智能体框架,它包括动作规划系统和人类引导的轨迹系统,旨在通过仅使用视觉输入来执行复杂的动作输出,在游戏任务中取得了一定的成功率,尤其是在战斗场景上。为了推动这一领域的发展,研究人员还公开了一个包含游戏操作记录的人类操作数据集,并将最新成果与多个先进的VLM模型进行了基准测试。

视觉语言模型能玩《黑神话:悟空》吗?_Python

1 VARP框架

VARP框架有如下一些特点:

  1. 视觉输入:VARP直接从游戏中获取屏幕截图作为输入,这使得智能体能够仅基于视觉信息来生成操作。
  2. Python代码生成:通过一组视觉语言模型的推理,VARP最终生成的是形式化的Python代码,这些代码可以用来直接控制游戏角色执行动作。
  3. 三库系统:VARP维护三个库——情境库、动作库和人类引导库,这三个库可以被检索和更新,以便储存密集知识用于自我学习和人类指导。
  4. 双系统结构:VARP由两个主要系统构成——动作规划系统和人类引导的轨迹系统。前者负责根据当前游戏情境选择或生成适当的动作;后者则通过学习人类数据来进行路径规划。
  5. 动作组合:每个生成的动作是一系列原子命令的组合,这些命令可能包括轻出击、闪避、重击、恢复生命值等。
  6. 模块化设计:引入了可分解的任务特定辅助模块,将大任务分解成小任务,分配给多个VLM处理,减少模型遗忘和幻觉现象的发生。
  7. 自我优化模块:引入自我优化动作生成模块,鼓励VLM生成针对某些困难任务的新动作,从而更高效高质量地完成复杂任务。

视觉语言模型能玩《黑神话:悟空》吗?_语言模型_02

2 结语

文章探讨了利用视觉语言模型(VLMs)在动作角色扮演游戏《黑神话:悟空》中的应用,并提出了一种名为VARP的新型智能体框架,该框架能够在仅依赖视觉输入的情况下执行复杂的游戏内操作,如战斗任务。

论文题目: Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case

论文链接: https://arxiv.org/abs/2409.12889


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

视觉语言模型能玩《黑神话:悟空》吗?_规划系统_03

精彩回顾

1. 使用大型语言模型构建主动协作型智能体

2. 对具身人工智能的呼吁

3. 基于情境依赖因果影响的多智能体协作强化学习