需求

    要用强化学习(Reinforcement Learning)算法解决问题,需要百千万次的训练,真实环境一般不允许这么多次训练(时间太长、试错代价太大),需要开发仿真环境。OpenAI的gym环境是目前的标准,遵守其API写一个自定义的环境可以被各种强化学习算法无码调用。

gym API要求

    分析gym的代码和文档,可以看出,一个环境至少应该包含动作空间(action space)、状态空间(observation space)定义,以及reset()、step()、render()、close()方法,代码结构如下:

from typing import Optional
import gym
from gym import spaces

class MyEnv(gym.Env):
    def __init__(self):
        self.observation_space = spaces.Box(
            -np.inf, np.inf, shape=(5,), dtype=np.float32
        )#5个浮点数状态空间

        self.action_space = spaces.Discrete(3)#0,1,2三个动作空间

    def step(self, action):
        pass

    def reset(self,
              *,
              seed: Optional[int] = None,
              return_info: bool = False,
              options: Optional[dict] = None):
        pass

    def render(self, mode="human"):
        return None

    def close(self):
        pass

环境的测试

    自定义环境写好后,首先应该用预设数据进行测试,看结果是否符合预期,排出完bug之后,再交给RL算法去训练。

    修改最多的地方就是奖励机制(reward)了,与领域问题密切相关,比如我的环境是仿真加热过程,温度每增加1℃得1分对么?实际温升的成本与温度之间不是线性关系,是指数函数,我感觉环境的学问90%都在奖励机制的设计上了。

注册为gym环境

    我照着知乎这篇文章做的,分三步:

第一步:将我们自己的环境文件(我创建的文件名为myenv.py)拷贝到你的gym安装目录/gym/gym/envs/classic_control文件夹中。(拷贝在这个文件夹中因为要使用rendering模块。当然,也有其他办法。该方法不唯一)

第二步:打开该文件夹(第一步中的文件夹)下的__init__.py文件,在文件末尾加入语句:

from gym.envs.classic_control.myenv import MyEnv

第三步:进入文件夹你的gym安装目录/gym/gym/envs,打开该文件夹下的__init__.py文件,添加代码:

register(
id='MyEnv-v0',
entry_point='gym.envs.classic_control:GridEnv',
max_episode_steps=200,
reward_threshold=100.0,
)

在RL算法上训练

    RL算法很多,实现就更五花八门了,推荐github上面星比较多的,我用的cleanrl,理念是一个算法一个独立文件搞定,B站上有作者介绍PPO的视频。把ppo.py文件中的env-name参数替换为MyEnv后就可以跑起来了,默认env-nums是4个,我改成了20个。

    跑了4个小时,训练基本收敛了,满分应该是72.33分左右

gmsh有python库嘛_gym环境

仿真速度

    当你的仿真算法复杂时,速度恐怕不乐观,要训练1M次十天半个月的等不起,这时候就要优化仿真代码的速度,并考虑多环境并发训练了。

    在我的仿真逻辑中,大计算量在蒸汽的物性参数计算上,而这个计算是在一定温度范围内才需要做的,加一些判断避免不必要的计算可以提高计算速度。

    cleanrl默认用的是SyncVectorEnv(单进程内顺序调用环境),可以修改为AsyncVectorEnv,然后每个环境都会在独立的子进程中运行,再以通讯的方式与智能体进行交互。我试了20报错,spawn页面太小无法完成操作,修改D盘虚拟内存后,试10时似乎错误少了,改为8不报错了,可能是系统资源受限了吧,这回速度快了。