以离散时间系统为例,对自适应动态规划(Adaptive Dynamic Programming,ADP)中Action Network和Critic Network两个网络的更新方式进行说明。
一、系统定义
1.状态方程 state equation
${X_{k + 1}} = {F_k}({X_k},{U_k})$(1)
其中数学公式: $ U $是控制指令,数学公式: $ F $是关于状态和控制的动力方程。
2.代价函数 cost function
$J = \sum \limits_{k = 1}^{N - 1} {\psi _k}\left( {{X_k},{U_k}} \right)$ (2)
其中数学公式: $ \psi $为效用函数。对公式2进重写让其从时间k开始
$ {J_k} = \sum \limits_{\widetilde k = k}^{N - 1} {\psi_{\widetilde k}}\left({{X_{\widetilde k}},{U_{\widetilde k}}} \right) $ (3)
可以对数学公式: $ {J_k} $进行一个拆分
$ {J_k} = {\psi_k} + {J_{k + 1}} $(4)
3.定义costate vector
定义在时间k的costate vector
$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} $(5)
4.最优的必要条件
$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = 0 $(6)
计算
$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {U_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $ $ = \left({\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda _{k + 1}} $(7)
结合公式(6)和(7)可以得出
$ \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda_{k + 1}} = 0 $(8)
结合公式(4)和(5)可以对costate vector进行重写
$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $(9)
所以可以得到数学公式: $ \lambda_k $和数学公式: $ \lambda_{k+1} $之间的关系式
$ {\lambda_k} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}{\lambda_{k + 1}} $(10)
公式(1)(8)和(10)必须同时求解,并配合适当的边界条件以求得最优控制的综合。
二、网络的训练
基于AC的ADP算法拥有两个网络分别是Action网络和Critic网络,Action网络主要的作用是根据状态信息生成控制指令,Critic网络的作用是生成costate vector用于调整两个网络的权重。
1.Action 网络的更新流程
第一步:输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $;
第二步:系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式(1)得到数学公式: $ X_{k+1} $
第三步:将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步:使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $,根据公式(8)计算目标的数学公式: $ U_k^t $
第五步:按照目标控制数学公式: $ U_k^t $来调整Action网络的权重
2.Critic网络的更新流程
第一步:输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $;
第二步:系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式(1)得到数学公式: $ X_{k+1} $
第三步:将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步:使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $,根据公式(10)计算目标的数学公式: $ \lambda_k^t $
第五步:按照目标costate数学公式: $ \lambda_k^t $来调整Critic网络的权重