11.37 非线性切换系统最优控制
在现实世界中具有广泛的应用,切换系统一直是控制界学者的研究的热点[28-31] 。然而大多数切换系统的执行器具有饱和非线性,这是由于实际的执行器都存在物理特性的限制。如果忽略饱和特性的影响,那么不仅会导致降低闭环系统的性能,还有可能导致系统的不稳定,因而引起了许多学者的研究兴趣,出现了许多研究成果[32-34] 。然而,目前研究成果只是注重了带有执行饱和的切换系统的稳定性,却没有考虑系统的最优控制问题。
对于切换系统的最优控制问题,不仅需要设计切换系统的最优反馈控制,还要设计切换系统的最优切换序列[35-39] 。另外,切换系统的哈密顿-雅可比-贝尔曼 (Hamilton-Jacobi-Bellman, HJB) 方程是一个具有多变量的非线性差分方程或微分方程,而求解这样的 HJB 方程是十分困难的,很难得到方程的解析解[35] 。如果切换系统的执行器是饱和的 , 那么相应的 HJB 方程是一个受约束的 HJB 方程 , 就更难得到其解析解。另一方面,现有解决切换系统的最优控制问题的方法[35,38]都是基于动态规划的。而动态规划是采用反向递推求解最优问题,相应的计算量和存储量会随着系统的复杂性的增加而急剧增加,形成所谓的动态规划的“维数灾”问题[13] ,这将导致无法得到最优解[28] 。
为此,我们给出了一种迭代两级二次启发式规划 (Dual Heuristic Programming, DHP) 算法来解决带有饱和执行器的离散非线性切换系统的最优控制问题。首先,利用一个非二次型泛函解决执行饱和问题,并给出切换系统的约束 HJB 方程,保证所得到的最优控制函数在饱和执行器内是光滑函数。其次,基于两级最优法和迭代二次启发式规划算法,推导出一种新异的迭代两级 DHP 算法用来求解约束 HJB 方程。在迭代两级 DHP 算法中,每步迭代的协状态函数是由一组光滑函数的集合表征的。并证明了通过迭代两级 DHP 算法得到的值函数序列收敛于 HJB 方程最优代价函数。为了执行迭代算法,通过利用神经网络作为参数结构来分别近似协状态函数和控制律,并给出迭代求解的具体步骤。