11.34 基于近似动态规划的优化控制研究及 在电力系统中的应用
上世纪 50 年代以来,在空间技术发展和数字计算机实用化的推动下,动态系统的优化理论得到了迅速的发展,形成了一个重要的学科分支——最优控制[1-2] 。它在空间技术、系统工程、多级工艺设备的优化等领域都有越来越广泛的应用。因而更深入研究最优控制问题,无论在理论上,还是在实践上都具有重大的意义。最优控制理论的三大基石是经典变分理论、极小值原理及动态规划。经典变分理论只能解决控制无约束问题,即容许控制属于开集的一类最优控制问题,而工程实践中所遇到的多是容许控制为闭集的一类最优控制问题。对于这一类问题 , 经典变分理论变得无能为力。因而为了适应工程实践的需要,20 世纪 50 年代中期出现了现代变分理论,一种是苏联学者庞特里亚金的“极小值原理” [3] ;另一种是美国学者贝尔曼的“动态规划 (DynamicProgramming,DP)” [4] 。极小值原理不仅适用于处理带开集性约束条件的最优控制问题,而且也适用于处理带有闭集约束条件的最优控制问题。但是对于非线性系统,极小值原理需要求解非线性两点边值问题。这一点在工程实际中很难做到的,一般无法求得最优控制的解析解。
动态规划不仅能处理带有开集性约束条件的最优控制问题, 而且也能处理带有闭集约束条件的最优控制问题,而更为重要的是其给出最优控制的充分条件。但是,动态规划的明显弱点是,计算量和存储量会随着状态和控制向量的维数增加而急剧增加。对于状态向量为 n 维、控制向量为 m 维、时间离散段为 N 的离散系统,在状态向量的每个元取 p个值,控制向量的每个元取 q 个值的情况下,计算性能指标的求值次数为 Np n q m 次 , 需要存储容量为2p n 个字。假定取 N=10、p=q=20、n=6、m=2, 则需要存储量为 1.28 亿字 , 计算次数为 2 560 亿次。很显然,这种巨大的计算量形成了所谓的“维数灾”问题[4] ,极大限制了动态规划的直接应用。
为了解决动态规划的“维数灾”问题,Werbos于 1977 年 提 出 了 近 似 动 态 规 划 (Approximatedynamic programming, ADP) 的基本理论思想[5] ,随后许多学者也开始探讨这方面的问题 , 使得 ADP 理论得到了极大的发展[6-13] 。在 ADP 发展过程中出现了一系列的同义词,如自适应评价设计[6-8] 、自适应动态规划[9] 、增强学习 [10] 、神经动态规划 [11]和启发式动态规划[12]等。2006 年美国科学基金会组织的“2006 NSF Workshop and Outreach Tutorials onApproximate Dynamic Programming”研讨会上 , 建议将该方法统称为“Adaptive/Approximate dynamicprogramming”。 这次专题讨论会奠定了 ADP 在相关研究领域中的重要地位。
近似动态规划是通过利用函数近似结构来近似动态规划中的性能指标函数以及控制函数,利用强化学习机制而来获得最优性能指标函数和最优控制以满足动态规划的最优性原理。近似动态规划的基本思想可用图 1 来说明。近似动态规划的整体结构主要由动态系统 (Dynamic system)、执行 / 控制 (Action/Control) 和评价 / 性能指标函数 (Critic/Performance index function) 三部分组成。每个部分均可由神经网络代替,称为模型网络、评价网络和执行网络。评价网络和执行网络二者的结合相当于一个智能体 (Agent),控制 (Action) 作用于动态系统( 或者被控对象 ) 后,通过被控对象 ( 或者环境 ) 在不同阶段产生的奖励 / 惩罚 (Reward/Penalty) 来影响性能指标函数[7] 。智能体的任务就是学习一个控制策略,使得这些回报(或者惩罚)的总和达到最优。正是由于近似动态规划利用函数近似结构 ( 比如神经络[5] ) 来逼近动态规划方程中的代价函数和控制策略,以满足最优性原理,从而获得最优代价函数和最优控制策略,因而克服了 DP 方法局限性。