自适应动态规划
人工智能学术语
自适应动态规划(Adaptive/Approximate Dynamic Programming,ADP),又近似动态规划,是人工智能和控制领域发展而交汇形成的新兴学科。
发展历史
ADP是最优控制领域新兴起的一种近似最优方法,是当前国际最优化领域的研究热点。在人工智能领域,强化学习、人工神经网络、模糊系统、演化计算等方法的发展和丰富,提出了很多求解非线性系统优化问题的解决思路和具体技术方法。而ADP以传统的最优控制为理论基础,融合人工智能的先进方法,提出了解决大规模复杂非线性系统优化控制问题的解决方法。
20世纪50年代,美国学者贝尔曼(R.E.Bellman)为解决非线性动态系统多级决策的控制问题,提出了动态规划方法,并于1957年出版了《动态规划》一书。动态规划,从本质上讲是一种非线性规划方法,其核心是贝尔曼最优性原理。这个原理可以归结为一个基本递推公式,从而使决策过程连续递推,并将一个多步(级)决策问题化简为多个一步(级)决策问题,从末端开始到始端逆向递推,从而简化了求解过程。动态规划由于众所周知的弱点是其计算量和存储量会随着状态和控制的维数的增加而急剧增长,这就是所谓的“维数灾”(Curse of Dimensionality)问题,再加上在实际应用中通常无法得到精确的数学解析表达式,故其应用范围受到了很大限制。
1977年,美国学者Paul J. Werbos首次提出了自适应动态规划(ADP)。ADP是一种新的非线性优化方法,该方法融合了强化学习(Reinforcement Learning,RL)和动态规划(Dynamic Programming,DP)的思想,模拟人通过环境反馈进行学习的思路,被认为是一种非常接近人脑智能的方法。该方法有效地解决了动态规划“维数灾”的难题。因此,ADP是一种适合于解决复杂非线性系统优化控制的新方法。
1997年,Prokhorov 和Wunsch讨论了HDP, DHP和全局双重启发式动态规划(GDHP)的设计,并提出了ADP的实现方法与训练步骤。
ADP是利用函数近似结构来逼近动态规划方程中的性能指标函数和控制策略,使之满足贝尔曼最优性原理,进而获得最优控制和最优性能指标函数。
ADP一般包括三个部分:动态系统(dynamic system)、评价执行函数(critic performance index function) 环节、执行/控制(action/control)环节,每个环节均可由神经网络来代替。其中动态系统(或称为被控对象)对应于建立的模型,执行/控制环节用来近似最优控制策略,评价执行函数环节是基于Bellman最优性原理进行参数更新,评价网络和执行网络的组合成了一个智能体。执行/控制作用于动态系统, 评价执行函数由动态系统产生奖励或是惩罚作用来影响。执行/控制环节输出控制动作,评价执行函数的输出是基于贝尔曼最优性原理的代价函数值,即以输出代价函数值最小为目标调整执行/控制环节使其输出动作近似最优。
近年来,ADP的理论发展日趋完善,从ADP的研究表明,它具有其他非线性控制方法所没有的优势,如在处理“维数灾”方面,展现了良好的应用效果和前景。ADP对非线性系统的稳定性、收敛性、最优性等的处理具有重要的作用;同时,在工业生产中具有较好的应用价值和前景。因此,ADP具有较好的理论意义和实践意义。
最新修订时间:2024-02-29 13:48
目录
概述
参考资料