最优性原理是指“多阶段决策过程的最优决策序列具有这样的性质:不论初始状态和初始决策如何,对于前面决策所造成的某一状态而言,其后各阶段的决策序列必须构成最优策略”。
一个最优决策应具有这样的性质,不管初始状态和初始决策如何,剩下的决策(整个最优决策中的一部分)对于从这一级开始的后续多级过程,仍然是一个最优决策。应用最优性原理,可以把多级决策问题的求解过程看作是一个连续递推过程,由后向前逐级推算。在求解过程中,前一级的决策和输出状态只是后一级的初始条件(初始状态),并不影响后续子过程的最优决策。
上式称为贝尔曼递推方程,它是动态规划的基本递推关系式。由已知的级过程的最优性能指标,根据递推公式确定最优控制,就可得到级过程的最优性能指标。动态规划的寻优算法是从末级过程开始的,然后,根据式子逐级倒推,最终得到多级过程的
最优决策和最优性能指标。递推公式明确指出,每一步倒推时,并不是孤立地考虑当前级的过程,而是从该级到最后一级所有过程的整体的最优决策,使“整体”的性能指标最优。
动态规划的递推公式再一次重申了一个重要概念——嵌入原理原理,就是说,既然表示初始状态为的一个级过程中,从第级开始的最后级过程的最优性能指标,又表示初始状态为的级的最优性能指标。嵌入原理的内容是,当时,一个级过程的最优决策和最优性能指标是被嵌入在一个级过程的最优决策过程之中的。