序贯决策
用于随机性或不确定性动态系统最优化的决策方法
序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。
基本概念
有些决策问题,决策者仅作一次决策即可,这类决策方法称单阶段决策。在社会主义市场经济条件下,企业的经营活动为适应市场激烈竞争的需要,不仅需要单阶段决策,更需要进行多阶段决策,即序贯决策。
序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略)。也就是在时间上有先后之别的多阶段决策方法,也称动态决策法。多阶段决策的每一个阶段都需作出决策,从而使整个过程达到最优。多阶段的选取不是任意决定的,它依赖于当前面临的状态,不给以后的发展产生影响,从而影响整个过程的活动。当各个阶段的决策确定后,就组成了问题的决策序列或策略,称为决策集合。
特点
过程
从初始状态开始,每个时刻作出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再作出新的最优决策,反复进行直至最后。
系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:
应用
有些决策问题,在进行决策后又产生一些新情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策…,就构成一个序列,这就是序贯决策。与多阶段决策中阶段数确定相比,序贯决策中决策过程阶段数并不明显,也没有明确的结束阶段,其决策阶段数依赖于决策过程中出现的状况。序贯决策是马尔可夫决策的一种,它主要研究的对象是运行系统的状态和状态的转移。即根据变量的现实状态及其发展变化趋势,预测它在未来可能出现的状态,以做出正确决策。
序贯决策方法广泛应用于物流配送车辆调度、家电产品运营、应急资源配置等情况。应用序贯决策方法,可大大减少计算量。同时,对于给定的动态系统而言,初始状态向量为已知,系统经过相当长时间运行后,所选择的一序列方案,是每一阶段的平均收益最大的方案,因此,序贯决策方法是一种简单而又实用的决策方法。
参考资料
最新修订时间:2023-01-07 17:09
目录
概述
基本概念
特点
参考资料