| 词条 | 马尔可夫决策过程 |
| 释义 | Ma’erkefu juece guocheng 马尔可夫决策过程(卷名:数学) Markovian decision process 研究一类可周期地或连续地进行观察的随机动态系统的最优化问题。在各个时刻根据观察到的状态,从它的允许决策(控制、行动、措施等)集合中选用一个决策而决定了系统下次的转移规律与相应的运行效果。并假设这两者都不依赖于系统过去的历史。在各个时刻选取决策的目的,是使系统运行的全过程达到某种最优运行效果,即选取控制(影响)系统发展的最优策略。 基本概念 以简化的机器维修问题为例来说明。设机器的运行有两种状态:正常(记作1)和故障(记作2)。在任一时段,如正常运行,可得收益10元,到下一时段,机器仍保持正常运行的概率为 0.7,出现故障的概率为0.3。正常运行时,惟一可供选择的决策是继续生产(记作α1),如出了故障,则有两种决策可供选择,一是快修(记作α2),需费用5元,且在该时段内能修复的概率为0.6;一是慢修(记作α3),需费用2.5元,在该时段能修复的概率则为0.4。状态转移如图1 和图2 所示。图中的方框表示状态,箭头表示状态转移,其上的数字表示相应的转移概率。根据各时段初观察到的状态来确定采取的决策,使得整个运行期的某种期望收益达到最大的问题,就是此例的最优化问题。可以看出,每个时段的状态转移概率与收益依赖于选取的决策。以q(j│i,α)表示由状态i采取决策α的时段到下一时段初转移到状态j的概率;以r(i,α)表示在状态i下采取决策α时其相应时段的收益。于是,此例各值如表1所示。
给定了系统在t=0的初始状态Y0和使用的策略π,令Yt和墹t分别表示系统在时刻t的状态和所选取的决策,则定义一随机序列(Y0,墹0,Y1,墹1,…),通常称为由π产生的马尔可夫决策过程。常用的指标有三种,分别定义如下: ① 有限阶段指标VN为
② 折扣指标Vβ为
③ 平均指标堸为
(i∈S), (3)式中VN(π;i)由(1)给出。堸(π;i)表示t=0从i出发,使用策略π时的长期的时间平均期望收益。 对于不同类别的指标,可以建立不同的策略最优性概念。例如,若存在π*∈П,使得对于所有i∈S,π∈П都有 (当r为费用时,则为![]() ,则称π*关于折扣指标是最优的,简称β最优的。类似地可以定义关于有限阶段指标和平均指标的最优性。对同一指标也可以定义不同的最优性概念。研究各种模型中最优策略的存在性、最优条件以及最优策略的求解方法等,是MDP的主要内容。扣折模型 假定S及所有 A(i) (i∈S)均为有限集。其指标由(2)式给出。可以证明,对此模型存在平稳策略是最优策略。因此,在П上寻求最优策略,只需在小得多的平稳策略类П 上去寻求。以前面的机器维修问题为例来说明寻求最优平稳策略的一种算法,亦即策略迭代法。首先,策略求值。对给定的或前一轮迭代求出的平稳策略ƒ∞,由下列方程组求解值函数V(i)。
。在前述机器维修问题中,给定β =0.9与平稳策略(ƒ 2)∞,于是方程组(4)即为10+0.9[0.7V(1)+0.3V(2)]=V (1), -2.5+0.9[0.4V(1)+0.6V(2)]=V (2),解方程组,得 V(1)=53.77,V(2)=36.64。
最后,终止规则。若g呏ƒ,则ƒ∞是所求的最优策略,而终止计算。若g扝ƒ,则以g代ƒ,再转入第二步骤,由于F仅包含有限个决策规则,因此经有限次迭代必终止于一最优平稳策略。例如机器维修问题中,F 仅包含两个元素,故(ƒ1)∞必为最优策略,再经第一步骤可解得
简史 MDP 是确定性动态规划与马尔可夫过程结合的产物。1953年L.S.沙普利在“随机对策”一文中曾讨论过对策的一方是无意志的情形,其实是一种 MDP模型。1957年,R.贝尔曼正式提出MDP的名称和借助于最优性原理求解最优策略的方法。1960年,R.A.霍华德在动态规划基础上对一类MDP模型提出了策略迭代法。同年,有人发现寻求最优策略问题可以化为求解相应的线性规划问题。在这项工作中,S 和A都假定为有限集,而且只在П 或Пs上探讨最优策略。1962年,D.布莱克韦尔在较大的策略类П 上探讨最优策略。他和Ε.Б.登金于1965年分别研究了S、A都是完备可分距离空间中的波莱尔集与S 、A都是可数无穷集且转移律是非时间齐次的MDP,推动了MDP的理论的发展。MDP已在设备的更换和维修以及库存论、排队论、控制工程、可靠性理论、搜索论、水库调度、林渔业管理、电话网络等的最优化问题中都有应用,并正在向工程、生物、经济等领域渗透。 目前,MDP的工作日益增多,有独立发展的趋势。有关的文章,除较多地使用动态规划、马尔可夫决策过程的名称外,还有使用马尔可夫决策规划、序贯决策过程、受控马氏链等名称的。研究者注意的新问题主要有:模型更加一般化;连续时间、状态部分可观察、半马氏、适应性等模型的理论探讨;特殊模型更有效的解法;如何用易于处理的模型去逼近复杂的模型等。
|
| 随便看 |
百科全书收录78206条中英文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。