词条 | 策略迭代法 |
释义 | celüe diedaifa 策略迭代法(卷名:数学) policy iteration method 动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。 例如,在最短路径问题中,设给定M个点1,2,…,M。点M是目的点,сij>0是点i到点j的距离i≠j,сij=0,i,j=1,2,…,M,要求出点i到点M的最短路。记ƒ(i)为从i到M的最短路长度。此问题的动态规划基本方程为 ![]() ![]() ![]() ①求值计算 由策略 un(i)求相应的值函数ƒn(i),即求下列方程的解: ![]() ②策略改进 由值函数ƒn(i)求改进的策略,即求下列最小值问题的解: ![]() 在一定条件下,由任选的初始策略出发,轮换进行这两个步骤, 经有限步N后将得出对所有i,uN+1(i)=uN(i)这样求得的uN(i)就是最优策略,相应的值函数ƒN(i)。是方程(1)的解。 对于更一般形式的动态规划基本方程 ![]() ①求值计算 由策略un(x)求相应的值函数 ƒn(x),即求方程 ![]() ②策略改进 由值函数ƒn(x)求改进的策略un+1(x),即求最优值问题 ![]() 对于满足适当条件的方程(2)和初始策略,上述两个步骤的解存在,并且在一定条件下,当n→ ![]() 策略迭代法最初是由R.贝尔曼提出的。1960年,R.A.霍华德对于一种马尔可夫决策过程模型,提出了适用的策略迭代法,给出了相应的收敛性证明。后来,发现策略迭代法和牛顿迭代法在一定条件下的等价性,于是,从算子方程的牛顿逼近法的角度去研究策略迭代法,得到了发展。 对于范围很广的一类马尔可夫决策过程,其动态规划基本方程可以写成 ![]() ![]() ![]() ![]() ![]() ![]() |
随便看 |
百科全书收录78206条中英文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。