“策略迭代法”的意思、由来-百科全书

词条

策略迭代法

释义

celüe diedaifa
策略迭代法(卷名：数学)
policy iteration method
　　动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用“求值计算”和“策略改进”两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。
　　例如，在最短路径问题中，设给定M个点1，2，…，M。点M是目的点，с_ij>0是点i到点j的距离i≠j，с_ij=0，i，j=1，2，…，M，要求出点i到点M的最短路。记ƒ(i)为从i到M的最短路长度。此问题的动态规划基本方程为

　　　(1)

其策略迭代法的程序如下：选定一初始策略u₀(i)，在这问题中，策略u(i)的意义是从点i出发走一步后到达的点，而且作为策略，它是集{1，2，…，M-1}上的函数。由u₀(i)解下列方程组求出相应的值函数ƒ₀(i)：

再由ƒ₀(i)求改进的一次迭代策略u₁(i)，使它是下列最小值问题的解：

然后，再如前面一样，由u₁(i)求出相应的值函数ƒ₁(i)，并由ƒ₁(i)求得改进的二次迭代策略u₂(i)，如此继续下去。可见求解(1)的策略迭代法的程序由下列两个基本步骤组成：
　　①求值计算　由策略 u_n(i)求相应的值函数ƒ_n(i)，即求下列方程的解：
　　　　

　　②策略改进　由值函数ƒ_n(i)求改进的策略，即求下列最小值问题的解：

式中规定，如u_n(i)是上一问题的解，则取u_n₊₁(i)=u_n(i)。
　　在一定条件下，由任选的初始策略出发，轮换进行这两个步骤，经有限步N后将得出对所有i，u_N₊₁(i)=u_N(i)这样求得的u_N(i)就是最优策略，相应的值函数ƒ_N(i)。是方程(1)的解。
　　对于更一般形式的动态规划基本方程

　　　　　(2)

这里ƒ，H，φ为给定实函数。上述两个步骤变成：
　　①求值计算　由策略u_n(x)求相应的值函数 ƒ_n(x)，即求方程

之解，n=0，1，2…。
　　②策略改进　由值函数ƒ_n(x)求改进的策略u_n₊₁(x)，即求最优值问题

的解。
　　对于满足适当条件的方程(2)和初始策略，上述两个步骤的解存在，并且在一定条件下，当n→

时，所得序列{ƒ_n(x)}与{u_n(x)}在某种意义下分别收敛于(2)的解和最优策略。
　　策略迭代法最初是由R.贝尔曼提出的。1960年，R.A.霍华德对于一种马尔可夫决策过程模型，提出了适用的策略迭代法，给出了相应的收敛性证明。后来，发现策略迭代法和牛顿迭代法在一定条件下的等价性，于是，从算子方程的牛顿逼近法的角度去研究策略迭代法，得到了发展。
　　对于范围很广的一类马尔可夫决策过程，其动态规划基本方程可以写成

；式中ƒ∈V，对所有 γ∈Γ:r(γ)∈V，γ为 V→V的线性算子，Γ为这种算子的族，而V 则是由指标值函数所构造的函数空间。假设

当 ƒ(γ)是方程 r(γ)＋γƒ＝0 的解时，它是对应于策略γ的指标值函数。最优策略 γ

定义为最优值问题

的解。这时由策略迭代法所求得的序列 {ƒ_n}和{γ_n}满足下列关系

其中

为 γ_n₊₁的逆算子。当σ是加托可微时， γ_n₊₁是σ在ƒ_n处的加托导数。于是，上面的关系恰好表达了牛顿迭代法在算子方程中的推广。

随便看

百科全书收录78206条中英文百科知识，基本涵盖了大多数领域的百科知识，是一部内容开放、自由的电子版百科全书。