策略迭代方法

在求解动态规划问题(增强学习中也很常用)时,常有两种方法,价值迭代以及策略迭代,价值迭代比较好理解,但是策略迭代一直没有理解,记录一下。

策略迭代的思路

用随机选取的某种策略开始,首先计算当前策略下的价值函数,然后利用这个价值函数找到更好的策略,然后不断反复迭代,最终策略收敛,最优化问题得到解决。

策略迭代流程

  1. 随机初始化策略
  2. 重复以下步骤直至收敛
  3. 1)令$V := V^{\pi}$
  4. 2)对每个状态s,令$\pi(s):=argmax_ {a\in A}~\sum_ {s’}P_ {sa}(s’)V(s’)$
Avatar
Haowei Sun
Undergraduate of Automation

Related