RL 学习笔记（5）：PPO • Xiaohei's Blog

前言#

需要说明的是，这个系列的博客是由我的幕布笔记转化而来，如果你更喜欢图文并茂的阅读，你可以去我的幕布空间进行阅读,受限于篇幅的原因，第十二章幕布笔记在这。如果你发现有哪些地方由逻辑错误，可以通过评论告知我，十分感谢！

如果说 REINFORCE 的体验是“能学但很抖”，那 PPO 的体验往往是“终于像个工程算法了”。

PPO 解决的是一个特别现实的问题：

on-policy 方法要的数据很新鲜，但代价是采样量像无底洞一样被消耗；off-policy 方法能复用数据，样本效率高，可一旦更新把策略推离了数据分布太远，训练又会非常容易崩。PPO 基本就是在这两个诉求之间做平衡：既想把数据用得更充分，又不想让策略每次跨太大一步。

于是文档里先引入重要性采样，再引出 PPO 的关键点：限制新旧策略差距。

文档说“通过重要性采样，把同策略换成异策略”，直观可以理解为：

r_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta'}(a_t|s_t)}

问题就在这里：如果新旧策略差太大，这个比率会爆炸或趋近 0，更新会非常不稳定。

文档描述 PPO 的目标：避免 $p_\theta(a|s)$ 与 $p_{\theta'}(a|s)$ 相差太多。

TRPO 的做法是用 KL 散度做约束（但实现复杂）；PPO 把“约束”塞进目标函数里，让优化变得像普通的梯度法。

PPO 最常用的是 clipped objective（文档里虽然没展开公式，但思想一致）：

\mathcal{L}^{\text{CLIP}}(\theta) = \mathbb{E}\big[\min(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t)\big]

这里 $A_t$ 是优势（通常来自 critic 或 GAE）。

文档强调：虽然用了重要性采样，但 PPO 通常只用上一轮策略的数据，所以行为策略和目标策略非常接近，可认为是同策略。

这是你写代码时必须遵守的约束：

PPO 本体只是“更新约束”，真正决定学习信号质量的是 $A_t$ 。

工程上常见做法：

【图片占位：GAE 计算流程图（TD residual 逐步衰减累加）】

PPO 在我看来最重要的贡献不是它有多“新”，而是它让策略梯度的更新变得可控：

下一章我们会回到 value-based 阵营：DQN。你会发现它也在做“稳定性工程”，只是手段完全不同：经验回放 + 目标网络。