RL 学习笔记（11）：模仿学习 • Xiaohei's Blog

前言#

需要说明的是，这个系列的博客是由我的幕布笔记转化而来，如果你更喜欢图文并茂的阅读，你可以去我的幕布空间进行阅读,受限于篇幅的原因，第十二章幕布笔记在这。如果你发现有哪些地方由逻辑错误，可以通过评论告知我，十分感谢！

很多人学 RL 是从游戏开始的：reward 很明确，失败成本也低。

但一旦你把目光放到真实世界（机器人、自动驾驶、医疗），你会发现：

reward 往往很难写清楚（比如“开得像人”到底对应哪些可计算指标），探索成本还极高（撞一次就可能直接报废）。这两个现实约束会把纯 RL 的试错路线逼得很窄。

文档在这一章给出一个非常现实的答案：模仿学习。

它的输入不是奖励，而是专家示范：专家怎么做，你先学会怎么做。

文档提到两大方法：

第一条路线是行为克隆（Behavior Cloning, BC），第二条路线是逆强化学习（Inverse Reinforcement Learning, IRL）。一个更像监督学习，另一个更像“先学偏好再学决策”。

我一般这样理解：

BC 是把“模仿”当监督学习，直接学 $\pi(a|s)$ ；IRL 则更像先从专家行为里反推一个“奖励函数/偏好”，再在这个奖励下跑 RL。

文档描述得很清楚：专家做什么，智能体就做一模一样的事。

实现上就是一个监督学习问题：

实现上它就是一个监督学习问题：输入是观测 $s$ ，标签是专家动作 $a$ 。如果动作是离散的，你通常会用交叉熵；如果动作是连续的，就更常见 MSE 或负 log-likelihood。

文档提到 DAgger 的思路：记录专家在“模型会遇到的状态”下应该做什么。

流程可以理解为：

你可以把它理解成一个“边犯错边请教”的循环：先用当前策略跑一段，让自己真实地走到那些会犯错的状态；再把这些状态拿去问专家“你会怎么做”；然后把新得到的数据并入数据集里重新训练。这个过程重复下去，数据分布就会越来越贴近你模型在部署时真正会遇到的世界。

这会不断把数据分布拉回到“你真实会走到的地方”。

文档最后提到 IRL 的动机：行为克隆解决不了全部问题，因此引入 IRL。

IRL 的直觉是：

专家行为背后通常隐含着某种“偏好”或“奖励”，IRL 的做法就是从示范中把这种偏好反推出来，然后再用普通的 RL 在这个奖励下学习策略。它适合那些你很难写 reward，但能拿到足够高质量示范的场景。

这在“奖励难写但示范容易拿到”的场景里很有价值。

模仿学习的价值我总结成一句话：

在真实世界里，示范往往比奖励更便宜。

BC 让你快速得到一个可用策略，DAgger 让它不那么容易跑偏，IRL（或 GAIL）让你在没有显式奖励的情况下也能学习“像专家一样”的行为。

到这里，EasyRL-base 的 11 章就完成了一个从基础概念到常用算法再到高级主题（稀疏奖励、模仿学习）的闭环。后续如果你要继续往下写，我建议优先补上：连续控制三件套（DDPG/TD3/SAC）与离线 RL 的基本范式，它们与模仿学习在工程上经常会接到一起。