

前言#
需要说明的是,这个系列的博客是由我的幕布笔记转化而来,如果你更喜欢图文并茂的阅读,你可以去我的幕布空间进行阅读,受限于篇幅的原因,第十二章幕布笔记在这。如果你发现有哪些地方由逻辑错误,可以通过评论告知我,十分感谢!
开始#
很多人学 RL 是从游戏开始的:reward 很明确,失败成本也低。
但一旦你把目光放到真实世界(机器人、自动驾驶、医疗),你会发现:
reward 往往很难写清楚(比如“开得像人”到底对应哪些可计算指标),探索成本还极高(撞一次就可能直接报废)。这两个现实约束会把纯 RL 的试错路线逼得很窄。
文档在这一章给出一个非常现实的答案:模仿学习。
它的输入不是奖励,而是专家示范:专家怎么做,你先学会怎么做。
模仿学习的两条主线#
文档提到两大方法:
第一条路线是行为克隆(Behavior Cloning, BC),第二条路线是逆强化学习(Inverse Reinforcement Learning, IRL)。一个更像监督学习,另一个更像“先学偏好再学决策”。
我一般这样理解:
BC 是把“模仿”当监督学习,直接学 ;IRL 则更像先从专家行为里反推一个“奖励函数/偏好”,再在这个奖励下跑 RL。
1) 行为克隆(BC):最像监督学习的模仿#
文档描述得很清楚:专家做什么,智能体就做一模一样的事。
实现上就是一个监督学习问题:
实现上它就是一个监督学习问题:输入是观测 ,标签是专家动作 。如果动作是离散的,你通常会用交叉熵;如果动作是连续的,就更常见 MSE 或负 log-likelihood。
2) DAgger:用数据集聚合修分布偏移#
文档提到 DAgger 的思路:记录专家在“模型会遇到的状态”下应该做什么。
流程可以理解为:
你可以把它理解成一个“边犯错边请教”的循环:先用当前策略跑一段,让自己真实地走到那些会犯错的状态;再把这些状态拿去问专家“你会怎么做”;然后把新得到的数据并入数据集里重新训练。这个过程重复下去,数据分布就会越来越贴近你模型在部署时真正会遇到的世界。
这会不断把数据分布拉回到“你真实会走到的地方”。
3) 逆强化学习(IRL):从示范里反推奖励#
文档最后提到 IRL 的动机:行为克隆解决不了全部问题,因此引入 IRL。
IRL 的直觉是:
专家行为背后通常隐含着某种“偏好”或“奖励”,IRL 的做法就是从示范中把这种偏好反推出来,然后再用普通的 RL 在这个奖励下学习策略。它适合那些你很难写 reward,但能拿到足够高质量示范的场景。
这在“奖励难写但示范容易拿到”的场景里很有价值。
本章小结:当你不想写奖励,就去找示范#
模仿学习的价值我总结成一句话:
在真实世界里,示范往往比奖励更便宜。
BC 让你快速得到一个可用策略,DAgger 让它不那么容易跑偏,IRL(或 GAIL)让你在没有显式奖励的情况下也能学习“像专家一样”的行为。
到这里,EasyRL-base 的 11 章就完成了一个从基础概念到常用算法再到高级主题(稀疏奖励、模仿学习)的闭环。后续如果你要继续往下写,我建议优先补上:连续控制三件套(DDPG/TD3/SAC)与离线 RL 的基本范式,它们与模仿学习在工程上经常会接到一起。