Academic Projects Links About 🚇

Seek & Ponder

Page 1 - Showing 15 of 16 posts View all posts by years →

May 13, 2025

RL 学习笔记（12）：DDPG

DDPG

10 min read
- rl
May 12, 2025

RL 学习笔记（11）：模仿学习

模仿学习

6 min read
- rl
May 11, 2025

RL 学习笔记（10）：稀疏奖励

稀疏奖励

5 min read
- rl
May 10, 2025

RL 学习笔记（9）：Actor-Critic

Actor-Critic

5 min read
- rl
May 9, 2025

RL 学习笔记（8）：连续动作下的 Q 方法

DQN 擅长离散动作，但在连续动作下 $\max_a Q(s,a)$ 变得难以计算。本章按文档给的四种方案讲清楚它们的直觉、代价与为什么最终很多人会走向 Actor-Critic。

5 min read
- rl
May 8, 2025

RL 学习笔记（7）：DQN 进阶

DQN 进阶

5 min read
- rl
May 7, 2025

RL 学习笔记（6）：DQN

DQN

5 min read
- rl
May 6, 2025

RL 学习笔记（5）：PPO

PPO

5 min read
- rl
May 5, 2025

RL 学习笔记（4）：策略梯度

策略梯度

6 min read
- rl
May 4, 2025

RL 学习笔记（3）：从 MC、TD(0) 到 Sarsa / Q-learning

当状态动作规模还扛得住时，先做预测（MC/TD），再做控制（Sarsa/Q-learning），顺便把 on-policy/off-policy 的差别讲清楚。

7 min read
- rl
May 3, 2025

RL 学习笔记（2）：MDP、MRP 与贝尔曼方程

从马尔可夫性质出发，串起 Markov Chain、MRP、MDP、预测与控制、动态规划，以及策略迭代与价值迭代的直觉与实现注意点。

7 min read
- rl
May 2, 2025

RL 学习笔记（1）：强化学习到底在学什么

从“监督学习不适用”讲起，梳理强化学习的输入输出、探索与利用、状态与观测，以及 value-based / policy-based / actor-critic 的基本分工。

11 min read
- rl
May 1, 2025

强化学习算法程序实践（1）：通用训练框架 + Q-Learning / Sarsa

从一个可落地 Q-Learning 与 Sarsa、epsilon-greedy、回合训练循环、以及保存与加载的最小实践。

11 min read
- rl
May 1, 2025

强化学习算法程序实践（2）：DQN 及其改进

从 Q-table 走向深度强化学习

12 min read
- rl
May 1, 2025

强化学习算法程序实践（3）：策略梯度与 Actor-Critic

策略分布（Softmax / Gaussian）设计，回报累积与并行采样。

11 min read
- rl