Page 1 - Showing 15 of 16 posts
View all posts by years →
-
RL 学习笔记(12):DDPGDDPG
10 min read -
RL 学习笔记(11):模仿学习模仿学习
6 min read -
RL 学习笔记(10):稀疏奖励稀疏奖励
5 min read -
RL 学习笔记(9):Actor-CriticActor-Critic
5 min read -
RL 学习笔记(8):连续动作下的 Q 方法DQN 擅长离散动作,但在连续动作下 $\max_a Q(s,a)$ 变得难以计算。本章按文档给的四种方案讲清楚它们的直觉、代价与为什么最终很多人会走向 Actor-Critic。
5 min read -
RL 学习笔记(7):DQN 进阶DQN 进阶
5 min read -
RL 学习笔记(6):DQNDQN
5 min read -
RL 学习笔记(5):PPOPPO
5 min read -
RL 学习笔记(4):策略梯度策略梯度
6 min read -
RL 学习笔记(3):从 MC、TD(0) 到 Sarsa / Q-learning当状态动作规模还扛得住时,先做预测(MC/TD),再做控制(Sarsa/Q-learning),顺便把 on-policy/off-policy 的差别讲清楚。
7 min read -
RL 学习笔记(2):MDP、MRP 与贝尔曼方程从马尔可夫性质出发,串起 Markov Chain、MRP、MDP、预测与控制、动态规划,以及策略迭代与价值迭代的直觉与实现注意点。
7 min read -
RL 学习笔记(1):强化学习到底在学什么从“监督学习不适用”讲起,梳理强化学习的输入输出、探索与利用、状态与观测,以及 value-based / policy-based / actor-critic 的基本分工。
11 min read -
强化学习算法程序实践(1):通用训练框架 + Q-Learning / Sarsa从一个可落地 Q-Learning 与 Sarsa、epsilon-greedy、回合训练循环、以及保存与加载的最小实践。
11 min read -
强化学习算法程序实践(2):DQN 及其改进从 Q-table 走向深度强化学习
12 min read -
强化学习算法程序实践(3):策略梯度与 Actor-Critic策略分布(Softmax / Gaussian)设计,回报累积与并行采样。
11 min read