强化学习

强化学习基础：MDP、策略梯度、Actor-Critic 与离线 RL。

12 篇文章

01
强化学习（一）：基础与核心概念
用骑自行车的类比把强化学习从零讲清楚：MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分（TD），附带可直接运行的 Python 代码。
2025-08-01 28 分钟
02
强化学习（二）：Q-Learning 与深度 Q 网络（DQN）
DQN 如何结合神经网络与 Q-Learning 玩转 Atari——经验回放、目标网络、Double DQN、Dueling DQN、优先经验回放与 Rainbow。
2025-08-06 24 分钟
03
强化学习（三）：Policy Gradient 与 Actor-Critic 方法
从 REINFORCE 到 SAC——策略梯度方法如何直接优化策略，自然处理连续动作，驱动 PPO、TD3 和 SAC 等现代算法。
2025-08-11 20 分钟
04
强化学习（四）：探索策略与好奇心驱动学习
在几乎没有奖励反馈的环境中，智能体如何发现回报？从计数型方法到 ICM、RND、NGU——好奇心驱动探索的完整脉络与工程实践。
2025-08-16 26 分钟
05
强化学习（五）：Model-Based 强化学习与世界模型
从 Dyna、MBPO 到 World Models、Dreamer 和 MuZero——学一个环境模型，让智能体在想象中规划，把样本效率提高 10-100 倍。
2025-08-21 24 分钟
06
强化学习（六）：PPO 与 TRPO —— 信任域策略优化
PPO 和 TRPO 的完整推导：从策略优化的不稳定性到信任域约束，PPO 的裁剪技巧，以及 PPO 在 RLHF 中的关键角色。
2025-08-26 26 分钟
07
强化学习（七）：模仿学习与逆强化学习
从专家示范中学习：行为克隆为何在长任务上必败、DAgger 如何把误差从二次降到线性、最大熵 IRL 如何反推奖励、GAIL/AIRL 如何用对抗训练匹配专家占用度。配可运行 PyTorch 代码、方法选择阶梯，以及七张高质量配图。
2025-08-31 22 分钟
08
强化学习（八）：AlphaGo 与蒙特卡洛树搜索
从 MCTS 到 AlphaGo、AlphaGo Zero、AlphaZero 与 MuZero：UCT 探索-利用、自我对弈训练、在学到的世界模型里规划。附五子棋上的 AlphaZero 完整实现。
2025-09-05 22 分钟
09
强化学习（九）：多智能体强化学习
系统讲透多智能体强化学习：马尔可夫博弈、非稳态与信用分配、CTDE 范式、值分解（VDN/QMIX）、反事实基线（COMA）、MADDPG，以及 AlphaStar 与 OpenAI Five 的联赛训练，附可运行的 QMIX …
2025-09-10 24 分钟
10
强化学习（十）：离线强化学习
离线强化学习从固定数据集学习策略，无需任何在线交互。本文系统讲解分布偏移、外推误差，以及 CQL、BCQ、IQL、Decision Transformer 四类主流方法，配有完整的 CQL PyTorch 实现与 D4RL 基准对比。
2025-09-15 22 分钟
11
强化学习（十一）：层次化强化学习与元学习
层次化强化学习（Options、MAXQ、Feudal Networks、目标条件策略）与元强化学习（MAML、FOMAML、RL²）的系统讲解：时序抽象、半马尔可夫过程、Manager-Worker 架构、二阶元梯度与循环式元学习器， …
2025-09-20 18 分钟
12
强化学习（十二）：RLHF 与大语言模型应用
RLHF 把基础语言模型变成 ChatGPT 与 Claude 的完整路径：SFT→奖励模型→PPO 三阶段流程、Bradley-Terry 偏好模型、DPO 闭式解推导、RLAIF 与 Constitutional AI、Goodhart …
2025-09-25 34 分钟