Series

Reinforcement Learning

Sep 25, 2025 Reinforcement Learning 2 min read

强化学习（十二）：RLHF与大语言模型应用

RLHF 把基础语言模型变成 ChatGPT 与 Claude 的完整路径：SFT→奖励模型→PPO 三阶段流程、Bradley-Terry 偏好模型、DPO 闭式解推导、RLAIF 与 Constitutional AI、Goodhart 定律下的奖励黑客，以及强化学习在具身智能与推理时搜索中的下一步。

Sep 20, 2025 Reinforcement Learning 12 min read

强化学习（十一）：层次化强化学习与元学习

层次化强化学习（Options、MAXQ、Feudal Networks、目标条件策略）与元强化学习（MAML、FOMAML、RL²）的系统讲解：时序抽象、半马尔可夫过程、Manager-Worker 架构、二阶元梯度与循环式元学习器，附带 PyTorch 实现。

Sep 15, 2025 Reinforcement Learning 12 min read

强化学习（十）：离线强化学习

离线强化学习从固定数据集学习策略，无需任何在线交互。本文系统讲解分布偏移、外推误差，以及 CQL、BCQ、IQL、Decision Transformer 四类主流方法，配有完整的 CQL PyTorch 实现与 D4RL 基准对比。

Sep 10, 2025 Reinforcement Learning 10 min read

强化学习（九）：多智能体强化学习

系统讲透多智能体强化学习：马尔可夫博弈、非稳态与信用分配、CTDE 范式、值分解（VDN/QMIX）、反事实基线（COMA）、MADDPG，以及 AlphaStar 与 OpenAI Five 的联赛训练，附可运行的 QMIX 混合网络 PyTorch 实现。

Sep 5, 2025 Reinforcement Learning 12 min read

强化学习（八）：AlphaGo与蒙特卡洛树搜索

从 MCTS 到 AlphaGo、AlphaGo Zero、AlphaZero 与 MuZero：UCT 探索-利用、自我对弈训练、在学到的世界模型里规划。附五子棋上的 AlphaZero 完整实现。

Aug 31, 2025 Reinforcement Learning 12 min read

强化学习（七）：模仿学习与逆强化学习

从专家示范中学习：行为克隆为何在长任务上必败、DAgger 如何把误差从二次降到线性、最大熵 IRL 如何反推奖励、GAIL/AIRL 如何用对抗训练匹配专家占用度。配可运行 PyTorch 代码、方法选择阶梯，以及七张高质量配图。

Aug 26, 2025 Reinforcement Learning 15 min read

强化学习（六）：PPO与TRPO：信任域策略优化

PPO和TRPO的完整推导：从策略优化的不稳定性到信任域约束，PPO的裁剪技巧，以及PPO在RLHF中的关键角色。

Aug 21, 2025 Reinforcement Learning 14 min read

强化学习（五）：Model-Based强化学习与世界模型

从 Dyna、MBPO 到 World Models、Dreamer 和 MuZero——学一个环境模型，让智能体在想象中规划，把样本效率提高 10-100 倍。

Aug 16, 2025 Reinforcement Learning 16 min read

强化学习（四）：探索策略与好奇心驱动学习

在几乎没有奖励反馈的环境中，智能体如何发现回报？从计数型方法到 ICM、RND、NGU——好奇心驱动探索的完整脉络与工程实践。

Aug 11, 2025 Reinforcement Learning 11 min read

强化学习（三）：Policy Gradient与Actor-Critic方法

从REINFORCE到SAC——策略梯度方法如何直接优化策略，自然处理连续动作，驱动PPO、TD3和SAC等现代算法。

Aug 6, 2025 Reinforcement Learning 14 min read

强化学习（二）：Q-Learning 与深度 Q 网络（DQN）

DQN 如何结合神经网络与 Q-Learning 玩转 Atari——经验回放、目标网络、Double DQN、Dueling DQN、优先经验回放与 Rainbow。

Aug 1, 2025 Reinforcement Learning 16 min read

强化学习（一）：基础与核心概念

用骑自行车的类比把强化学习从零讲清楚：MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分（TD），附带可直接运行的 Python 代码。