强化学习

强化学习基础:MDP、策略梯度、Actor-Critic 与离线 RL。

12 篇文章

  1. 01

    强化学习(一):基础与核心概念

    用骑自行车的类比把强化学习从零讲清楚:MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分(TD),附带可直接运行的 Python 代码。

    28 分钟
  2. 02

    强化学习(二):Q-Learning 与深度 Q 网络(DQN)

    DQN 如何结合神经网络与 Q-Learning 玩转 Atari——经验回放、目标网络、Double DQN、Dueling DQN、优先经验回放与 Rainbow。

    24 分钟
  3. 03

    强化学习(三):Policy Gradient 与 Actor-Critic 方法

    从 REINFORCE 到 SAC——策略梯度方法如何直接优化策略,自然处理连续动作,驱动 PPO、TD3 和 SAC 等现代算法。

    20 分钟
  4. 04

    强化学习(四):探索策略与好奇心驱动学习

    在几乎没有奖励反馈的环境中,智能体如何发现回报?从计数型方法到 ICM、RND、NGU——好奇心驱动探索的完整脉络与工程实践。

    26 分钟
  5. 05

    强化学习(五):Model-Based 强化学习与世界模型

    从 Dyna、MBPO 到 World Models、Dreamer 和 MuZero——学一个环境模型,让智能体在想象中规划,把样本效率提高 10-100 倍。

    24 分钟
  6. 06

    强化学习(六):PPO 与 TRPO —— 信任域策略优化

    PPO 和 TRPO 的完整推导:从策略优化的不稳定性到信任域约束,PPO 的裁剪技巧,以及 PPO 在 RLHF 中的关键角色。

    26 分钟
  7. 07

    强化学习(七):模仿学习与逆强化学习

    从专家示范中学习:行为克隆为何在长任务上必败、DAgger 如何把误差从二次降到线性、最大熵 IRL 如何反推奖励、GAIL/AIRL 如何用对抗训练匹配专家占用度。配可运行 PyTorch 代码、方法选择阶梯,以及七张高质量配图。

    22 分钟
  8. 08

    强化学习(八):AlphaGo 与蒙特卡洛树搜索

    从 MCTS 到 AlphaGo、AlphaGo Zero、AlphaZero 与 MuZero:UCT 探索-利用、自我对弈训练、在学到的世界模型里规划。附五子棋上的 AlphaZero 完整实现。

    22 分钟
  9. 09

    强化学习(九):多智能体强化学习

    系统讲透多智能体强化学习:马尔可夫博弈、非稳态与信用分配、CTDE 范式、值分解(VDN/QMIX)、反事实基线(COMA)、MADDPG,以及 AlphaStar 与 OpenAI Five 的联赛训练,附可运行的 QMIX …

    24 分钟
  10. 10

    强化学习(十):离线强化学习

    离线强化学习从固定数据集学习策略,无需任何在线交互。本文系统讲解分布偏移、外推误差,以及 CQL、BCQ、IQL、Decision Transformer 四类主流方法,配有完整的 CQL PyTorch 实现与 D4RL 基准对比。

    22 分钟
  11. 11

    强化学习(十一):层次化强化学习与元学习

    层次化强化学习(Options、MAXQ、Feudal Networks、目标条件策略)与元强化学习(MAML、FOMAML、RL²)的系统讲解:时序抽象、半马尔可夫过程、Manager-Worker 架构、二阶元梯度与循环式元学习器, …

    18 分钟
  12. 12

    强化学习(十二):RLHF 与大语言模型应用

    RLHF 把基础语言模型变成 ChatGPT 与 Claude 的完整路径:SFT→奖励模型→PPO 三阶段流程、Bradley-Terry 偏好模型、DPO 闭式解推导、RLAIF 与 Constitutional AI、Goodhart …

    32 分钟