Reinforcement Learning
强化学习(十二):RLHF与大语言模型应用
RLHF 把基础语言模型变成 ChatGPT 与 Claude 的完整路径:SFT→奖励模型→PPO 三阶段流程、Bradley-Terry 偏好模型、DPO 闭式解推导、RLAIF 与 Constitutional AI、Goodhart 定律下的奖励黑客,以及强化学习在具身智能与推理时搜索中的下一步。
强化学习(十一):层次化强化学习与元学习
层次化强化学习(Options、MAXQ、Feudal Networks、目标条件策略)与元强化学习(MAML、FOMAML、RL²)的系统讲解:时序抽象、半马尔可夫过程、Manager-Worker 架构、二阶元梯度与循环式元学习器,附带 PyTorch 实现。
强化学习(十):离线强化学习
离线强化学习从固定数据集学习策略,无需任何在线交互。本文系统讲解分布偏移、外推误差,以及 CQL、BCQ、IQL、Decision Transformer 四类主流方法,配有完整的 CQL PyTorch 实现与 D4RL 基准对比。
强化学习(九):多智能体强化学习
系统讲透多智能体强化学习:马尔可夫博弈、非稳态与信用分配、CTDE 范式、值分解(VDN/QMIX)、反事实基线(COMA)、MADDPG,以及 AlphaStar 与 OpenAI Five 的联赛训练,附可运行的 QMIX 混合网络 PyTorch 实现。
强化学习(八):AlphaGo与蒙特卡洛树搜索
从 MCTS 到 AlphaGo、AlphaGo Zero、AlphaZero 与 MuZero:UCT 探索-利用、自我对弈训练、在学到的世界模型里规划。附五子棋上的 AlphaZero 完整实现。
强化学习(七):模仿学习与逆强化学习
从专家示范中学习:行为克隆为何在长任务上必败、DAgger 如何把误差从二次降到线性、最大熵 IRL 如何反推奖励、GAIL/AIRL 如何用对抗训练匹配专家占用度。配可运行 PyTorch 代码、方法选择阶梯,以及七张高质量配图。
强化学习(六):PPO与TRPO:信任域策略优化
PPO和TRPO的完整推导:从策略优化的不稳定性到信任域约束,PPO的裁剪技巧,以及PPO在RLHF中的关键角色。
强化学习(五):Model-Based强化学习与世界模型
从 Dyna、MBPO 到 World Models、Dreamer 和 MuZero——学一个环境模型,让智能体在想象中规划,把样本效率提高 10-100 倍。
强化学习(四):探索策略与好奇心驱动学习
在几乎没有奖励反馈的环境中,智能体如何发现回报?从计数型方法到 ICM、RND、NGU——好奇心驱动探索的完整脉络与工程实践。
强化学习(三):Policy Gradient与Actor-Critic方法
从REINFORCE到SAC——策略梯度方法如何直接优化策略,自然处理连续动作,驱动PPO、TD3和SAC等现代算法。
强化学习(二):Q-Learning 与深度 Q 网络(DQN)
DQN 如何结合神经网络与 Q-Learning 玩转 Atari——经验回放、目标网络、Double DQN、Dueling DQN、优先经验回放与 Rainbow。
强化学习(一):基础与核心概念
用骑自行车的类比把强化学习从零讲清楚:MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分(TD),附带可直接运行的 Python 代码。