标签

Q-Learning

Aug 6, 2025 强化学习 24 分钟

DQN 如何结合神经网络与 Q-Learning 玩转 Atari——经验回放、目标网络、Double DQN、Dueling DQN、优先经验回放与 Rainbow。

Aug 1, 2025 强化学习 28 分钟

用骑自行车的类比把强化学习从零讲清楚：MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分（TD），附带可直接运行的 Python 代码。