标签
Q-Learning
强化学习(二):Q-Learning 与深度 Q 网络(DQN)
DQN 如何结合神经网络与 Q-Learning 玩转 Atari——经验回放、目标网络、Double DQN、Dueling DQN、优先经验回放与 Rainbow。
强化学习(一):基础与核心概念
用骑自行车的类比把强化学习从零讲清楚:MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分(TD),附带可直接运行的 Python 代码。
DQN 如何结合神经网络与 Q-Learning 玩转 Atari——经验回放、目标网络、Double DQN、Dueling DQN、优先经验回放与 Rainbow。
用骑自行车的类比把强化学习从零讲清楚:MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分(TD),附带可直接运行的 Python 代码。