Tagged

时序差分

Aug 1, 2025 Reinforcement Learning 16 min read

强化学习（一）：基础与核心概念

用骑自行车的类比把强化学习从零讲清楚：MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分（TD），附带可直接运行的 Python 代码。