Tagged

Bellman方程

Aug 1, 2025 Reinforcement Learning 16 min read

强化学习(一):基础与核心概念

用骑自行车的类比把强化学习从零讲清楚:MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分(TD),附带可直接运行的 Python 代码。