chenk
.
top
首页
系列
项目
归档
关于
EN
esc
搜索
标签
MDP
Aug 1, 2025
强化学习
28 分钟
强化学习(一):基础与核心概念
用骑自行车的类比把强化学习从零讲清楚:MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分(TD),附带可直接运行的 Python 代码。