chenk
.
top
Home
Series
Projects
Archives
About
EN
esc
Search articles, series, and tags…
Tagged
时序差分
Aug 1, 2025
Reinforcement Learning
16 min read
强化学习(一):基础与核心概念
用骑自行车的类比把强化学习从零讲清楚:MDP、Bellman 方程、动态规划、蒙特卡洛、时序差分(TD),附带可直接运行的 Python 代码。