MuZero

Sep 5, 2025 Reinforcement Learning 28 min read

Reinforcement Learning (8): AlphaGo and Monte Carlo Tree Search

From MCTS to AlphaGo, AlphaGo Zero, AlphaZero, and MuZero. Understand UCT exploration-exploitation, self-play training, and planning with learned models. Includes a complete AlphaZero implementation for Gomoku.

Aug 21, 2025 Reinforcement Learning 28 min read

Reinforcement Learning (5): Model-Based RL and World Models

From Dyna and MBPO to World Models, Dreamer, and MuZero -- how learning a model lets agents plan in imagination and reach expert performance with 10-100x fewer real interactions.