Tagged
MuZero
强化学习(八):AlphaGo与蒙特卡洛树搜索
从 MCTS 到 AlphaGo、AlphaGo Zero、AlphaZero 与 MuZero:UCT 探索-利用、自我对弈训练、在学到的世界模型里规划。附五子棋上的 AlphaZero 完整实现。
强化学习(五):Model-Based强化学习与世界模型
从 Dyna、MBPO 到 World Models、Dreamer 和 MuZero——学一个环境模型,让智能体在想象中规划,把样本效率提高 10-100 倍。
从 MCTS 到 AlphaGo、AlphaGo Zero、AlphaZero 与 MuZero:UCT 探索-利用、自我对弈训练、在学到的世界模型里规划。附五子棋上的 AlphaZero 完整实现。
从 Dyna、MBPO 到 World Models、Dreamer 和 MuZero——学一个环境模型,让智能体在想象中规划,把样本效率提高 10-100 倍。