<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>MCTS on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/mcts/</link><description>Recent content in MCTS on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 05 Sep 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/mcts/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（八）：AlphaGo 与蒙特卡洛树搜索</title><link>https://www.chenk.top/zh/reinforcement-learning/08-alphago%E4%B8%8E%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%A0%91%E6%90%9C%E7%B4%A2/</link><pubDate>Fri, 05 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/08-alphago%E4%B8%8E%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%A0%91%E6%90%9C%E7%B4%A2/</guid><description>&lt;p>2016 年 3 月，AlphaGo 在首尔以 4 比 1 击败了围棋世界冠军李世石。这不仅是一场体育赛事的爆冷，更标志着人工智能领域一个长达 60 年的目标——让机器击败人类顶尖围棋选手——比大多数预测提前整整十年达成。围棋的合法局面数约为 &lt;span class="math-inline">$10^{170}$&lt;/span>
，远超可观测宇宙中的原子总数。无论多少暴力搜索都无法破解它。AlphaGo 的胜利源于一种全新思路：用深度神经网络提供“哪些着法值得尝试”的直觉，再由蒙特卡洛树搜索（MCTS）进行深思熟虑式的推演，验证并精炼这种直觉。&lt;/p></description></item></channel></rss>