<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Rainbow on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/rainbow/</link><description>Recent content in Rainbow on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 06 Aug 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/rainbow/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（二）：Q-Learning 与深度 Q 网络（DQN）</title><link>https://www.chenk.top/zh/reinforcement-learning/02-q-learning%E4%B8%8E%E6%B7%B1%E5%BA%A6q%E7%BD%91%E7%BB%9C/</link><pubDate>Wed, 06 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/02-q-learning%E4%B8%8E%E6%B7%B1%E5%BA%A6q%E7%BD%91%E7%BB%9C/</guid><description>&lt;p>2013 年 12 月，DeepMind 的一个小团队在 arXiv 上发布了一篇论文，提出了一个令人震撼的成果：一个神经网络仅凭原始像素和游戏得分，就学会了玩七款 Atari 游戏，并在其中六款上超越了此前的最佳表现。没有针对特定游戏设计的特征，也没有手工编写的启发式规则——Pong、Breakout 和 Space Invaders 全都使用同一套架构。这个算法就是 &lt;strong>Deep Q-Network（DQN）&lt;/strong>，它正式拉开了深度强化学习时代的序幕。&lt;/p></description></item></channel></rss>