强化学习（十一）：层次化强化学习与元学习

Sat, 20 Sep 2025 09:00:00 +0000

标准强化学习将每个问题视为一系列原子级别的决策：观察状态、选择动作、接收奖励，然后重复。这种方法在任务时间跨度较短、奖励密集时效果不错，但面对人类能轻松完成的任务时就会失效。“做早餐”显然不是单次决策，而是一棵由多个子任务组成的树——煮咖啡、煎蛋、烤面包、装盘上桌——每个子任务本身都是一套小型策略。层次化强化学习（HRL） 的核心思想是将宏动作视为一等公民，让智能体能在多个时间尺度上进行推理和行动。

迁移学习（四）：小样本学习

Mon, 19 May 2025 09:00:00 +0000

给小孩看一张穿山甲的照片，他这辈子都能认出穿山甲；而给深度学习模型看一张照片，它的回答基本是随机瞎猜。小样本学习旨在填补这一差距，使分类器在每类只有 1 到 10 个标注样本的情况下也能正常工作。

Meta-Learning on Chen Kai Blog

强化学习（十一）：层次化强化学习与元学习

迁移学习（四）：小样本学习