自然语言处理（三）：RNN 与序列建模

Sat, 11 Oct 2025 09:00:00 +0000

打开 Google 翻译、用滑动输入法打字或对着手机录一段备忘——这些日常操作背后，都离不开一个核心任务：按顺序处理一串 token 并生成另一串符号。前馈神经网络将每个输入视为独立个体处理，但语言本质上是上下文关联的。例如，在句子“猫坐在垫子上”中，理解“垫子”的意思需要结合前面的词语。循环神经网络（RNN）通过维护隐藏状态来解决这个问题。每读入一个 token，隐藏状态都会更新，动态汇总过去的信息，可视为网络的“记忆”。

时间序列模型（二）：LSTM——门控机制与长期依赖

Mon, 16 Sep 2024 09:00:00 +0000

我第一次训练 RNN 是 2017 年，做一个根据过去 50 天的销售额预测下一天的小项目。前向算梯度时一切都挺正常，跑起来 loss 也在降，但模型对 30 天前的数据基本"失忆"——明明历史里有清晰的月度周期，模型偏偏只学到了"最近三天的趋势"。当时我以为是数据不够，加了样本、加了层数，问题反而更糟：训练 loss 突然跳到 NaN，一切归零。

LSTM on Chen Kai Blog

自然语言处理（三）：RNN 与序列建模

时间序列模型（二）：LSTM——门控机制与长期依赖