<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LSTM on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/lstm/</link><description>Recent content in LSTM on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sat, 11 Oct 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/lstm/index.xml" rel="self" type="application/rss+xml"/><item><title>自然语言处理（三）：RNN 与序列建模</title><link>https://www.chenk.top/zh/nlp/03-rnn%E4%B8%8E%E5%BA%8F%E5%88%97%E5%BB%BA%E6%A8%A1/</link><pubDate>Sat, 11 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/03-rnn%E4%B8%8E%E5%BA%8F%E5%88%97%E5%BB%BA%E6%A8%A1/</guid><description>&lt;p>打开 Google 翻译、用滑动输入法打字或对着手机录一段备忘——这些日常操作背后，都离不开一个核心任务：按顺序处理一串 token 并生成另一串符号。前馈神经网络将每个输入视为独立个体处理，但语言本质上是上下文关联的。例如，在句子“猫坐在垫子上”中，理解“垫子”的意思需要结合前面的词语。循环神经网络（RNN）通过维护隐藏状态来解决这个问题。每读入一个 token，隐藏状态都会更新，动态汇总过去的信息，可视为网络的“记忆”。&lt;/p></description></item><item><title>时间序列模型（二）：LSTM——门控机制与长期依赖</title><link>https://www.chenk.top/zh/time-series/02-lstm/</link><pubDate>Mon, 16 Sep 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/time-series/02-lstm/</guid><description>&lt;p>我第一次训练 RNN 是 2017 年，做一个根据过去 50 天的销售额预测下一天的小项目。前向算梯度时一切都挺正常，跑起来 loss 也在降，但模型对 30 天前的数据基本&amp;quot;失忆&amp;quot;——明明历史里有清晰的月度周期，模型偏偏只学到了&amp;quot;最近三天的趋势&amp;quot;。当时我以为是数据不够，加了样本、加了层数，问题反而更糟：训练 loss 突然跳到 NaN，一切归零。&lt;/p></description></item></channel></rss>