深度学习 on Chen Kai Blog

自然语言处理（六）：GPT 与生成式语言模型

Sun, 26 Oct 2025 09:00:00 +0000

当你向 ChatGPT 提问，看到一段流畅的多段落回答逐 token 流式生成时，你其实正在见证一个看似简单却威力巨大的循环：把“到目前为止的所有内容”喂给 Transformer 解码器，观察它输出的词汇表概率分布，从中挑一个 token 追加到末尾，然后重复——这便是自回归语言模型的全部逻辑。真正神奇的并非这个循环本身，而是当你把循环背后的网络扩展到数千亿参数，并用近乎整个互联网的数据训练后，它所展现出的能力。

自然语言处理（五）：BERT 与预训练模型

Tue, 21 Oct 2025 09:00:00 +0000

2018 年 10 月，Google 推出了 BERT，一举刷新了 11 项 NLP 基准测试的记录。方法出人意料地简洁：仅需一个 Transformer 编码器，通过让模型根据双向上下文预测被随机遮盖的词进行预训练，再在同一模型上针对下游任务进行微调。在 BERT 出现之前，每个任务都需要从零开始训练一个专属模型；BERT 的出现彻底改变了这一局面，“一次预训练、多次微调”迅速成为该领域的标准范式。

自然语言处理（三）：RNN 与序列建模

Sat, 11 Oct 2025 09:00:00 +0000

打开 Google 翻译、用滑动输入法打字或对着手机录一段备忘——这些日常操作背后，都离不开一个核心任务：按顺序处理一串 token 并生成另一串符号。前馈神经网络将每个输入视为独立个体处理，但语言本质上是上下文关联的。例如，在句子“猫坐在垫子上”中，理解“垫子”的意思需要结合前面的词语。循环神经网络（RNN）通过维护隐藏状态来解决这个问题。每读入一个 token，隐藏状态都会更新，动态汇总过去的信息，可视为网络的“记忆”。

自然语言处理（二）：词向量与语言模型

Mon, 06 Oct 2025 09:00:00 +0000

\vec{\text{king}} - \vec{\text{man}} + \vec{\text{woman}} \approx \vec{\text{queen}}

自然语言处理（NLP）的发展轨迹因此发生了根本性转变，进入了“表示学习”的时代。本文将沿着这条脉络展开：从独热编码为何失效，到 Word2Vec 如何通过浅层神经网络打开新思路；从 GloVe 如何利用全局统计信息，到 FastText 如何借助子词 n-gram 处理未见过的词；最终，词嵌入与催生它们的语言模型联系起来，揭示两者之间的深层关系。

自然语言处理（一）：NLP 入门与文本预处理

Wed, 01 Oct 2025 09:00:00 +0000

每当你向通义千问提问、让 GitHub Copilot 补全代码，或浏览 Google 翻译结果时，实际上都在使用一套凝聚了七十年技术积累的系统——自然语言处理（NLP）。NLP 教会机器如何阅读、评分、转换和生成人类语言。尽管现代技术体系复杂，其底层仍然广泛依赖于几十年前发明的基础预处理方法。

时间序列模型（八）：Informer——高效长序列预测

Sun, 15 Dec 2024 09:00:00 +0000

Transformer 在序列建模上确实很强大，但只要序列一变长，问题就来了。普通自注意力机制在计算和显存上的开销都是 $\mathcal{O}(L^2)$ 级别——一周的小时级窗口（168 步）还能轻松处理，一个月窗口（720 步）就已经吃力，而三个月窗口（2160 步）在单张 GPU 上基本无法运行。偏偏现实世界中的长 horizon 预测任务，比如气象、能源、金融和 IoT，恰恰就落在这个区间。

时间序列模型（七）：N-BEATS——可解释的深度架构

Sat, 30 Nov 2024 09:00:00 +0000

2018 年 M4 预测竞赛提供了覆盖六种频率的 10 万条时间序列作为统一基准。排行榜一度被基于数十年统计预测经验手工调优的集成模型所主导，但最终胜出的却是一个纯神经网络——它无需任何统计预处理、特征工程或循环结构。这个模型正是 Oreshkin 等人提出的 N-BEATS：一个由全连接块堆叠而成、带有两条残差路径的架构。其可解释变体进一步将预测显式分解为多项式趋势与傅里叶季节性分量，使得经典统计学家梦寐以求的“可读分解”变得唾手可得。

时间序列模型（六）：时序卷积网络 (TCN)

Fri, 15 Nov 2024 09:00:00 +0000

在 2010 年代的大部分时间里，提到“深度学习用于时间序列”，默认就是 LSTM。这一局面在 2018 年被 Bai、Kolter 和 Koltun 发表的论文 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 所改变。他们的结论出人意料地简洁：堆叠若干一维卷积，确保其因果性（不窥探未来）、让卷积核间隔呈指数扩张（dilation），再用残差连接包裹整个结构，直接训练即可。结果表明，这种 时序卷积网络（Temporal Convolutional Network, TCN）在各类任务中表现与 LSTM/GRU 相当甚至更优——而且训练速度快数倍，因为前向传播中的每个时间步均可并行计算。

时间序列模型（五）：时间序列的 Transformer 架构

Thu, 31 Oct 2024 09:00:00 +0000

2017 年那篇 Attention Is All You Need 把上一章的注意力机制推到了极致：根本不要 RNN 了。Transformer 完全用注意力堆叠出一个序列模型，没有一处递归、没有一个隐藏状态在时间上传播。最初它是为机器翻译设计的，但很快被搬到了所有序列任务上——包括时间序列预测。

时间序列模型（四）：Attention 机制——直接的长程依赖

Wed, 16 Oct 2024 09:00:00 +0000

RNN 和 LSTM 解决了"时间步太多"的问题，但留下了另一个更隐蔽的限制：信息必须逐步传递。要让第 100 步看到第 1 步的内容，得让那个信号沿着隐藏状态一路传 99 次——每一步都有衰减，每一步都得经过非线性挤压。即使 LSTM 的细胞状态再"高速公路"，也终究是单条车道、单向通行。

时间序列模型（三）：GRU——轻量门控与效率权衡

Tue, 01 Oct 2024 09:00:00 +0000

跑完 LSTM 一段时间后，你会冒出一个朴素的疑问：三个门是不是有点多？遗忘门和输入门看起来在干非常相似的事情——一个决定丢什么，一个决定加什么——能不能合并成一个？再者，那个独立的细胞状态有必要吗，能不能直接复用隐藏状态？

时间序列模型（二）：LSTM——门控机制与长期依赖

Mon, 16 Sep 2024 09:00:00 +0000

我第一次训练 RNN 是 2017 年，做一个根据过去 50 天的销售额预测下一天的小项目。前向算梯度时一切都挺正常，跑起来 loss 也在降，但模型对 30 天前的数据基本"失忆"——明明历史里有清晰的月度周期，模型偏偏只学到了"最近三天的趋势"。当时我以为是数据不够，加了样本、加了层数，问题反而更糟：训练 loss 突然跳到 NaN，一切归零。

核方法（八）：深度核学习 vs 深度学习——选择指南与故障排查

Thu, 30 Dec 2021 09:00:00 +0000

2026 年了，为什么还要读核方法？Transformer 不是已经把整个 ML 栈吃掉了吗？是也不是。Transformer 吃掉了头条，核方法吃掉的是角落——只有 200 个样本的场景、必须给出校准误差棒的场景、物理学家需要知道是哪个基函数贡献了这次预测的场景。本系列的最终篇就是这份"角落工程师手册"：核方法什么时候真的能赢、出了问题怎么诊断、怎么把核挂在神经网络头顶上拿到两边的好处，以及为什么 NTK（Jacot et al., 2018）告诉我们深网在某个极限下其实就是一种核方法——两派的边界，到 2026 年比任何时候都更模糊。