自然语言处理（六）：GPT 与生成式语言模型

Sun, 26 Oct 2025 09:00:00 +0000

当你向 ChatGPT 提问，看到一段流畅的多段落回答逐 token 流式生成时，你其实正在见证一个看似简单却威力巨大的循环：把“到目前为止的所有内容”喂给 Transformer 解码器，观察它输出的词汇表概率分布，从中挑一个 token 追加到末尾，然后重复——这便是自回归语言模型的全部逻辑。真正神奇的并非这个循环本身，而是当你把循环背后的网络扩展到数千亿参数，并用近乎整个互联网的数据训练后，它所展现出的能力。

迁移学习（二）：预训练与微调

Wed, 07 May 2025 09:00:00 +0000

2018 年，BERT 横空出世，几乎一夜之间改变了 NLP 的游戏规则。一个在 Wikipedia 和 BookCorpus 上预训练的模型，只需几千条标注数据进行微调，就能超越研究者们花费数年精心设计的任务专用架构。同样的故事后来在视觉领域（ImageNet 预训练、SimCLR、MAE）、语音领域（wav2vec 2.0）以及代码领域（Codex）不断重演。如今，“一次预训练，到处微调”已经成为现代深度学习的标准做法。

GPT on Chen Kai Blog

自然语言处理（六）：GPT 与生成式语言模型

迁移学习（二）：预训练与微调