NLP on Chen Kai Blog

自然语言处理（十二）：前沿技术与实战应用

Tue, 25 Nov 2025 09:00:00 +0000

经过十一章的探索，我们从原始文本一路走到了多模态基础模型。作为第十二章和最后一章，这里既是技术的最前沿，也是实际应用的起点——研究不再是纸上谈兵的论文，而是真正落地为服务：一个能够调用工具、编写和调试代码、完成上百步推理、处理 20 万 token 的合同文件，并通过 FastAPI 接口以 p95 延迟低于 300 毫秒支持上千并发用户的大型语言模型（LLM）。

自然语言处理（十一）：多模态大模型

Thu, 20 Nov 2025 09:00:00 +0000

人类从来不会只通过单一感官来理解世界——我们看图表时会同时读标题，观察表情时会留意语气，讨论代码 bug 时也会瞥一眼截图。然而，纯文本语言模型对这些丰富的多模态信息完全无感，既“听不见”也“看不见”。多模态大语言模型（Multimodal Large Language Models, MLLMs） 的出现正是为了填补这一空白：它们将图像、音频和视频映射到与语言模型一致的表示空间中，从而让模型能够理解和处理多模态信息。

自然语言处理（十）：RAG 与知识增强系统

Sat, 15 Nov 2025 09:00:00 +0000

一个知识被冻结的语言模型就像一个“自信的骗子”：它读不了昨天的事故报告、公司的 Wiki 页面，也看不到今天早上刚发布的补丁说明。一旦你提问，它就会生成语法完美但事实错误的答案。检索增强生成（RAG） 打破了这一僵局，其核心在于将“记忆”与“推理”分离——让大语言模型（LLM）保持小巧稳定，而把易变的知识放进可随时更新的外部存储中。生成答案前，先检索相关证据，并将其作为条件输入模型。

自然语言处理（九）：大语言模型架构深度解析

Mon, 10 Nov 2025 09:00:00 +0000

2017 年的 Transformer 论文提出了一种模块，如今所有生产环境中的大语言模型（LLM）依然沿用其整体框架，但内部几乎所有组件都经历了彻底替换：后置归一化（post-norm）被前置归一化（pre-norm）取代，LayerNorm 被 RMSNorm 替换，GELU 激活函数变成了 SwiGLU，正弦位置编码也被旋转位置编码（RoPE）所替代。多头注意力机制（Multi-head Attention）演进为分组查询注意力（Grouped-Query Attention, GQA），稠密前馈网络（FFN）在某些模型中甚至被稀疏专家混合模型（Mixture of Experts, MoE）所取代；更重要的是，推理过程中最核心的数据结构——KV 缓存（KV Cache）——在原始论文中完全没有提及。

自然语言处理（八）：模型微调与 PEFT

Wed, 05 Nov 2025 09:00:00 +0000

2020 年，微调一个 70 亿参数的语言模型还是一项需要专门预算的工程：八张 A100 显卡、几天时间，外加一位懂得调试梯度检查点的工程师；而到了 2024 年，一名研究生用一台笔记本电脑就能完成。从这两个世界之间的鸿沟，几乎完全被两篇论文填平——胡等人（Hu et al.）在 ICLR 2022 提出的 LoRA，以及 Dettmers 等人在 NeurIPS 2023 发表的 QLoRA。

自然语言处理（七）：提示工程与 In-Context Learning

Fri, 31 Oct 2025 09:00:00 +0000

同一个模型，既可能给出精准而深刻的回答，也可能自信满满地‘一本正经胡说八道’。关键在于你如何引导它，而非模型的权重。简单输入‘分析这段文本’通常只能得到泛泛而谈的总结；但在提示中明确角色、提供清晰示例并规定严格输出格式，则更可能得到一个结构化的 JSON，直接供下游解析器使用。提示工程的核心是将这种从偶然到必然的差距转化为一套可重复、可操作的方法论。

自然语言处理（六）：GPT 与生成式语言模型

Sun, 26 Oct 2025 09:00:00 +0000

当你向 ChatGPT 提问，看到一段流畅的多段落回答逐 token 流式生成时，你其实正在见证一个看似简单却威力巨大的循环：把“到目前为止的所有内容”喂给 Transformer 解码器，观察它输出的词汇表概率分布，从中挑一个 token 追加到末尾，然后重复——这便是自回归语言模型的全部逻辑。真正神奇的并非这个循环本身，而是当你把循环背后的网络扩展到数千亿参数，并用近乎整个互联网的数据训练后，它所展现出的能力。

自然语言处理（五）：BERT 与预训练模型

Tue, 21 Oct 2025 09:00:00 +0000

2018 年 10 月，Google 推出了 BERT，一举刷新了 11 项 NLP 基准测试的记录。方法出人意料地简洁：仅需一个 Transformer 编码器，通过让模型根据双向上下文预测被随机遮盖的词进行预训练，再在同一模型上针对下游任务进行微调。在 BERT 出现之前，每个任务都需要从零开始训练一个专属模型；BERT 的出现彻底改变了这一局面，“一次预训练、多次微调”迅速成为该领域的标准范式。

自然语言处理（四）：注意力机制与 Transformer

Thu, 16 Oct 2025 09:00:00 +0000

2017 年 6 月，Google Brain 和 Google Research 的八位研究者发表了一篇标题相当引人注目的论文：Attention Is All You Need。这篇论文提出的 Transformer 架构彻底抛弃了循环结构，不再使用 LSTM 或 GRU，也不再需要从左到右逐步扫描句子；相反，序列中的每个 token 都可以通过缩放点积注意力直接“看到”其他所有 token。

自然语言处理（三）：RNN 与序列建模

Sat, 11 Oct 2025 09:00:00 +0000

打开 Google 翻译、用滑动输入法打字或对着手机录一段备忘——这些日常操作背后，都离不开一个核心任务：按顺序处理一串 token 并生成另一串符号。前馈神经网络将每个输入视为独立个体处理，但语言本质上是上下文关联的。例如，在句子“猫坐在垫子上”中，理解“垫子”的意思需要结合前面的词语。循环神经网络（RNN）通过维护隐藏状态来解决这个问题。每读入一个 token，隐藏状态都会更新，动态汇总过去的信息，可视为网络的“记忆”。

自然语言处理（二）：词向量与语言模型

Mon, 06 Oct 2025 09:00:00 +0000

\vec{\text{king}} - \vec{\text{man}} + \vec{\text{woman}} \approx \vec{\text{queen}}

自然语言处理（NLP）的发展轨迹因此发生了根本性转变，进入了“表示学习”的时代。本文将沿着这条脉络展开：从独热编码为何失效，到 Word2Vec 如何通过浅层神经网络打开新思路；从 GloVe 如何利用全局统计信息，到 FastText 如何借助子词 n-gram 处理未见过的词；最终，词嵌入与催生它们的语言模型联系起来，揭示两者之间的深层关系。

自然语言处理（一）：NLP 入门与文本预处理

Wed, 01 Oct 2025 09:00:00 +0000

每当你向通义千问提问、让 GitHub Copilot 补全代码，或浏览 Google 翻译结果时，实际上都在使用一套凝聚了七十年技术积累的系统——自然语言处理（NLP）。NLP 教会机器如何阅读、评分、转换和生成人类语言。尽管现代技术体系复杂，其底层仍然广泛依赖于几十年前发明的基础预处理方法。

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

Fri, 30 Jun 2023 09:00:00 +0000

第一次手动计算 Self-Attention 时，多数人会惊讶地发现：它完全不依赖输入顺序。若将 token 序列重新排列，各注意力分数也会随之同步重排——该函数严格满足置换等变性。因此，在让 Transformer 完成需要理解序列顺序的任务之前，必须显式注入位置信息。

多模态大模型与下游任务研究

Sat, 09 Apr 2022 09:00:00 +0000

将图像、视频和音频输入语言模型，使其具备视觉、听觉和推理能力——这件事在 2021 年 CLIP 出现之前还只是研究奇观，如今已成为产品标配。但将多模态大模型（Multimodal LLM, MLLM）应用于生产时，难点不在于视觉编码器是否足够强大，而在于以下四个常被低估的方面：