NLP on Chen Kai Blog

自然语言处理（十二）：前沿技术与实战应用

Tue, 25 Nov 2025 09:00:00 +0000

我们用了十一章，从原始文本一路爬到多模态基础模型。这第十二章既站在前沿，也站在跑道上：研究在这里不再是论文，而是一个服务——一个能调用工具、写代码并自我修复、做百步推理、吞下 20 万 token 合同、并以 p95 < 300 ms 的延迟支撑上千并发的 LLM。

自然语言处理（十一）：多模态大模型

Thu, 20 Nov 2025 09:00:00 +0000

人不会一次只用一种感官理解世界。我们一边看图表一边读文字，一边听语调一边读表情，一边看截图一边讨论代码 bug。纯文本语言模型对这一切是又聋又瞎的。多模态大语言模型（Multimodal LLM, MLLM） 试图弥补这个鸿沟：把图像、音频、视频对齐到与语言模型相同的表示空间里。

自然语言处理（十）：RAG与知识增强系统

Sat, 15 Nov 2025 09:00:00 +0000

被冻结知识的语言模型是个自信的撒谎者：它读不到昨天的故障报告、读不到公司 wiki、读不到今早刚合入的 patch notes，于是当你提问，它会给出一个语法完美但事实错误的答案。检索增强生成（RAG） 通过把"记忆"和"推理"分开来打破这个困局：让 LLM 保持小且稳定，把易变的知识放到一个可以随时更新的外部存储里，生成之前先把相关证据检索出来作为上下文。

自然语言处理（九）：大语言模型架构深度解析

Mon, 10 Nov 2025 09:00:00 +0000

2017 年的 Transformer 论文里画了一个 block。今天每一款生产级 LLM 还在沿用它的轮廓，但内部几乎每一个零件都换过：post-norm 换成了 pre-norm，LayerNorm 换成了 RMSNorm，GELU 换成了 SwiGLU，正弦位置换成了旋转位置（RoPE），多头注意力变成了分组查询注意力（GQA），稠密 FFN 在某些模型里被稀疏 MoE 替换。更重要的是，主导推理性能的那个数据结构——KV Cache——根本没出现在原论文里。

自然语言处理（八）：模型微调与PEFT

Wed, 05 Nov 2025 09:00:00 +0000

2020 年微调一个 70 亿参数的语言模型还得排预算：八张 A100、几天时间，再加一个会调梯度检查点的工程师。2024 年，研究生在笔记本上就能跑。中间这段距离，几乎完全由 Hu 等人 2022 年的 LoRA 论文，以及 Dettmers 等人 2023 年的 QLoRA 论文铺平。

自然语言处理（七）：提示工程与In-Context Learning

Fri, 31 Oct 2025 09:00:00 +0000

同一个模型，可以给出一针见血的分析，也能一本正经地胡说八道。区别几乎从不在权重，而在你怎么问。一句"分析一下这段文本"换来的多半是泛泛的总结；同样的请求加上一个角色、两条干净的示例和一段严格的输出 schema，得到的就是下游解析器能直接消费的 JSON。提示工程的意义，是把这种差距从"碰运气"变成可重复、可度量的工程实践。

自然语言处理（六）：GPT与生成式语言模型

Sun, 26 Oct 2025 09:00:00 +0000

当你向 ChatGPT 提一个问题，看到一段流畅的多段回答一个 token 接一个 token 流式涌出时，你目睹的其实是一个朴素到惊人的循环：把"目前为止的所有内容"喂给一个 Transformer 解码器，看它输出的词表概率分布，挑一个 token，拼到末尾，再循环。这就是自回归语言模型干的全部事情。神奇的不是这个循环，而是当你把循环背后的网络放大到几千亿参数、用半个互联网训练时，会发生什么。

自然语言处理（五）：BERT与预训练模型

Tue, 21 Oct 2025 09:00:00 +0000

2018 年 10 月，Google 发布 BERT，一口气在 11 个 NLP 基准上刷新了纪录。配方却出奇地简单：拿一个 Transformer 编码器，让它根据左右两侧的上下文去预测被随机遮盖的词；预训练完成之后，再把同一个模型针对各种下游任务做一次轻量的微调。在 BERT 之前，每个任务都要从头训练一个模型；在 BERT 之后，“先预训练，再微调"成了整个领域的默认思路。

自然语言处理（四）：注意力机制与Transformer

Thu, 16 Oct 2025 09:00:00 +0000

2017 年 6 月，Google 的八位研究者发了一篇标题相当大胆的论文：Attention Is All You Need。论文里提出的 Transformer 架构干脆把循环结构整个扔掉了——没有 LSTM，没有 GRU，也不再从左到右一个一个地读句子。取而代之，序列里的每个 token 都可以通过一个数学操作直接看到其他所有 token：缩放点积注意力。

自然语言处理（三）：RNN与序列建模

Sat, 11 Oct 2025 09:00:00 +0000

打开翻译软件、用滑动键盘打字、对手机口述备忘——每一项功能背后，都需要一个模型按顺序消费一串 token，再产出另一串。前馈网络把每个输入当成孤立的样本，但语言天生就是有顺序的：要理解"猫坐在垫子上"里"垫子"的含义，你必须知道前面所有词的语境。循环神经网络（RNN）的解决方式是维护一个隐藏状态，每读一个 token 就更新一次。这个隐藏状态，就是网络对过去内容的"持续摘要"，也就是它的记忆。

自然语言处理（二）：词向量与语言模型

Mon, 06 Oct 2025 09:00:00 +0000

很长一段时间里，机器眼中的"国王"和"王后"只是词表里两个不同的编号，彼此之间不存在任何可计算的关系。直到一个想法改变了这一切：让每个词都住进一个连续的向量空间，让语义沿着方向自然浮现。一旦接受了这个想法，模型就能算出

自然语言处理（一）：NLP入门与文本预处理

Wed, 01 Oct 2025 09:00:00 +0000

每次你用通义千问问问题、让 GitHub Copilot 补全一行代码，或者打开 Google 翻译——你都在调用一套花了七十年才搭起来的技术栈。自然语言处理（NLP）研究的就是怎么让机器读、评分、改写和生成人类语言。有意思的是，现代这套体系底层很大一部分，仍然依赖于几十年前发明的那一小撮预处理工具。