<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>NLP on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/nlp/</link><description>Recent content in NLP on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 25 Nov 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/nlp/index.xml" rel="self" type="application/rss+xml"/><item><title>自然语言处理（十二）：前沿技术与实战应用</title><link>https://www.chenk.top/zh/nlp/12-%E5%89%8D%E6%B2%BF%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%AE%9E%E6%88%98%E5%BA%94%E7%94%A8/</link><pubDate>Tue, 25 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/12-%E5%89%8D%E6%B2%BF%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%AE%9E%E6%88%98%E5%BA%94%E7%94%A8/</guid><description>&lt;p>经过十一章的探索，我们从原始文本一路走到了多模态基础模型。作为第十二章和最后一章，这里既是技术的最前沿，也是实际应用的起点——研究不再是纸上谈兵的论文，而是真正落地为服务：一个能够调用工具、编写和调试代码、完成上百步推理、处理 20 万 token 的合同文件，并通过 FastAPI 接口以 p95 延迟低于 300 毫秒支持上千并发用户的大型语言模型（LLM）。&lt;/p></description></item><item><title>自然语言处理（十一）：多模态大模型</title><link>https://www.chenk.top/zh/nlp/11-%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><pubDate>Thu, 20 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/11-%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>人类从来不会只通过单一感官来理解世界——我们看图表时会同时读标题，观察表情时会留意语气，讨论代码 bug 时也会瞥一眼截图。然而，纯文本语言模型对这些丰富的多模态信息完全无感，既“听不见”也“看不见”。&lt;strong>多模态大语言模型（Multimodal Large Language Models, MLLMs）&lt;/strong> 的出现正是为了填补这一空白：它们将图像、音频和视频映射到与语言模型一致的表示空间中，从而让模型能够理解和处理多模态信息。&lt;/p></description></item><item><title>自然语言处理（十）：RAG 与知识增强系统</title><link>https://www.chenk.top/zh/nlp/10-rag%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%A2%9E%E5%BC%BA%E7%B3%BB%E7%BB%9F/</link><pubDate>Sat, 15 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/10-rag%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%A2%9E%E5%BC%BA%E7%B3%BB%E7%BB%9F/</guid><description>&lt;p>一个知识被冻结的语言模型就像一个“自信的骗子”：它读不了昨天的事故报告、公司的 Wiki 页面，也看不到今天早上刚发布的补丁说明。一旦你提问，它就会生成语法完美但事实错误的答案。&lt;strong>检索增强生成（RAG）&lt;/strong> 打破了这一僵局，其核心在于将“记忆”与“推理”分离——让大语言模型（LLM）保持小巧稳定，而把易变的知识放进可随时更新的外部存储中。生成答案前，先检索相关证据，并将其作为条件输入模型。&lt;/p></description></item><item><title>自然语言处理（九）：大语言模型架构深度解析</title><link>https://www.chenk.top/zh/nlp/09-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</link><pubDate>Mon, 10 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/09-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</guid><description>&lt;p>2017 年的 Transformer 论文提出了一种模块，如今所有生产环境中的大语言模型（LLM）依然沿用其整体框架，但内部几乎所有组件都经历了彻底替换：后置归一化（post-norm）被前置归一化（pre-norm）取代，LayerNorm 被 RMSNorm 替换，GELU 激活函数变成了 SwiGLU，正弦位置编码也被旋转位置编码（RoPE）所替代。多头注意力机制（Multi-head Attention）演进为分组查询注意力（Grouped-Query Attention, GQA），稠密前馈网络（FFN）在某些模型中甚至被稀疏专家混合模型（Mixture of Experts, MoE）所取代；更重要的是，推理过程中最核心的数据结构——KV 缓存（KV Cache）——在原始论文中完全没有提及。&lt;/p></description></item><item><title>自然语言处理（八）：模型微调与 PEFT</title><link>https://www.chenk.top/zh/nlp/08-%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83%E4%B8%8Epeft/</link><pubDate>Wed, 05 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/08-%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83%E4%B8%8Epeft/</guid><description>&lt;p>2020 年，微调一个 70 亿参数的语言模型还是一项需要专门预算的工程：八张 A100 显卡、几天时间，外加一位懂得调试梯度检查点的工程师；而到了 2024 年，一名研究生用一台笔记本电脑就能完成。从这两个世界之间的鸿沟，几乎完全被两篇论文填平——胡等人（Hu et al.）在 ICLR 2022 提出的 LoRA，以及 Dettmers 等人在 NeurIPS 2023 发表的 QLoRA。&lt;/p></description></item><item><title>自然语言处理（七）：提示工程与 In-Context Learning</title><link>https://www.chenk.top/zh/nlp/07-%E6%8F%90%E7%A4%BA%E5%B7%A5%E7%A8%8B%E4%B8%8Ein-context-learning/</link><pubDate>Fri, 31 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/07-%E6%8F%90%E7%A4%BA%E5%B7%A5%E7%A8%8B%E4%B8%8Ein-context-learning/</guid><description>&lt;p>同一个模型，既可能给出精准而深刻的回答，也可能自信满满地‘一本正经胡说八道’。关键在于你如何引导它，而非模型的权重。简单输入‘分析这段文本’通常只能得到泛泛而谈的总结；但在提示中明确角色、提供清晰示例并规定严格输出格式，则更可能得到一个结构化的 JSON，直接供下游解析器使用。&lt;strong>提示工程的核心是将这种从偶然到必然的差距转化为一套可重复、可操作的方法论。&lt;/strong>&lt;/p></description></item><item><title>自然语言处理（六）：GPT 与生成式语言模型</title><link>https://www.chenk.top/zh/nlp/06-gpt%E4%B8%8E%E7%94%9F%E6%88%90%E5%BC%8F%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/</link><pubDate>Sun, 26 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/06-gpt%E4%B8%8E%E7%94%9F%E6%88%90%E5%BC%8F%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>当你向 ChatGPT 提问，看到一段流畅的多段落回答逐 token 流式生成时，你其实正在见证一个看似简单却威力巨大的循环：把“到目前为止的所有内容”喂给 Transformer 解码器，观察它输出的词汇表概率分布，从中挑一个 token 追加到末尾，然后重复——这便是自回归语言模型的全部逻辑。真正神奇的并非这个循环本身，而是当你把循环背后的网络扩展到数千亿参数，并用近乎整个互联网的数据训练后，它所展现出的能力。&lt;/p></description></item><item><title>自然语言处理（五）：BERT 与预训练模型</title><link>https://www.chenk.top/zh/nlp/05-bert%E4%B8%8E%E9%A2%84%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B/</link><pubDate>Tue, 21 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/05-bert%E4%B8%8E%E9%A2%84%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>2018 年 10 月，Google 推出了 BERT，一举刷新了 11 项 NLP 基准测试的记录。方法出人意料地简洁：仅需一个 Transformer 编码器，通过让模型根据双向上下文预测被随机遮盖的词进行预训练，再在同一模型上针对下游任务进行微调。在 BERT 出现之前，每个任务都需要从零开始训练一个专属模型；BERT 的出现彻底改变了这一局面，“一次预训练、多次微调”迅速成为该领域的标准范式。&lt;/p></description></item><item><title>自然语言处理（四）：注意力机制与 Transformer</title><link>https://www.chenk.top/zh/nlp/04-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer/</link><pubDate>Thu, 16 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/04-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer/</guid><description>&lt;p>2017 年 6 月，Google Brain 和 Google Research 的八位研究者发表了一篇标题相当引人注目的论文：&lt;em>Attention Is All You Need&lt;/em>。这篇论文提出的 &lt;strong>Transformer&lt;/strong> 架构彻底抛弃了循环结构，不再使用 LSTM 或 GRU，也不再需要从左到右逐步扫描句子；相反，序列中的每个 token 都可以通过缩放点积注意力直接“看到”其他所有 token。&lt;/p></description></item><item><title>自然语言处理（三）：RNN 与序列建模</title><link>https://www.chenk.top/zh/nlp/03-rnn%E4%B8%8E%E5%BA%8F%E5%88%97%E5%BB%BA%E6%A8%A1/</link><pubDate>Sat, 11 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/03-rnn%E4%B8%8E%E5%BA%8F%E5%88%97%E5%BB%BA%E6%A8%A1/</guid><description>&lt;p>打开 Google 翻译、用滑动输入法打字或对着手机录一段备忘——这些日常操作背后，都离不开一个核心任务：按顺序处理一串 token 并生成另一串符号。前馈神经网络将每个输入视为独立个体处理，但语言本质上是上下文关联的。例如，在句子“猫坐在垫子上”中，理解“垫子”的意思需要结合前面的词语。循环神经网络（RNN）通过维护隐藏状态来解决这个问题。每读入一个 token，隐藏状态都会更新，动态汇总过去的信息，可视为网络的“记忆”。&lt;/p></description></item><item><title>自然语言处理（二）：词向量与语言模型</title><link>https://www.chenk.top/zh/nlp/02-%E8%AF%8D%E5%90%91%E9%87%8F%E4%B8%8E%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/</link><pubDate>Mon, 06 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/02-%E8%AF%8D%E5%90%91%E9%87%8F%E4%B8%8E%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/</guid><description>&lt;span class="math-block">$$\vec{\text{king}} - \vec{\text{man}} &amp;#43; \vec{\text{woman}} \approx \vec{\text{queen}}$$&lt;/span>
&lt;p>
自然语言处理（NLP）的发展轨迹因此发生了根本性转变，进入了“表示学习”的时代。本文将沿着这条脉络展开：从独热编码为何失效，到 Word2Vec 如何通过浅层神经网络打开新思路；从 GloVe 如何利用全局统计信息，到 FastText 如何借助子词 n-gram 处理未见过的词；最终，词嵌入与催生它们的语言模型联系起来，揭示两者之间的深层关系。&lt;/p></description></item><item><title>自然语言处理（一）：NLP 入门与文本预处理</title><link>https://www.chenk.top/zh/nlp/01-nlp%E5%85%A5%E9%97%A8%E4%B8%8E%E6%96%87%E6%9C%AC%E9%A2%84%E5%A4%84%E7%90%86/</link><pubDate>Wed, 01 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/01-nlp%E5%85%A5%E9%97%A8%E4%B8%8E%E6%96%87%E6%9C%AC%E9%A2%84%E5%A4%84%E7%90%86/</guid><description>&lt;p>每当你向通义千问提问、让 GitHub Copilot 补全代码，或浏览 Google 翻译结果时，实际上都在使用一套凝聚了七十年技术积累的系统——自然语言处理（NLP）。NLP 教会机器如何阅读、评分、转换和生成人类语言。尽管现代技术体系复杂，其底层仍然广泛依赖于几十年前发明的基础预处理方法。&lt;/p></description></item><item><title>浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi</title><link>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</link><pubDate>Fri, 30 Jun 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</guid><description>&lt;p>第一次手动计算 Self-Attention 时，多数人会惊讶地发现：它&lt;strong>完全不依赖输入顺序&lt;/strong>。若将 token 序列重新排列，各注意力分数也会随之同步重排——该函数严格满足置换等变性。因此，在让 Transformer 完成需要理解序列顺序的任务之前，必须显式注入位置信息。&lt;/p></description></item><item><title>多模态大模型与下游任务研究</title><link>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</link><pubDate>Sat, 09 Apr 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</guid><description>&lt;p>将图像、视频和音频输入语言模型，使其具备视觉、听觉和推理能力——这件事在 2021 年 CLIP 出现之前还只是研究奇观，如今已成为产品标配。但将多模态大模型（Multimodal LLM, MLLM）应用于生产时，难点不在于视觉编码器是否足够强大，而在于以下四个常被低估的方面：&lt;/p></description></item></channel></rss>