<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/llm/</link><description>Recent content in LLM on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 07 May 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>阿里云全栈实战（十）：DashScope 与大模型层</title><link>https://www.chenk.top/zh/aliyun-fullstack/10-bailian-llm/</link><pubDate>Thu, 07 May 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-fullstack/10-bailian-llm/</guid><description>&lt;p>早年在国内开发生产级 LLM 应用时，可选方案极少且成本高昂：国际大厂要么未在中国内地部署服务端点（endpoint），要么计费需绑定境外信用卡；若调用其美国 API，首 token 延迟普遍超过 800ms。后来 Qwen 接入 DashScope 并提供 OpenAI 兼容接口，国内开发 AI 产品的体验因此与海外接轨——SDK 一样，请求结构一样，流式协议也一样，只需改个 &lt;code>base_url&lt;/code>，再从百炼控制台拿个 Key 就行。该方案已在生产环境稳定运行一年以上。本文系统梳理了我初上手时最急需的实战经验。&lt;/p></description></item><item><title>大模型工程（十二）：生产落地与监控</title><link>https://www.chenk.top/zh/llm-engineering/12-production/</link><pubDate>Tue, 07 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/12-production/</guid><description>&lt;p>这是最后一章。前面的章节涵盖了模型构建、提示工程、检索和评估，而本章聚焦于如何在不烧钱的前提下维持系统稳定运行。生产环境中的 LLM 服务更像一个高流量 Web 服务，而非传统机器学习服务——每次请求都会产生成本，且响应时间甚至可能长达两分钟。&lt;/p></description></item><item><title>大模型工程（十一）：安全与 Alignment</title><link>https://www.chenk.top/zh/llm-engineering/11-safety/</link><pubDate>Mon, 06 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/11-safety/</guid><description>&lt;p>安全是 LLM 工程中信噪比最低的话题：哲学讨论泛滥、营销话术盛行，而真正可落地的工程细节却十分稀缺。本章只讲工程细节——RLHF 名义上强调“安全”，实际优化目标是什么？拒绝校准为何失效？真实的红队测试长什么样？哪些幻觉评估指标能切实预测对客户的影响？此外，2024–2026 年间的一些不起眼但至关重要的论文（如 &lt;em>Sleeper Agents&lt;/em>、refusal as a feature direction、weak-to-strong generalization）将重塑你对生产环境中对齐实践的理解。&lt;/p></description></item><item><title>大模型工程（十）：LLM-as-Judge 与评估</title><link>https://www.chenk.top/zh/llm-engineering/10-evaluation/</link><pubDate>Sun, 05 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/10-evaluation/</guid><description>&lt;p>评估是大模型技术栈中争议最多、信心最弱的一环——榜单被刷分、公开基准遭污染，我参与过的多数团队甚至在初期连自己的评估集都没有。本章将聚焦五个关键问题：评估真正能揭示什么、基准暗藏的陷阱、无人修复的 LLM-as-judge 偏差、多数团队忽略的校准指标，以及能在客户感知前捕获回归的生产级评估模式。&lt;/p></description></item><item><title>大模型工程（九）：生产级 Prompt 工程</title><link>https://www.chenk.top/zh/llm-engineering/09-prompting/</link><pubDate>Sat, 04 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/09-prompting/</guid><description>&lt;p>在本地笔记本上跑通 100 个测试样例的 prompt，上线后仍可能有 10% 的输入失败——这与模型是否“聪明”无关。本章将聚焦于 prompt 的工程化实践：探讨 CoT 在哪些任务上有效、哪些无效；prompt caching 如何重塑成本结构；few-shot、CoT 和 self-consistency 如何协同增效，而非各自承担全量开销；以及如何防御上线首周就可能出现的 jailbreak 和注入攻击。&lt;/p></description></item><item><title>大模型工程（八）：RAG 架构与落地</title><link>https://www.chenk.top/zh/llm-engineering/08-rag/</link><pubDate>Fri, 03 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/08-rag/</guid><description>&lt;p>RAG 是当前 LLM 应用中部署最广泛，却工程实践最不成熟的范式。2024 年流行的 Demo 套路——用 &lt;code>text-embedding-3-large&lt;/code> 把所有内容向量化，扔进 pgvector，再取 cosine 相似度 top-5——在千篇量级文档和对答案容错率较高的演示场景下尚可应付；但一旦面对十万级真实业务文档，且客户对答案准确性有严格要求时，这套方案便难以为继。本章内容，正是我希望更多团队在构建第二代 RAG 系统前就能掌握的关键认知。&lt;/p></description></item><item><title>大模型工程（七）：Function Calling 实战</title><link>https://www.chenk.top/zh/llm-engineering/07-function-calling/</link><pubDate>Thu, 02 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/07-function-calling/</guid><description>&lt;p>函数调用是大语言模型（LLM）连接外部世界的关键接口，也是 chat template、结构化输出内核与提示工程的交汇点。本章将深入剖析底层机制，探讨哪些行为具备可依赖的确定性保证，以及哪些 agent-loop 模式能在真实生产负载下稳定运行。&lt;/p></description></item><item><title>大模型工程（六）：长上下文与 RoPE、YaRN</title><link>https://www.chenk.top/zh/llm-engineering/06-long-context/</link><pubDate>Wed, 01 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/06-long-context/</guid><description>&lt;p>“1M token 上下文”堪称大模型领域最被夸大的指标之一。模型能处理 1M tokens，这反映的是架构能力；但能否真正利用第 80 万位的信息来回答问题，则考验的是行为能力——后者要难得多。本章将深入探讨位置编码的数学原理、将上下文扩展至训练长度之外的工程技巧，并解释为何大多数长上下文模型在“大海捞针”测试中表现不佳。&lt;/p></description></item><item><title>大模型工程（五）：推理优化核心技法</title><link>https://www.chenk.top/zh/llm-engineering/05-inference/</link><pubDate>Tue, 31 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/05-inference/</guid><description>&lt;p>真正的成本压力来自推理。以单个 70B 模型为例，支撑 1000 个并发用户、每秒生成 50 个 token 的 GPU 开销，约等于训练该模型的全部预算——只需运行约 3 个月。本章聚焦两个核心指标：首 token 延迟（TTFT）、token 间延迟（ITL），以及一个关键比率：每百万输出 token 消耗的 GPU 秒数。&lt;/p></description></item><item><title>大模型工程（四）：SFT、DPO 与 RLHF</title><link>https://www.chenk.top/zh/llm-engineering/04-post-training/</link><pubDate>Mon, 30 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/04-post-training/</guid><description>&lt;p>预训练得到的基座模型只能续写文本，而听懂指令、拒绝有害请求、维持人设等能力，则属于后训练阶段的任务——这也正是论文宣称的效果与真正生产级模型之间差距最大的地方。本章将深入探讨各类后训练算法究竟在优化什么、为什么大多数奖励模型其实存在隐性缺陷，以及到 2026 年真正行之有效的实践方法。&lt;/p></description></item><item><title>大模型工程（三）：预训练的规模之道</title><link>https://www.chenk.top/zh/llm-engineering/03-pretraining/</link><pubDate>Sun, 29 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/03-pretraining/</guid><description>&lt;p>预训练是大模型能力的源头，也是榜单成绩与实际表现差距最大的地方。大多数公开的训练记录更像是工程奇迹，而非科学成果。本章将聚焦于当你不是 OpenAI 时，预训练中真正必须做对的关键环节：数据、并行策略，以及那些只有在集群规模足够大时才会暴露的故障模式——比如一次失败的 NCCL all-reduce 就可能让为期 30 天的训练任务功亏一篑。&lt;/p></description></item><item><title>大模型工程（二）：Tokenization 深度解析</title><link>https://www.chenk.top/zh/llm-engineering/02-tokenization/</link><pubDate>Sat, 28 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/02-tokenization/</guid><description>&lt;p>分词层常被忽视，却是在生产环境中我调试最多的地方——静默的质量下降、异常的成本激增、模型无法正确执行指令（通常源于 chat template 格式错误）。我希望在发布多语言产品前彻底掌握这一章的内容。&lt;/p></description></item><item><title>大模型工程（一）：Transformer 到 MoE</title><link>https://www.chenk.top/zh/llm-engineering/01-architectures/</link><pubDate>Fri, 27 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/01-architectures/</guid><description>&lt;p>2017 年提出的 Transformer 模块，到 2026 年依然是所有生产级大语言模型（LLM）的骨架，但其内部组件几乎已被全面替换、稀疏化或专业化。本系列将端到端覆盖现代 LLM 技术栈——架构、训练、推理、检索增强、评估、安全与部署。第一章聚焦模块本身：2026 年注意力机制的实际形态、MoE 如何打破参数量与计算量（FLOPs）的绑定关系，以及 Mamba、RWKV 等非注意力架构在哪些场景下真正优于 Transformer。&lt;/p></description></item><item><title>Terraform 实战（六）：LLM Gateway 与密钥管理</title><link>https://www.chenk.top/zh/terraform-agents/06-llm-gateway-and-secrets/</link><pubDate>Sun, 22 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/terraform-agents/06-llm-gateway-and-secrets/</guid><description>&lt;p>我在许多尚未成熟的 Agent 架构中反复看到一个通病：每个 Agent 都在自己的 &lt;code>.env&lt;/code> 文件里存一份 &lt;code>OPENAI_API_KEY&lt;/code>。有时是同一个 key，有时各不相同，甚至还有同事在原型阶段留下的个人密钥。等到账单来了，没人说得清哪个 Agent 消耗了多少 token；而一旦密钥泄露（这几乎是必然的），你就得像打地鼠一样，在十几个 &lt;code>.env&lt;/code> 文件里来回折腾。&lt;/p></description></item><item><title>阿里云 PAI（三）：DLC 分布式训练</title><link>https://www.chenk.top/zh/aliyun-pai/03-pai-dlc-distributed-training/</link><pubDate>Sat, 07 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-pai/03-pai-dlc-distributed-training/</guid><description>&lt;p>DSW 笔记本适合单人单卡的场景；一旦你需要八张 GPU 跨两个节点训练，或者训练时长超过八小时（也就是你愿意为一个浏览器标签页持续守候的极限），就该切换到 &lt;strong>DLC&lt;/strong>。DLC 是 PAI 面向托管 Kubernetes 集群的作业提交入口：你只需声明需求（镜像、命令、资源规格、数据挂载路径），它就会自动调度 Pod、运行至完成、持久化日志并返回结果。官方文档称其为 &lt;em>Deep Learning Containers&lt;/em>，但我们日常交流中统一简称为“DLC 任务”。&lt;/p></description></item><item><title>阿里云百炼（二）：Qwen API 生产接入</title><link>https://www.chenk.top/zh/aliyun-bailian/02-qwen-llm-api/</link><pubDate>Thu, 26 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-bailian/02-qwen-llm-api/</guid><description>&lt;p>这个系列的干货集中在本篇。尽管其他模型有趣，我在生产环境中几乎只用 Qwen——尽管官方文档详尽但庞杂，本文将为你提炼出一条最短、最省、最稳的落地路径。&lt;/p></description></item><item><title>阿里云百炼（一）：平台概览与第一个请求</title><link>https://www.chenk.top/zh/aliyun-bailian/01-platform-overview/</link><pubDate>Wed, 25 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-bailian/01-platform-overview/</guid><description>&lt;p>只要你的产品面向中文用户，迟早都得调用百炼（Bailian）的模型——Qwen-Max 是目前实现 GPT-4 级别中文理解能力且性价比最高的选择；万相（Wanxiang）是市面上唯一支持开具中文发票、且已在生产环境稳定落地的文本生成视频（text-to-video）API；而 Qwen-TTS-Flash 则是当前唯一能自然合成粤语和四川话、不带机械播报腔的语音合成（TTS）模型。在 AI 营销平台跑了一整年的生产流量后，我真心希望入职第一天就能拿到这份指南。&lt;/p></description></item><item><title>AI Agent 完全指南：从理论到工业实践</title><link>https://www.chenk.top/zh/standalone/ai-agent%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E7%90%86%E8%AE%BA%E5%88%B0%E5%B7%A5%E4%B8%9A%E5%AE%9E%E8%B7%B5/</link><pubDate>Mon, 19 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/ai-agent%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E7%90%86%E8%AE%BA%E5%88%B0%E5%B7%A5%E4%B8%9A%E5%AE%9E%E8%B7%B5/</guid><description>&lt;p>聊天机器人用于回答问题，而 Agent 则用于&lt;strong>把事情做完&lt;/strong>——同样是基于大模型，前者仅输出文字，后者则会搜索、写代码、调用 API、查询数据库，并不断迭代直至任务完成；其区别在于外层的封装：一个能保留状态的循环、一组工具和一个能审视自身输出的批评者。&lt;/p></description></item><item><title>推荐系统（十二）—— 大语言模型与推荐系统</title><link>https://www.chenk.top/zh/recommendation-systems/12-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%8E%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/</link><pubDate>Sat, 03 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/recommendation-systems/12-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%8E%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/</guid><description>&lt;p>用户打开电影 App，输入：“想看类似《盗梦空间》的，但别太压抑。”传统推荐系统——无论是协同过滤、双塔 DNN，还是 DIN——在这句话里都找不到任何可用信号。它没有点赞数据可统计，没有共看关系图可遍历，也没有绑定用户 ID 的历史行为。系统必须先把这句话转换成 ID，才能继续处理。&lt;/p></description></item><item><title>自然语言处理（十二）：前沿技术与实战应用</title><link>https://www.chenk.top/zh/nlp/12-%E5%89%8D%E6%B2%BF%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%AE%9E%E6%88%98%E5%BA%94%E7%94%A8/</link><pubDate>Tue, 25 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/12-%E5%89%8D%E6%B2%BF%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%AE%9E%E6%88%98%E5%BA%94%E7%94%A8/</guid><description>&lt;p>经过十一章的探索，我们从原始文本一路走到了多模态基础模型。作为第十二章和最后一章，这里既是技术的最前沿，也是实际应用的起点——研究不再是纸上谈兵的论文，而是真正落地为服务：一个能够调用工具、编写和调试代码、完成上百步推理、处理 20 万 token 的合同文件，并通过 FastAPI 接口以 p95 延迟低于 300 毫秒支持上千并发用户的大型语言模型（LLM）。&lt;/p></description></item><item><title>自然语言处理（十一）：多模态大模型</title><link>https://www.chenk.top/zh/nlp/11-%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><pubDate>Thu, 20 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/11-%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>人类从来不会只通过单一感官来理解世界——我们看图表时会同时读标题，观察表情时会留意语气，讨论代码 bug 时也会瞥一眼截图。然而，纯文本语言模型对这些丰富的多模态信息完全无感，既“听不见”也“看不见”。&lt;strong>多模态大语言模型（Multimodal Large Language Models, MLLMs）&lt;/strong> 的出现正是为了填补这一空白：它们将图像、音频和视频映射到与语言模型一致的表示空间中，从而让模型能够理解和处理多模态信息。&lt;/p></description></item><item><title>自然语言处理（十）：RAG 与知识增强系统</title><link>https://www.chenk.top/zh/nlp/10-rag%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%A2%9E%E5%BC%BA%E7%B3%BB%E7%BB%9F/</link><pubDate>Sat, 15 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/10-rag%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%A2%9E%E5%BC%BA%E7%B3%BB%E7%BB%9F/</guid><description>&lt;p>一个知识被冻结的语言模型就像一个“自信的骗子”：它读不了昨天的事故报告、公司的 Wiki 页面，也看不到今天早上刚发布的补丁说明。一旦你提问，它就会生成语法完美但事实错误的答案。&lt;strong>检索增强生成（RAG）&lt;/strong> 打破了这一僵局，其核心在于将“记忆”与“推理”分离——让大语言模型（LLM）保持小巧稳定，而把易变的知识放进可随时更新的外部存储中。生成答案前，先检索相关证据，并将其作为条件输入模型。&lt;/p></description></item><item><title>自然语言处理（九）：大语言模型架构深度解析</title><link>https://www.chenk.top/zh/nlp/09-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</link><pubDate>Mon, 10 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/09-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</guid><description>&lt;p>2017 年的 Transformer 论文提出了一种模块，如今所有生产环境中的大语言模型（LLM）依然沿用其整体框架，但内部几乎所有组件都经历了彻底替换：后置归一化（post-norm）被前置归一化（pre-norm）取代，LayerNorm 被 RMSNorm 替换，GELU 激活函数变成了 SwiGLU，正弦位置编码也被旋转位置编码（RoPE）所替代。多头注意力机制（Multi-head Attention）演进为分组查询注意力（Grouped-Query Attention, GQA），稠密前馈网络（FFN）在某些模型中甚至被稀疏专家混合模型（Mixture of Experts, MoE）所取代；更重要的是，推理过程中最核心的数据结构——KV 缓存（KV Cache）——在原始论文中完全没有提及。&lt;/p></description></item><item><title>自然语言处理（八）：模型微调与 PEFT</title><link>https://www.chenk.top/zh/nlp/08-%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83%E4%B8%8Epeft/</link><pubDate>Wed, 05 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/08-%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83%E4%B8%8Epeft/</guid><description>&lt;p>2020 年，微调一个 70 亿参数的语言模型还是一项需要专门预算的工程：八张 A100 显卡、几天时间，外加一位懂得调试梯度检查点的工程师；而到了 2024 年，一名研究生用一台笔记本电脑就能完成。从这两个世界之间的鸿沟，几乎完全被两篇论文填平——胡等人（Hu et al.）在 ICLR 2022 提出的 LoRA，以及 Dettmers 等人在 NeurIPS 2023 发表的 QLoRA。&lt;/p></description></item><item><title>自然语言处理（七）：提示工程与 In-Context Learning</title><link>https://www.chenk.top/zh/nlp/07-%E6%8F%90%E7%A4%BA%E5%B7%A5%E7%A8%8B%E4%B8%8Ein-context-learning/</link><pubDate>Fri, 31 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/07-%E6%8F%90%E7%A4%BA%E5%B7%A5%E7%A8%8B%E4%B8%8Ein-context-learning/</guid><description>&lt;p>同一个模型，既可能给出精准而深刻的回答，也可能自信满满地‘一本正经胡说八道’。关键在于你如何引导它，而非模型的权重。简单输入‘分析这段文本’通常只能得到泛泛而谈的总结；但在提示中明确角色、提供清晰示例并规定严格输出格式，则更可能得到一个结构化的 JSON，直接供下游解析器使用。&lt;strong>提示工程的核心是将这种从偶然到必然的差距转化为一套可重复、可操作的方法论。&lt;/strong>&lt;/p></description></item><item><title>提示词工程完全指南：从零基础到高级优化</title><link>https://www.chenk.top/zh/standalone/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E9%9B%B6%E5%9F%BA%E7%A1%80%E5%88%B0%E9%AB%98%E7%BA%A7%E4%BC%98%E5%8C%96/</link><pubDate>Tue, 30 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E9%9B%B6%E5%9F%BA%E7%A1%80%E5%88%B0%E9%AB%98%E7%BA%A7%E4%BC%98%E5%8C%96/</guid><description>&lt;p>同样的模型，两种问法在小学数学题上的准确率分别为 17% 和 78%——这种差别并非玄学，而是提示词工程的结果。本文将系统梳理那些真正有效的技巧及其原因，并探讨如何在生产环境中优化提示词。&lt;/p></description></item><item><title>LLM 工作流与应用架构：企业级实战指南</title><link>https://www.chenk.top/zh/standalone/llm%E5%B7%A5%E4%BD%9C%E6%B5%81%E4%B8%8E%E5%BA%94%E7%94%A8%E6%9E%B6%E6%9E%84-%E4%BC%81%E4%B8%9A%E7%BA%A7%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</link><pubDate>Thu, 31 Jul 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/llm%E5%B7%A5%E4%BD%9C%E6%B5%81%E4%B8%8E%E5%BA%94%E7%94%A8%E6%9E%B6%E6%9E%84-%E4%BC%81%E4%B8%9A%E7%BA%A7%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</guid><description>&lt;p>绝大多数 LLM 教程在真正有意思的工作开始之前就戛然而止了。它们教你如何调用 chat completion 接口、挂载向量库、用 Streamlit 包装成 demo——这些都没错，但解决不了真正的痛点：凌晨三点一万人涌入、每条回答都可能出幻觉时的系统性压力。&lt;/p></description></item><item><title>浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi</title><link>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</link><pubDate>Fri, 30 Jun 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</guid><description>&lt;p>第一次手动计算 Self-Attention 时，多数人会惊讶地发现：它&lt;strong>完全不依赖输入顺序&lt;/strong>。若将 token 序列重新排列，各注意力分数也会随之同步重排——该函数严格满足置换等变性。因此，在让 Transformer 完成需要理解序列顺序的任务之前，必须显式注入位置信息。&lt;/p></description></item><item><title>Integrating Large Language Models with Graphical Session-Based Recommendation</title><link>https://www.chenk.top/zh/standalone/integrating-large-language-models-with-graphical-session-bas/</link><pubDate>Sun, 22 Jan 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/integrating-large-language-models-with-graphical-session-bas/</guid><description>&lt;p>会话推荐（Session-based Recommendation, SBR）本质上是一个“短历史”问题：你只看到用户在一次会话中很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点在于工程现实——会话短、长尾多、冷启动多，仅依赖交互图（ID + 转移边）往往难以稳定训练：新物品几乎无交互边，长尾物品的边既稀疏又不可靠，用户随意点击还会引入噪声。&lt;/p></description></item><item><title>优化理论（三）：梯度下降族——从 SGD 到 AdamW</title><link>https://www.chenk.top/zh/optimization-theory/03-gradient-descent-family/</link><pubDate>Fri, 16 Sep 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/optimization-theory/03-gradient-descent-family/</guid><description>&lt;p>为什么“调学习率是一门艺术”成了 ResNet 的梗，而每篇现代 LLM 论文却只是简单写下 “AdamW, &lt;span class="math-inline">$\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$&lt;/span>
” 就翻篇了？这并非偶然——这是 &lt;strong>三十余年优化器演化的终点&lt;/strong>。&lt;/p></description></item><item><title>多模态大模型与下游任务研究</title><link>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</link><pubDate>Sat, 09 Apr 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</guid><description>&lt;p>将图像、视频和音频输入语言模型，使其具备视觉、听觉和推理能力——这件事在 2021 年 CLIP 出现之前还只是研究奇观，如今已成为产品标配。但将多模态大模型（Multimodal LLM, MLLM）应用于生产时，难点不在于视觉编码器是否足够强大，而在于以下四个常被低估的方面：&lt;/p></description></item></channel></rss>