Chen Kai Blog

用 Terraform 给 AI Agent 上云（八）：端到端——一次 apply 起整个 research-agent-stack

Thu, 26 Mar 2026 09:00:00 +0000

这是第二到第七篇所有东西落到一处的文章。读完之后你会跑过一次 terraform apply，在阿里云上产出一个完整、可观测、有预算的 Agent runtime stack。约 31 个资源，~7 分钟实际时间。

用 Terraform 给 AI Agent 上云（七）：可观测、SLS 看板与成本告警

Tue, 24 Mar 2026 09:00:00 +0000

Agent 是非确定的、多步的、调昂贵 API 的。这组合意味着如果你不在第一天 instrument 它，事后没法 debug。本篇用 Terraform 打通三条管道——日志、Trace、指标——汇成一个统一看板，再叠四条真正在生产环境救过我项目的告警。

用 Terraform 给 AI Agent 上云（六）：LLM 网关与密钥管理

Sun, 22 Mar 2026 09:00:00 +0000

不成熟的 Agent stack 有个常见模式：每个 Agent 自己 .env 文件里有一份 OPENAI_API_KEY。有时是同一份，有时不是，有时是同事原型阶段留下的个人 key。账单到了没人能说清是哪个 Agent 烧的 token，key 泄露的时候（一定会泄露）你在十几个 .env 文件之间打地鼠。

用 Terraform 给 AI Agent 上云（五）：存储层——向量、关系、对象记忆

Fri, 20 Mar 2026 09:00:00 +0000

Agent 的"记忆"是多数教程一笔带过的部分。“embedding 丢 Pinecone，会话进 Postgres，截图传 S3。“在阿里云上，三种都有托管服务，而正确地用 Terraform 把它们建出来，就是"记忆好用"和"凌晨四点磁盘满了我们丢了三周对话历史"的差。

用 Terraform 给 AI Agent 上云（四）：计算层选 ECS、ACK 还是函数计算？

Wed, 18 Mar 2026 09:00:00 +0000

Agent 系统最重要的架构决策就是 Agent 主循环进程到底跑在哪里。阿里云上正好有三个好答案。选错不会致命——后面可以迁——但会让你浪费几周搭无谓的脚手架。

本篇用真实 Terraform、成本拐点和运维坑走完三种方案。

用 Terraform 给 AI Agent 上云（三）：可复用的 VPC 与安全基线

Mon, 16 Mar 2026 09:00:00 +0000

这一篇造的是我所有 Agent 项目里被复制粘贴最多的一段 Terraform：一个 vpc-baseline module，给后续每一个组件（ECS、RDS、OpenSearch、ACK）一个合理的落点。

用 Terraform 给 AI Agent 上云（二）：Provider、认证与 OSS 上的远程 State

Sat, 14 Mar 2026 09:00:00 +0000

这一篇你不再是读，是开始动手。读完之后你会有：

alicloud Terraform provider 装好且版本钉死
认证接好——用对的方式，不是方便的方式
远程 state 放在 OSS，用 Tablestore 加锁
三个 workspace（dev、staging、prod），共用 backend、隔离 state
一个能跑通的 terraform plan（即使配置是空的）

本篇还不会建出任何 Agent 资源。我们打的是后续每一篇都会假设的地基。

用 Terraform 给 AI Agent 上云（一）：为什么 IaC 是唯一靠谱的部署方式

Thu, 12 Mar 2026 09:00:00 +0000

过去十八个月我在阿里云上交付过四个 Agent 系统。其中三个的初始形态都是某人在控制台点一阵之后留下的一台 ECS 上跑着 tmux 会话。这三个系统都各自经历过一个仓促的周末——第二位工程师入职的时候、生产区域 GPU 缺货的时候、安全团队来问网络拓扑图的时候——把所有东西从头重建一遍。

阿里云 PAI 实战（五）：Designer vs Model Gallery——GUI 什么时候真值钱

Mon, 09 Mar 2026 09:00:00 +0000

前四篇讲的是底层原语——DSW、DLC、EAS——你用 Python 编排它们。这篇讲两个把这些原语包起来、给"不想写 Python"的用户用的 GUI 产品：PAI-Designer 处理拖拽式表格流水线，Model Gallery 零代码部署/微调开源模型。它们不是严肃工程师第一反应的工具，但有两个具体场景下它们就是正确答案。

阿里云 PAI 实战（四）：PAI-EAS——模型部署、冷启动、以及 TPS 谎言

Sun, 08 Mar 2026 09:00:00 +0000

EAS 是钱花掉的地方。DSW 一个月几百块跑研发；DLC 是峰值消耗。EAS 24/7 都在烧——因为随时可能有人调你的端点，扩缩容配置里那行"最小副本数"是整个平台杠杆最大的一个旋钮。这篇是我希望第一次 EAS 上线前一天就有人告诉我的事。

阿里云 PAI 实战（三）：PAI-DLC——不用通宵刨坑的分布式训练

Sat, 07 Mar 2026 09:00:00 +0000

DSW Notebook 是给一个工程师 + 一张卡的。一旦你需要 8 卡跨 2 机，或者训练时间超过你愿意守着浏览器的 8 小时，就该切到 DLC。DLC 是 PAI 给托管 K8s 集群做的任务提交前端：你描述要什么（镜像、命令、资源、数据挂载），DLC 调度 pod，跑完，留下日志，告诉你结果。文档叫 Deep Learning Containers，我们口头就叫 “DLC 任务”。

阿里云 PAI 实战（二）：PAI-DSW——不会吃掉权重的 Notebook

Fri, 06 Mar 2026 09:00:00 +0000

每次新同学进 PAI，第一天都长一个样。开 DSW 实例，pip install 一通，训练一小时，因为某种原因重启了 kernel，然后跑来问我模型文件去哪了。诚实的答案——“在 /root 里，但那台机器已经不存在了”——是个学一次就够的教训。这篇文章就是那种你在踩坑前就读到的版本。

阿里云 PAI 实战（一）：平台总览与产品家族地图

Thu, 05 Mar 2026 09:00:00 +0000

只要你的团队在阿里云上训练或者部署模型，迟早要进 PAI 控制台。PAI 是个伞形产品，下面挂着真正干活的几个子产品——一个 Notebook 服务、一个分布式训练服务、一个模型推理服务，外加几层 GUI/快速部署的封装。在某 AI Marketing 平台跑了一年半真实 LLM 业务之后，这个系列就是我希望第一次上线 EAS 之前有人塞给我的那本书。

阿里云百炼实战（五）：Qwen-TTS 多语言语音合成

Sun, 01 Mar 2026 09:00:00 +0000

我做的每个中文产品最终都调 Qwen-TTS-Flash，原因不是便宜——便宜的 TTS 多得是。是它是唯一一个能在同一个 SDK 里同时讲清楚中国大陆方言（粤语、川语、吴语）和英文、且音色不像 2019 年海关广播的 TTS。在某营销视频配音流水线里跑了大约六个月，下面是我希望第一天就有人告诉我的事。

阿里云百炼实战（四）：万相视频生成端到端

Sat, 28 Feb 2026 09:00:00 +0000

万相是给我们营销流水线创造最多价值、也制造最多生产事故的 API。模型本身真的好——wan2.5-t2v-plus 出 720p 片段大多数时候能冒充真实视频团队的产物——但周边是异步、原生协议、URL 会过期、限流非显然。这篇是经过六个月"凌晨两点为啥又出事"工单打磨的、文档真正实操版本。

阿里云百炼实战（三）：Qwen-Omni 多模态——视频、音频、图像理解

Fri, 27 Feb 2026 09:00:00 +0000

百炼里把我从最多产品坑里拽出来的就是 Qwen-Omni。“能告诉我这条 2 分钟广告片在讲什么吗"以前是个 3 周项目——抽帧、逐帧 caption、再 stitch。Qwen-Omni 一次 HTTP 请求搞定。但文档对踩坑警告稀疏，有一个（流式必填）让不止一个团队损失了半天。咱们别成为下一个。

阿里云百炼实战（二）：Qwen 文本大模型在生产环境的用法

Thu, 26 Feb 2026 09:00:00 +0000

整个系列里生产收益最大的就是这篇。其它模型有趣，LLM 才是我每个百炼上线产品每分钟都在调的东西。官方 Qwen API reference 详尽但稠密，本文是从中挑一条可读路径走完。

阿里云百炼实战（一）：平台总览与第一个请求

Wed, 25 Feb 2026 09:00:00 +0000

只要你的产品涉及中文用户，迟早要调一次百炼模型。Qwen-Max 是拿到 GPT-4 级别中文理解的最便宜稳妥方式，万相视频是国内能开人民币发票的唯一生产级文生视频 API，Qwen-TTS-Flash 是唯一能把粤语和四川话讲得不像海关广播的 TTS。在某 AI 营销平台跑了一年生产之后，这个系列是我希望第一天就有人塞给我的那本书。

机器学习数学推导（二十）：正则化与模型选择

Sun, 08 Feb 2026 09:00:00 +0000

本文要点

一个有 1 亿参数的网络，用 5 万张图训练，按经典理论应当过拟合到一塌糊涂；可现代深度网络偏偏泛化得很好。这背后是两件事在配合：正则化——一系列约束模型容量的技巧；以及泛化理论——从数学上回答"学习什么时候真的有效"。本文是整个系列的收官之作，我们把前面攒下的所有工具——最小二乘、MAP 估计、凸优化、EM、神经网络——一起拿出来，直面这个领域里最深的开放问题：为什么机器学习能泛化？

机器学习数学推导（十九）：神经网络与反向传播

Sat, 07 Feb 2026 09:00:00 +0000

本文概览

单个感知机连 XOR 都解决不了；把足够多的感知机用非线性激活叠起来，却能成为通用函数逼近器。剩下的问题只有一个：这样的网络如何从数据中学习？答案是反向传播——一次链式法则的精巧应用，借由一次"反向遍历"把所有中间结果重复利用。这套机制是过去四十年所有深度学习库的核心引擎。把它的数学讲清楚，会顺带回答两件事：为什么深层网络会出现梯度消失/爆炸，以及为什么权重初始化远比看上去讲究。

机器学习数学推导（十八）：聚类算法

Fri, 06 Feb 2026 09:00:00 +0000

本文要解决什么

一百万条客户记录摆在面前，没有任何标签。能不能自动找出有意义的分组？这就是聚类——无监督学习中最基础的任务。和分类不同，聚类逼着你先回答一个棘手的问题：“相似” 到底是什么意思？ 每一种聚类算法，本质上都是对这个问题的一种回答——是对"什么是一个群组"提出的某种几何、概率或图论假设。

机器学习数学推导（十七）：降维与主成分分析

Thu, 05 Feb 2026 09:00:00 +0000

这篇文章讲什么

把一万维的数据扔给聚类算法，多半会失败——不是算法不好，而是 高维空间本身对距离类方法极其不友好：体积都集中在球壳上，最近邻和最远邻的距离比趋近于 1，“近"这个概念失去了信息。降维的目的就是回应这件事：把数据投到一个低维空间里，同时尽可能保留真正重要的结构。

机器学习数学推导（十六）：条件随机场

Wed, 04 Feb 2026 09:00:00 +0000

这一篇要讲什么

命名实体识别、词性标注、信息抽取——这一类任务都要给序列里的每一个元素打标签。HMM（第十五篇）用生成式思路硬刚：建模联合分布 $P(\mathbf{X},\mathbf{Y})$，但代价是必须假设每个观测只依赖自己的隐状态。可现实里，bank 是名词还是动词，依赖于前一个词、后一个词、词缀、大小写、词典命中——这些重叠特征 HMM 全都用不了。

机器学习数学推导（十五）：隐马尔可夫模型

Tue, 03 Feb 2026 09:00:00 +0000

雾里有人在你身后走过。看不见人，只听见脚步——短促、轻、急。从节奏和音色，你能猜出对方是在走、跑，还是跛着腿吗？如果听到一整段声音呢？哪条步态序列最可能产生它？又或者，在你对"走路"建立的模型下，这段声音本身有多大概率出现？

机器学习数学推导（十四）：变分推断与变分EM

Mon, 02 Feb 2026 09:00:00 +0000

后验 $p(\mathbf{z}\mid\mathbf{x})$ 算不出来时，你有两条路。采样路线（MCMC）让一条马尔可夫链以后验为平稳分布慢慢走，理论上渐近精确，但收敛慢、难诊断。变分路线（VI）则换个角度：先选一个简单的分布族 $\mathcal{Q}$，再在其中找到与真实后验最接近的那个 $q^\star$。推断变成了优化——同样的工具链既能训练神经网络，也能拟合贝叶斯模型。

机器学习数学推导（十三）：EM算法与GMM

Sun, 01 Feb 2026 09:00:00 +0000

数据里常常藏着看不见的结构——你不知道每个样本属于哪个簇、不知道某个特征的真实取值、不知道一段文本背后是哪些主题在驱动。这些隐变量让最大似然估计变得棘手：似然函数变成"对数里套求和"的形式，既无闭式解，梯度法也容易绕进死胡同。EM 算法用一招看似朴素的拆解破解了这种困境：在隐变量的后验下"猜"一次（E 步），再把参数当成完全数据来"拟合"一次（M 步），交替进行。每一轮迭代都被数学保证不会让似然下降。本文从第一性原理推导 EM，借 Jensen 不等式证明其单调上升性，并把它落到最经典的应用——高斯混合模型（GMM）——上：K-means 的软化、椭球化版本。

机器学习数学推导（十二）：XGBoost 与 LightGBM

Sat, 31 Jan 2026 09:00:00 +0000

XGBoost 与 LightGBM 是当下表格数据领域最常用的两套库——Kaggle 榜单、风控流水线、广告排序、流失预测，背后多半都是它们。两者共享同一个骨架（梯度提升树，见第十一篇），但在工程取舍上走了完全不同的路：

机器学习数学推导（十一）：集成学习

Fri, 30 Jan 2026 09:00:00 +0000

为什么"三个臭皮匠顶个诸葛亮"在机器学习里几乎是字面意义上成立的？答案不浪漫，但精确：平均能压方差，串行重加权能压偏差，再加一点随机化打破相关性——否则前两件事都白干。本文把这条线索的数学推到底：从偏差-方差分解出发，到 Bagging/随机森林如何利用 Bootstrap，再到 AdaBoost 如何被解读为指数损失下的前向分步加性建模，最后是 GBDT 把所有这些抽象成函数空间里的梯度下降。

机器学习数学推导（十）：半朴素贝叶斯与贝叶斯网络

Thu, 29 Jan 2026 09:00:00 +0000

引子。 朴素贝叶斯假定特征在给定类别后两两独立——这是个非常方便的谎言，让我们能用一遍数据扫描就训出一个分类器，但几乎在所有 UCI 基准上，基于树结构和小型概率图的模型都能稳稳地把它再压一个百分点。这一篇沿着「依赖关系」的轴线从 0 走到 d：先看从「全独立」到「全联合」之间的三个甜蜜点——SPODE、TAN、AODE，再把这套因子分解的思路推到极致，就得到贝叶斯网络。

机器学习数学推导（九）：朴素贝叶斯

Wed, 28 Jan 2026 09:00:00 +0000

引子： 一个训练只需毫秒、特征量级可达百万、几乎没有超参数可调的垃圾邮件过滤器，却能在短文本任务上击败结构复杂得多的模型。朴素贝叶斯靠的就是一个看似离谱的假设——给定类别后所有特征都条件独立——并且毫不掩饰这一点。在几乎所有真实数据上这个假设都不成立，但分类器照样能用。要理解为什么，需要走一趟生成模型、MAP 估计、Dirichlet 先验和偏差-方差权衡的完整链路。本文就把这条路从头走一遍。

机器学习数学推导（八）：支持向量机

Tue, 27 Jan 2026 09:00:00 +0000

引子。 两团点，能把它们分开的直线有无穷多条，“哪一条最好”？SVM 给出的答案出奇地几何：站在两个类之间最宽的"无人走廊"正中央的那一条。把这一个想法塞进拉格朗日对偶里，会自动跑出三件礼物——稀疏的模型（只有走廊壁上的点重要）、有全局最优解的二次规划、以及核技巧（同一套线性机器可以在无限维空间里画出弯曲的边界）。

机器学习数学推导（七）：决策树

Mon, 26 Jan 2026 09:00:00 +0000

导言。 决策树模拟的是人做决定的方式：问一个问题、按答案分支、再问下一个问题。这种朴素的直觉背后藏着不少数学：信息论中的熵告诉我们应该先问哪个问题；基尼指数提供了一种几乎等价但更便宜的代替；代价复杂度剪枝则给出了一套有原则的方式来阻止树去记噪声。今天最强的一类表格学习器——XGBoost、LightGBM、CatBoost——本质上都是这套对象的巧妙组合，所以把基础打扎实，回报会反复显现。

机器学习数学推导（六）：逻辑回归与分类

Sun, 25 Jan 2026 09:00:00 +0000

开篇. 线性回归把输入映射成任意实数，但如果输出必须是 0 到 1 之间的概率呢？逻辑回归用一个优雅的小技巧解决了这件事：Sigmoid 压缩函数。它名字里带"回归"，骨子里却是分类算法——而且它的数学是现代神经网络中每一个神经元的原型。

机器学习数学推导（五）：线性回归

Sat, 24 Jan 2026 09:00:00 +0000

引子。 1886 年，Francis Galton 研究遗传时注意到一个怪现象：身高极端（很高或很矮）的父母，子女的身高总是比父母更靠近平均值。他把这种"向均值漂移"的现象叫做 regression——回归这个名字就是这么来的。一个统计学上的小观察，后来长成了机器学习里最具基础地位的模型。线性回归本身的预测能力其实很普通，它的真正价值在于：从逻辑回归、神经网络到核方法，几乎所有机器学习算法都是同一个思路的变奏——先找一个合适的空间，再在里面拟一条线。

机器学习数学推导（四）：凸优化理论

Fri, 23 Jan 2026 09:00:00 +0000

本章概览

1947 年，George Dantzig 提出了线性规划的单纯形法，现代优化理论从此正式登场。八十年过去，优化已经成为机器学习的发动机：你训练过的每一个模型——从一行代码的线性回归，到 700 亿参数的语言模型——本质上都是某个优化问题的解。

机器学习数学推导（三）：概率论与统计推断

Thu, 22 Jan 2026 09:00:00 +0000

本文要讲什么

1912 年，Ronald Fisher 在一篇短文中提出了最大似然估计（MLE），从此悄悄改写了统计学。他的洞察直白到令人有些不好意思：如果某组参数让我们恰好看到的数据出现得特别"自然"，那这组参数大概就是对的。从逻辑回归到大语言模型，几乎所有现代学习算法都是这个思路的后裔。

机器学习数学推导（二）：线性代数与矩阵论

Wed, 21 Jan 2026 09:00:00 +0000

这一章为什么写、和别处有什么不同

如果你上过一门标准的线性代数课，本文里的对象你大多见过。但本文不是那门课。 它是「机器学习视角下的线性代数」——梯度下降、PCA、神经网络训练、读论文时真正会反复用到的那六七个想法。

机器学习数学推导（一）：绪论与数学基础

Tue, 20 Jan 2026 09:00:00 +0000

本章要做的事

2005 年，Google Research 在公开机器翻译评测中表明：一个仅靠双语语料训练的统计模型，可以击败语言学家精雕细琢数十年的规则系统。结论令人不安，却也极具数学美感——一个从未被告知语法的系统，只要数据足够多，就能把语法 “推” 出来。为什么？

自然语言处理（十二）：前沿技术与实战应用

Tue, 25 Nov 2025 09:00:00 +0000

我们用了十一章，从原始文本一路爬到多模态基础模型。这第十二章既站在前沿，也站在跑道上：研究在这里不再是论文，而是一个服务——一个能调用工具、写代码并自我修复、做百步推理、吞下 20 万 token 合同、并以 p95 < 300 ms 的延迟支撑上千并发的 LLM。

自然语言处理（十一）：多模态大模型

Thu, 20 Nov 2025 09:00:00 +0000

人不会一次只用一种感官理解世界。我们一边看图表一边读文字，一边听语调一边读表情，一边看截图一边讨论代码 bug。纯文本语言模型对这一切是又聋又瞎的。多模态大语言模型（Multimodal LLM, MLLM） 试图弥补这个鸿沟：把图像、音频、视频对齐到与语言模型相同的表示空间里。

自然语言处理（十）：RAG与知识增强系统

Sat, 15 Nov 2025 09:00:00 +0000

被冻结知识的语言模型是个自信的撒谎者：它读不到昨天的故障报告、读不到公司 wiki、读不到今早刚合入的 patch notes，于是当你提问，它会给出一个语法完美但事实错误的答案。检索增强生成（RAG） 通过把"记忆"和"推理"分开来打破这个困局：让 LLM 保持小且稳定，把易变的知识放到一个可以随时更新的外部存储里，生成之前先把相关证据检索出来作为上下文。

自然语言处理（九）：大语言模型架构深度解析

Mon, 10 Nov 2025 09:00:00 +0000

2017 年的 Transformer 论文里画了一个 block。今天每一款生产级 LLM 还在沿用它的轮廓，但内部几乎每一个零件都换过：post-norm 换成了 pre-norm，LayerNorm 换成了 RMSNorm，GELU 换成了 SwiGLU，正弦位置换成了旋转位置（RoPE），多头注意力变成了分组查询注意力（GQA），稠密 FFN 在某些模型里被稀疏 MoE 替换。更重要的是，主导推理性能的那个数据结构——KV Cache——根本没出现在原论文里。

自然语言处理（八）：模型微调与PEFT

Wed, 05 Nov 2025 09:00:00 +0000

2020 年微调一个 70 亿参数的语言模型还得排预算：八张 A100、几天时间，再加一个会调梯度检查点的工程师。2024 年，研究生在笔记本上就能跑。中间这段距离，几乎完全由 Hu 等人 2022 年的 LoRA 论文，以及 Dettmers 等人 2023 年的 QLoRA 论文铺平。

自然语言处理（七）：提示工程与In-Context Learning

Fri, 31 Oct 2025 09:00:00 +0000

同一个模型，可以给出一针见血的分析，也能一本正经地胡说八道。区别几乎从不在权重，而在你怎么问。一句"分析一下这段文本"换来的多半是泛泛的总结；同样的请求加上一个角色、两条干净的示例和一段严格的输出 schema，得到的就是下游解析器能直接消费的 JSON。提示工程的意义，是把这种差距从"碰运气"变成可重复、可度量的工程实践。

自然语言处理（六）：GPT与生成式语言模型

Sun, 26 Oct 2025 09:00:00 +0000

当你向 ChatGPT 提一个问题，看到一段流畅的多段回答一个 token 接一个 token 流式涌出时，你目睹的其实是一个朴素到惊人的循环：把"目前为止的所有内容"喂给一个 Transformer 解码器，看它输出的词表概率分布，挑一个 token，拼到末尾，再循环。这就是自回归语言模型干的全部事情。神奇的不是这个循环，而是当你把循环背后的网络放大到几千亿参数、用半个互联网训练时，会发生什么。

自然语言处理（五）：BERT与预训练模型

Tue, 21 Oct 2025 09:00:00 +0000

2018 年 10 月，Google 发布 BERT，一口气在 11 个 NLP 基准上刷新了纪录。配方却出奇地简单：拿一个 Transformer 编码器，让它根据左右两侧的上下文去预测被随机遮盖的词；预训练完成之后，再把同一个模型针对各种下游任务做一次轻量的微调。在 BERT 之前，每个任务都要从头训练一个模型；在 BERT 之后，“先预训练，再微调"成了整个领域的默认思路。

学习率：从入门到大模型训练的终极指南

Sun, 19 Oct 2025 09:00:00 +0000

模型炸了，你把学习率减半。能跑了，但训练慢得令人发指。再减半，损失曲线变成一条直线。这种场景是不是很熟？在所有可调的超参数里，学习率（learning rate, LR）是最容易决定训练成败的那一个——它决定模型是收敛、龟速爬行，还是直接发散。

自然语言处理（四）：注意力机制与Transformer

Thu, 16 Oct 2025 09:00:00 +0000

2017 年 6 月，Google 的八位研究者发了一篇标题相当大胆的论文：Attention Is All You Need。论文里提出的 Transformer 架构干脆把循环结构整个扔掉了——没有 LSTM，没有 GRU，也不再从左到右一个一个地读句子。取而代之，序列里的每个 token 都可以通过一个数学操作直接看到其他所有 token：缩放点积注意力。

自然语言处理（三）：RNN与序列建模

Sat, 11 Oct 2025 09:00:00 +0000

打开翻译软件、用滑动键盘打字、对手机口述备忘——每一项功能背后，都需要一个模型按顺序消费一串 token，再产出另一串。前馈网络把每个输入当成孤立的样本，但语言天生就是有顺序的：要理解"猫坐在垫子上"里"垫子"的含义，你必须知道前面所有词的语境。循环神经网络（RNN）的解决方式是维护一个隐藏状态，每读一个 token 就更新一次。这个隐藏状态，就是网络对过去内容的"持续摘要"，也就是它的记忆。

自然语言处理（二）：词向量与语言模型

Mon, 06 Oct 2025 09:00:00 +0000

很长一段时间里，机器眼中的"国王"和"王后"只是词表里两个不同的编号，彼此之间不存在任何可计算的关系。直到一个想法改变了这一切：让每个词都住进一个连续的向量空间，让语义沿着方向自然浮现。一旦接受了这个想法，模型就能算出

自然语言处理（一）：NLP入门与文本预处理

Wed, 01 Oct 2025 09:00:00 +0000

每次你用通义千问问问题、让 GitHub Copilot 补全一行代码，或者打开 Google 翻译——你都在调用一套花了七十年才搭起来的技术栈。自然语言处理（NLP）研究的就是怎么让机器读、评分、改写和生成人类语言。有意思的是，现代这套体系底层很大一部分，仍然依赖于几十年前发明的那一小撮预处理工具。

强化学习（十二）：RLHF与大语言模型应用

Thu, 25 Sep 2025 09:00:00 +0000

GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写流畅的散文、补全代码、续写任何模式——但你直接问它一个问题，它会东拉西扯、用错误的理由拒绝、编造引用，或者直接生成一段有毒内容。两年半的时间没有花在更大的 Transformer 上，而是花在教模型怎么变得有用——而这件事，最终被证明是一个强化学习问题。

强化学习（十一）：层次化强化学习与元学习

Sat, 20 Sep 2025 09:00:00 +0000

普通强化学习把每个问题都当作一串"原子动作"在做：观察状态、选动作、拿奖励，循环往复。这种做法在短回合、稠密奖励的玩具任务上还能凑合，但一旦遇到人类觉得"轻而易举"的真实任务就立刻露怯。“做一顿早餐"显然不是一次决策，而是一棵子任务树——煮咖啡、煎蛋、烤面包、装盘上桌——每个分支本身就是一个小策略。层次化强化学习（HRL） 让智能体把宏动作（macro-action）当成一等公民，从而能在多个时间尺度上同时思考和行动。

AI Agent 完全指南：从理论到工业实践

Fri, 19 Sep 2025 09:00:00 +0000

聊天机器人是用来回答问题的，Agent 是用来把事情做完的。同样一个大模型放在背后，前者只会输出文字，后者会去搜索、写代码、调 API、查数据库，并且不断迭代直到任务完成。差别不在模型，差别在外层包了什么——一个能保留状态的循环、一组工具、一个能审视自己输出的批评者。

强化学习（十）：离线强化学习

Mon, 15 Sep 2025 09:00:00 +0000

到目前为止，我们学过的每一个 RL 算法都依赖同一个循环：行动—观察—更新。这个循环让 RL 能够工作，但也让它在很多场景里根本无法落地。自动驾驶不能靠真实撞车来学习路口的处理；医疗决策模型不能在病人身上跑随机策略；产线上的机器人没有几千次失败抓取可以浪费。

强化学习（九）：多智能体强化学习

Wed, 10 Sep 2025 09:00:00 +0000

单智能体 RL 有一个安静却影响深远的前提：环境是稳态的，转移核不会因为智能体在学习而改变。但只要有第二个学习者出现，这个前提立刻崩塌——每个智能体看到的环境动力学，会随同伴的更新而漂移；奖励在智能体之间彼此纠缠；联合动作空间随人数指数膨胀。这些都不是工程小麻烦，而是为什么多智能体 RL（MARL）需要自己的一整套算法、而不是简单地"并行跑 n 个 DQN"。

强化学习（八）：AlphaGo与蒙特卡洛树搜索

Fri, 05 Sep 2025 09:00:00 +0000

2016 年 3 月，AlphaGo 在首尔以 4–1 击败了围棋世界冠军李世石。这不只是一场体育新闻——它给"让机器在围棋上击败人类顶尖棋手"这个延续了 60 年的人工智能命题画上了句号，比绝大多数学界预测早了整整十年。围棋约有 $10^{170}$ 种合法局面，比可观测宇宙的原子总数还多，纯靠暴力搜索没有任何机会。AlphaGo 的胜利来自一个不一样的思路：让深度网络给出"哪些着法看起来不错"的直觉，再让蒙特卡洛树搜索（MCTS）来推演，去验证、修正这种直觉。

强化学习（七）：模仿学习与逆强化学习

Sun, 31 Aug 2025 09:00:00 +0000

之前章节里所有算法的前提，都是已经有一个奖励函数。但在工程实践中，写出那个奖励函数本身往往才是最难的一步。“像一个有经验的老司机一样开车”、“像一个裁缝一样把衬衫叠整齐”、“像一个资深编辑一样把这篇文档总结一下”——这类任务你能轻易演示，却很难一段话写清楚。

强化学习（六）：PPO与TRPO：信任域策略优化

Tue, 26 Aug 2025 09:00:00 +0000

策略梯度（参见第三篇）直接对策略本身求导，绕开了离散 argmax，能自然处理连续动作和随机策略。但它有一个致命缺陷——走错一步就可能毁掉整个策略，而且因为采样分布跟着策略一起变，回头几乎不可能。

强化学习（五）：Model-Based强化学习与世界模型

Thu, 21 Aug 2025 09:00:00 +0000

到目前为止介绍过的所有算法——DQN、REINFORCE、A2C、PPO、SAC——本质上都是 Model-Free 的：智能体把环境当成黑盒，扔动作、收奖励、更新策略，从来不去理解环境到底是怎么运作的。这条路走得通，但极其奢侈：DQN 在 Atari Pong 上要 1000 万帧才能精通，OpenAI Five 在 Dota 2 上自我对弈了相当于 45000 年的游戏时间，AlphaStar 也是按"年"来烧 StarCraft 的样本。

强化学习（四）：探索策略与好奇心驱动学习

Sat, 16 Aug 2025 09:00:00 +0000

把一个新出生的 Agent 丢进 Atari 游戏《蒙特祖玛的复仇》。要拿到游戏中的第一分，它必须向右走、跳过头骨、抓住绳子、再跳到台子上、最后捡起钥匙——大约 一百个连续动作不能错。在钥匙到手之前，环境给出的奖励一直是 0。

强化学习（三）：Policy Gradient与Actor-Critic方法

Mon, 11 Aug 2025 09:00:00 +0000

DQN 证明了深度强化学习能玩转 Atari，但它有一个硬上限：只能处理离散动作空间。让它去控制一只七自由度机械臂的关节角度，立刻就垮了——你得在每一步动作之前先解一个内层优化问题。

强化学习（二）：Q-Learning 与深度 Q 网络（DQN）

Wed, 06 Aug 2025 09:00:00 +0000

2013 年 12 月，DeepMind 一支不大的团队在 arXiv 上挂出了一篇短论文，里面有一个相当扎眼的结论：同一个神经网络，仅仅以原始像素和分数为输入，就学会了七款 Atari 游戏，并在其中六款上刷新了当时的最好成绩。没有针对游戏专门设计的特征，没有手写的启发式规则，Pong、Breakout、Space Invaders 共用同一套架构。这套算法叫深度 Q 网络（Deep Q-Network, DQN），它正式拉开了深度强化学习时代的序幕。

强化学习（一）：基础与核心概念

Fri, 01 Aug 2025 09:00:00 +0000

第一次坐上自行车的时候，没有人会塞给你一本说明书写着"如果倾角超过 7.4 度，请反向打方向 12%"。你只是不停地试：晃一下、过校一下、摔一跤、爬起来再试。试上几百次以后，身体就"自己知道"该怎么骑了，哪怕你说不出原因。

迁移学习（十二）：工业应用与最佳实践

Sun, 06 Jul 2025 09:00:00 +0000

这是整个系列的最后一篇。前面十一篇讲的是机制——预训练、微调、域适应、小样本与零样本、蒸馏、多任务、多模态、参数高效方法、持续学习、跨语言迁移。这一篇要谈的，是 notebook 关掉之后才开始的那部分工作：判断该不该用迁移学习，怎么把它嵌进一条真实的生产管线，以及怎么在六个月之后还能确认它仍然在正常工作。

近端算子：从 Moreau 包络到 ISTA/FISTA 与 ADMM

Sat, 05 Jul 2025 09:00:00 +0000

当目标函数带有不可导项（稀疏正则、TV 正则、指示函数）或约束难以直接处理时，“直接做梯度下降"常常会卡住：要么没有梯度，要么每一步都难以保证可行性。近端算子（proximal operator） 给出了一个工程化又漂亮的解决方式——把更新理解成"先按光滑部分走一步，再用一个带二次惩罚的最小化把解拉回到合理的结构上”。

迁移学习（十一）：跨语言迁移

Mon, 30 Jun 2025 09:00:00 +0000

英语有数据，但世界上有 7000 多种语言。跨语言迁移做的事情，就是让一个只在英文 IMDB 上训练过的情感分类器去看西班牙语推特，让一个在 SQuAD 上微调过的问答模型回答印地语问题，让一个从未见过任何斯瓦希里语标注的模型也能在斯瓦希里语命名实体识别上拿到能用的分数。

迁移学习（十）：持续学习

Tue, 24 Jun 2025 09:00:00 +0000

人去年学会了弹吉他，今天还能骑自行车。神经网络做不到。让一个视觉模型先在 CIFAR-10 上微调，再拿同一个模型去微调 SVHN，回过头测 CIFAR-10——准确率会跌到接近随机猜的水平。这就是灾难性遗忘（catastrophic forgetting）。如何让模型像人一样在源源不断到来的任务流 $\mathcal{T}_1, \mathcal{T}_2, \ldots$ 中持续吸收新知识，又不丢掉旧本事，正是**持续学习（continual learning，CL）**这个领域要回答的问题——而且要在"看不到过去数据"这个硬约束下回答。

迁移学习（九）：参数高效微调

Wed, 18 Jun 2025 09:00:00 +0000

GPT-3 有 1750 亿参数，全量微调一次要占 700 GB 显存，再加上梯度和优化器状态，单卡根本放不下；要为 100 个客户分别定制一份模型，光存储就 70 TB 起步。**参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）**给出的答案是：把预训练权重冻住，只训练一份不到 1% 的"增量"，单张消费级显卡就能微调几十亿乃至几百亿参数的模型，性能几乎不掉。

迁移学习（八）：多模态迁移

Thu, 12 Jun 2025 09:00:00 +0000

为什么模型从来没见过"缅甸猫"这个标签，却能正确识别一张缅甸猫的照片？传统监督学习需要每个类别有几千上万张标注样本，而 OpenAI 在 2021 年发布的 CLIP 完全绕开了这个限制：它把图像和自然语言描述压到同一个向量空间里，“分类"就退化成"哪句话离这张图最近”——而那些"句子"是你临时写的，不是模型训练时见过的。

迁移学习（七）：零样本学习

Fri, 06 Jun 2025 09:00:00 +0000

你这辈子没见过斑马。但我告诉你它"长得像马，身上画了黑白条纹"，下次走进动物园你一眼就能认出来。没标注样本、没有微调，只有一座语义桥梁把你已知的概念（马、条纹）和未知的物种连了起来。

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

Tue, 03 Jun 2025 09:00:00 +0000

第一次手动算 Self-Attention，多数人都会被一件事吓一跳：它完全不在乎输入顺序。把 token 重新排一下，每个注意力分数也跟着排，函数本身严格满足置换等变。所以在让 Transformer 干任何"正经事"之前，必须从外部把"位置"信息塞进去。

迁移学习（六）：多任务学习

Sat, 31 May 2025 09:00:00 +0000

一辆自动驾驶汽车透过同一个摄像头要同时干三件事：检测车辆和行人、分割车道和可行驶区域、估计每个像素的距离。你完全可以训练三个独立的网络。代价是参数量乘以三、推理时多跑两次前向、并且白白浪费一个最显然的事实——这三个任务都需要同样的底层特征（边缘、表面、遮挡线索）。

迁移学习（五）：知识蒸馏

Sun, 25 May 2025 09:00:00 +0000

你训练了一个 340M 参数的 BERT，准确率 95%。产品需求是把它塞进一台手机，而手机最多能跑 10M 参数。你从头训一个 10M 的小模型，只能到 85%。这时候，知识蒸馏几乎能补上全部差距：让小模型学习大模型的输出分布，而不只是学习硬标签，最终能跑到 92%。

迁移学习（四）：小样本学习

Mon, 19 May 2025 09:00:00 +0000

给一个孩子看一张穿山甲的照片，他这辈子都能认出穿山甲。给深度学习模型看一张，它给你的回答和瞎猜没什么两样。小样本学习（Few-Shot Learning） 要做的，就是把这条鸿沟填上——让分类器在每类只有 1 到 10 个标注样本的情况下也能工作。

迁移学习（三）：域适应

Tue, 13 May 2025 09:00:00 +0000

你的自动驾驶模型在加州的晴天里跑得无懈可击。然后一进西雅图就开始下雨，Top-1 准确率从 95% 跌到 70%。模型本身没有变差——是数据分布变了，而你的训练集从未告诉它"傍晚的湿沥青"长什么样子。

迁移学习（二）：预训练与微调

Wed, 07 May 2025 09:00:00 +0000

2018 年 BERT 横空出世，几乎一夜之间改写了 NLP 的游戏规则：在 Wikipedia 和 BookCorpus 上预训练好的模型，只用几千条标注样本微调，就能击败那些被研究者打磨多年的任务专用架构。同样的剧情后来在视觉（ImageNet 预训练、SimCLR、MAE）、语音（wav2vec 2.0）、代码（Codex）领域反复上演。今天，“预训练一次、到处微调"已经是现代深度学习的默认配方。

迁移学习（一）：基础与核心概念

Thu, 01 May 2025 09:00:00 +0000

你刚刚花了两周时间，在一整柜 GPU 上训练出一个 ImageNet 分类器。周一早上，老板让你做一个胸片肺炎识别模型——而手里全部的标注数据只有 200 张。难道再排两周机器，从零再训一遍？

前沿应用与总结 -- 量子计算、GNN、大模型，与十八章回望

Wed, 30 Apr 2025 09:00:00 +0000

我们一起走完了线性代数的漫长旅程。从平面上的箭头出发，最后走到了量子计算机的逻辑门、大语言模型的内部结构和数据云的拓扑形状。这一路最值得记住的事情——也是这套书一直想让你看到的——就是同样一小撮思想在反复出现：向量是状态，矩阵是变换，分解是变换内部的结构，范数告诉你什么时候可以信任你的计算。一旦把这套循环内化下来，再看那些"前沿"，它们就不再像异国他乡，而更像是你已经会说的语言里的另一种方言。

计算机视觉中的线性代数 -- 从像素到三维重建

Wed, 23 Apr 2025 09:00:00 +0000

计算机视觉的核心任务是让机器"看懂"图像。让人惊讶的是，整个学科几乎都建立在线性代数之上：图像本身就是矩阵，几何变换是矩阵乘法，相机成像是一个 $3 \times 4$ 的投影矩阵，两视图几何浓缩成一句 $\mathbf{x}_2^\top \mathbf{F}\,\mathbf{x}_1 = 0$，三维重建则是稀疏线性最小二乘问题。换上这副眼镜再去看 CV，你会发现原本五花八门的算法不过是同一套线性代数工具的不同用法。

深度学习中的线性代数 -- 从全连接到 Transformer

Wed, 16 Apr 2025 09:00:00 +0000

把所有营销话术都剥掉，深度学习就剩一件事：一长串矩阵乘法，中间夹一些逐元素的非线性。前向传播、反向传播、卷积、注意力、归一化、参数高效微调——每一个"花招"都不过是同一套代数主题的小变奏。一旦你能直接看见这些矩阵，整个领域就会从一袋零散食谱变成一种统一语言。

机器学习中的线性代数 -- 从 PCA 到推荐系统

Wed, 09 Apr 2025 09:00:00 +0000

如果你问一位资深机器学习工程师"日常用得最多的数学是什么"，答案几乎一定是线性代数。微积分用于推导，概率用于建模，但 ML 系统在运行时绝大部分时间都耗在矩阵乘法、矩阵分解和投影上。PyTorch 的 Linear、scikit-learn 的 PCA、Spark MLlib 的 ALS、Transformer 的注意力头，本质上都是同一个线性代数原语在不同场景下的化身。

随机矩阵理论 -- 混沌中的秩序

Wed, 02 Apr 2025 09:00:00 +0000

把一百万个独立高斯数排成一个 $1000 \times 1000$ 的对称矩阵，算它的特征值；这些特征值居然会铺成一条完美的半圆。一个本应是单位阵的样本协方差，特征值偏偏会摊到一段你能预先算出宽度的区间上。一个 Wigner 矩阵的最大特征值，其涨落分布既出现在重核能级里，也出现在生长晶体的高度涨落、随机置换最长上升子序列长度的分布里——这就是 Tracy-Widom 律。随机矩阵理论（Random Matrix Theory，RMT）研究的就是这一类"混沌中的秩序"为什么会出现，以及怎么把它们用起来。

张量与多线性代数 -- 从标量到高维数据立方体

Wed, 26 Mar 2025 09:00:00 +0000

如果你写过深度学习代码，“张量"这个词早已熟到不能再熟 —— PyTorch 里所有数组都叫 torch.Tensor，TensorFlow 干脆把它写进了产品名字。可张量到底是什么？为什么深度学习框架要借这个听起来像物理学的术语？

稀疏矩阵与压缩感知 -- 少即是多的数学奇迹

Wed, 19 Mar 2025 09:00:00 +0000

「少即是多」的奇迹

一张 24 兆像素的原始照片大约 70 MB，JPEG 压到几百 KB——压缩比上百倍——你看不出区别。传统 MRI 扫描要 30 分钟；现在的压缩感知 MRI 只要 5 分钟，图像质量一样。

矩阵微积分与优化 -- 从梯度到反向传播

Wed, 12 Mar 2025 09:00:00 +0000

从淋浴龙头讲起

每天早上你都在训练一个微型神经网络。水太凉，于是你拧一下旋钮——一个参数；过一秒钟你感受到新的水温——误差信号；再拧一下。三四次之后你就收敛了。

矩阵范数与条件数 -- 数值计算的健康体检

Wed, 05 Mar 2025 09:00:00 +0000

困扰工程师的那个问题

方程列对了，算法也写对了，为什么算出来的结果完全不对？

罪魁祸首往往是一个叫做条件数的量。它衡量一个线性系统有多"敏感"——输入端一点点抖动，会不会被放大成输出端的灾难。要谈条件数，得先有办法度量向量和矩阵的"大小"，这就是范数要做的事。

奇异值分解 SVD

Wed, 26 Feb 2025 09:00:00 +0000

一、为什么 SVD 配得上"皇冠"二字

第 8 章的谱定理告诉我们 $A = Q\Lambda Q^{\!\top}$，干净漂亮，但有一个硬性前提：$A$ 必须对称。现实里大多数矩阵既不对称，甚至不是方阵：

对称矩阵与二次型

Wed, 19 Feb 2025 09:00:00 +0000

为什么对称矩阵是"最好的矩阵"

如果让线性代数家选出"最听话的矩阵"，结果几乎一定是对称矩阵。它们具备三件好事：

特征值全是实数；
存在一组完全正交的特征向量；
一定可以完美对角化 $A = Q \Lambda Q^T$，逆矩阵和幂运算都几乎不要钱。

这并不是抽象的偏爱。日常工程里你真正会去算的矩阵，绝大多数本来就是对称的：

正交性与投影 -- 当向量互不干扰

Wed, 12 Feb 2025 09:00:00 +0000

为什么正交性如此重要

两个向量"正交"，说的是它们彼此互不干扰：一个方向上的信息不会泄漏到另一个方向。这一句简单的话背后，藏着 GPS 定位、降噪耳机、JPEG 压缩、推荐系统，以及绝大多数数值线性代数。

特征值与特征向量

Wed, 05 Feb 2025 09:00:00 +0000

一个核心问题

把一个矩阵作用到一个向量上，几乎什么事都可能发生。绝大多数向量会被同时旋转和拉伸，落到一个全新的方向。但在它们之中，总有少数特殊的向量，无论怎么作用都不肯离开自己所在的那条线——它们出来的方向和进去时一模一样，只是被拉长、缩短，或者翻了个面。

线性方程组与列空间

Wed, 29 Jan 2025 09:00:00 +0000

一个贯穿一切的核心问题

应用数学几乎所有的问题，绕到最后都会回到同一个问题上：

给定矩阵 $A$ 和向量 $\vec{b}$，方程 $A\vec{x}=\vec{b}$ 有没有解？如果有，有多少个？

机械的答案是"消元、看结果"。但结构性的答案才真正有趣，也是本章的目标。三个几何对象就足以回答一切：

行列式的秘密

Wed, 22 Jan 2025 09:00:00 +0000

跳出公式：行列式到底是什么

大多数教材是这么引入行列式的：

$$\det\begin{pmatrix}a & b\\ c & d\end{pmatrix} = ad - bc.$$

记住公式、套数字、算结果——课程到此结束。但这把行列式最重要的那一面藏起来了。

一句话点破：

矩阵作为线性变换

Wed, 15 Jan 2025 09:00:00 +0000

一切从一句话开始

打开任何一本传统教材，矩阵都会被介绍成"一张排成矩形的数字表格"。你被告知要怎么相加、相乘、求逆，却从来没有人解释为什么乘法规则要写成那样，为什么 $AB$ 一般不等于 $BA$。

线性组合与向量空间

Wed, 08 Jan 2025 09:00:00 +0000

写在前面：为什么这一章很重要

打开一盒只有红、绿、蓝三种颜色的彩笔，你能画出多少种颜色？答案是无穷多种——你在屏幕上看见的每一种颜色，本质上都是这三支笔按不同比例混合的结果。三个"原料"，撑起整个色彩宇宙。

向量的本质 -- 不仅仅是箭头

Wed, 01 Jan 2025 09:00:00 +0000

为什么要学向量？

物理学家说"力"，数据科学家说"特征"，游戏程序员说"速度"，量子物理学家说"态"——表面看是四个不同的世界、四种不同的语言，背后其实是同一个数学对象：向量。

核方法：从理论到实战 (RKHS、常见核函数与超参数调优)

Fri, 27 Dec 2024 09:00:00 +0000

你手上是非线性数据，工具箱里却只有线性算法。核技巧（kernel trick）让你把这套线性算法直接用在非线性数据上——而且全程不需要把高维特征映射写出来。这篇文章先讲直觉，再补数学，最后给一套能直接搬到生产里的工具箱。

时间序列模型（八）：Informer -- 高效长序列预测

Sun, 15 Dec 2024 09:00:00 +0000

Transformer 做序列建模非常好用——直到序列变长。原始自注意力的算力和显存都是 $\mathcal{O}(L^2)$，所以一周小时级窗口（168 步）还行，一个月窗口（720 步）就开始痛苦，三个月窗口（2160 步）在单张 GPU 上基本不可能。而真实的长 horizon 预测——气象、能源、金融、IoT——恰好都在这个区间。

时间序列模型（七）：N-BEATS -- 可解释的深度架构

Sat, 30 Nov 2024 09:00:00 +0000

2018 年 M4 预测竞赛把 100,000 条覆盖六种频率的序列摆到一个统一榜单上。占据榜单前几位的是几十年统计预测手艺打磨出来的精调集成。然后一个纯神经网络——没有统计预处理、没有特征工程、没有递归——直接拿了第一名。这个网络就是 Oreshkin 等人的 N-BEATS：若干全连接块沿着两条残差路径堆叠在一起。它的可解释版本还把预测拆成多项式趋势和 Fourier 季节性，连统计学家最在意的"可读分解"也免费送了。

时间序列模型（六）：时序卷积网络 (TCN)

Fri, 15 Nov 2024 09:00:00 +0000

整个 2010 年代，“用深度学习做时间序列"基本上等价于"上 LSTM”。这件事在 2018 年被 Bai、Kolter、Koltun 的 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 改变。结论简单到令人有些不爽：把若干个 1D 卷积叠起来，让它们都是因果的（不偷看��来��，让卷积核的步距按指数膨胀（dilation），整个块外面套一层残差连接，然后训练。在一个又一个任务上，这个时序卷积网络（TCN）的表现都和 LSTM/GRU 持平甚至更好——而且训练快好几倍，因为它的前向传播在每一个时间步上都是并行的。

时间序列模型（五）：时间序列的 Transformer 架构

Thu, 31 Oct 2024 09:00:00 +0000

本章要点

把完整的 encoder-decoder Transformer 拆给时间序列重新讲一遍
为什么必须注入位置信息，正弦 / 学习式 / 时间感知三种编码的差异
多头注意力在时间序列上到底学到了什么
朴素 attention 在哪儿撞墙（O(n²)），以及四类解决方案：稀疏 / 线性 / Patching / Decoder-only
一份干净的 PyTorch 参考实现，附 Autoformer / FEDformer / Informer / PatchTST 的选型建议

前置知识

自注意力与多头注意力（第 4 篇）
编码器-解码器结构与 teacher forcing
PyTorch 基础（nn.Module、训练循环）

1. 为什么时间序列要用 Transformer

LSTM / GRU 一步一步地处理序列，由此带来三个问题：

时间序列模型（四）：Attention 机制 -- 直接的长程依赖

Wed, 16 Oct 2024 09:00:00 +0000

本章要点

循环网络在长程依赖上为什么吃亏，注意力如何一击破解。
Query / Key / Value 机制、Scaled dot-product 公式，以及为什么必须除以 $\sqrt{d_k}$。
两种经典打分函数：Bahdanau（加性）和 Luong（乘性）。
如何把 Attention 接到 LSTM 编码器/解码器 上做时间序列预测。
多头注意力在时序场景下的"四种典型分工"：近期、长程、周期、异常。
$O(n^2)$ 显存墙，以及稀疏 / 线性注意力如何绕过去。
一个完整的 股价预测案例，并用注意力权重叠加图解释模型决策。

前置：RNN/LSTM/GRU 的基本概念（第 2-3 部分）、线性代数、PyTorch 基本操作。

Integrating Large Language Models with Graphical Session-Based Recommendation

Sun, 13 Oct 2024 09:00:00 +0000

会话推荐（Session-based Recommendation, SBR）本质上是一个"短历史"问题：你只看到用户在一次会话里很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点不在概念，而在工程现实——会话短、长尾多、冷启动多，纯靠交互图（ID + 转移边）经常学不稳：新物品几乎没有边，长尾物品的边稀疏且不可靠，再叠加一层用户随手点击的噪声。

时间序列模型（三）：GRU -- 轻量门控与效率权衡

Tue, 01 Oct 2024 09:00:00 +0000

本章要点

GRU 的更新门 $z_t$ 和重置门 $r_t$ 如何用更少的门、更少的状态实现 LSTM 级别的记忆能力。
为什么 GRU 比 LSTM 正好少 25% 参数，这在工程上意味着什么。
怎么读 GRU 的门激活，把它当作训练诊断工具。
一份实用的 GRU vs LSTM 决策矩阵，附参数、速度、预测质量的基准对比。
一份干净、生产级的 PyTorch 参考实现，包含真正影响稳定性的初始化与正则化技巧。

前置知识

第二篇 LSTM 中的三门机制。
基本 PyTorch（nn.Module、autograd、optimizer）。
知道 vanilla RNN 因为梯度反复经过 tanh 非线性而出现梯度消失。

图 1. GRU 单元。两个门（r、z）+ 一个状态（h），替代 LSTM 的三个门 + 独立细胞状态。橙色的 (1 - z) ⊙ h_{t-1} 跳跃路径就是让长程依赖可学的线性梯度高速公路。

时间序列模型（二）：LSTM -- 门控机制与长期依赖

Mon, 16 Sep 2024 09:00:00 +0000

本章要点

为什么普通 RNN 在长序列上失败，LSTM 如何修复梯度问题
每个门（遗忘门、输入门、输出门）的直觉与"细胞状态高速公路"
如何为单步与多步时间序列预测构建 LSTM 的输入/输出
实战配方：正则化、回望长度选择、双向 vs 堆叠 LSTM、LSTM vs GRU 的取舍

前置知识

神经网络基础（前向传播、反向传播）
熟悉 PyTorch（nn.Module、张量、优化器）
本系列第一部分（推荐但非必需）

1. LSTM 要解决的问题

$$h_t = \tanh(W_h h_{t-1} + W_x x_t + b).$$$$\frac{\partial h_T}{\partial h_k} = \prod_{t=k+1}^{T} \mathrm{diag}\!\left(1 - h_t^2\right) W_h.$$

两种坏情况都会发生：

时间序列模型（一）：传统统计模型

Sun, 01 Sep 2024 09:00:00 +0000

下一篇：LSTM 深度解析 –>

本章要点

平稳性为什么是整个 ARIMA 家族的入场券，差分如何换来它。
像 Box-Jenkins 学派那样阅读 ACF / PACF：用 “截尾 vs 拖尾” 这条规则识别 $p$ 与 $q$。
ARIMA / SARIMA 的完整机器，以及季节性如何通过滞后 $s$ 算子被纳入模型。
VAR、GARCH、指数平滑、Prophet 与卡尔曼滤波如何被装进同一张地图：均值动态 vs. 方差动态 vs. 状态空间递推。
一条决策规则：什么时候传统模型就够了，什么时候必须升级到本系列后面的深度模型。

前置知识

基本的概率与统计（均值、方差、协方差、相关系数）。
熟悉 NumPy 和 pandas 的时间索引。
VAR / 卡尔曼小节会用到一点线性代数（矩阵乘法、特征值）。

1. 为什么传统模型仍然重要

在深度学习时代之前，时间序列工具箱已经相当完备。ARIMA 抓线性自相关，SARIMA 把日历效应补上，VAR 推广到多元，GARCH 描述方差动态，卡尔曼滤波则在状态空间框架下统一了上面所有人。它们共享三条深度模型并不免费提供的优点：

PDE与机器学习（八）：反应扩散系统与GNN

Wed, 14 Aug 2024 09:00:00 +0000

本文你会学到

把 32 层 GCN 堆在一张引文网络上，准确率从 81% 跌到 20%，每个节点的特征向量都收敛到同一个点。这就是过度平滑——GNN 版本的"热寂"，而病因来自 PDE 教科书的第一章：一层 GCN 就是图上热方程的一步显式 Euler，热方程只有一个不动点：常数。解药 1952 年就有了。Alan Turing 证明，给一个扩散方程加上一个反应项，原本均匀的稳态可以自发地长出条纹、斑点、迷宫——同样的把戏（一个学得到的反应项）也能让深层 GNN 活下来。

PDE与机器学习（七）：扩散模型与Score Matching

Tue, 30 Jul 2024 09:00:00 +0000

本文你会学到

2020 年以来，扩散模型（Diffusion Models）已经成为生成式 AI 的主流：DALL·E 2、Stable Diffusion、Sora 都是它的变种。在它惊人的工程效果背后，是一套异常清爽的数学结构——扩散模型本质上就是偏微分方程（PDE）的数值求解器：

辛几何与结构保持神经网络：让模型学会守恒

Thu, 18 Jul 2024 09:00:00 +0000

随手训练一个普通 MLP 去拟合一维谐振子的运动。验证集上误差很小，前十步看着也对。然后让它一口气往后推一千步——轨道不再闭合，能量缓慢漂移，本该周期运动的系统变成了一条慢慢张开的螺旋。网络学到了"数据点之间的插值"，没学到"物理"。结构保持网络（structure-preserving NN）的做法，是把守恒律——能量守恒、辛 2-形式、欧拉-拉格朗日方程——直接编码进架构里，使得模型从数学结构上就不可能违反这些约束，无论积分多长时间。

PDE与机器学习（六）：连续归一化流与Neural ODE

Mon, 15 Jul 2024 09:00:00 +0000

这一篇要讲什么

生成建模的本质问题非常几何：如何把一个简单分布（高斯）变成一个复杂分布（人脸、分子、动作）？ 离散归一化流一层一层堆可逆变换，但每层要算 Jacobian 行列式，代价 $O(d^3)$。Neural ODE 把"离散深度"换成连续 ODE；连续归一化流（CNF） 借用瞬时变量替换公式，把密度计算降到 $O(d)$；Flow Matching 进一步去掉散度积分，把训练变成对目标速度场的回归。

矩阵低秩近似与伪逆：从 SVD 到正则化

Mon, 15 Jul 2024 09:00:00 +0000

真实数据里的矩阵几乎从不"方+满秩"：特征相关、样本不足、噪声放大病态——求逆这件事要么不存在，要么不稳定。伪逆（Moore-Penrose inverse）把"逆"的直觉延续下去：它不要求方程组有精确解，而是把"解"重新定义为最小二乘解（多解时再选最小范数那一个）。本文从最小二乘视角给出伪逆的定义与四条 Penrose 条件，再用 SVD 把它的计算与低秩近似绑在一起，最后看截断奇异值如何让解更稳、什么时候必须正则化、以及这些结论在 PCA、推荐系统、LoRA 中如何落地。

PDE与机器学习（五）：辛几何与保结构网络

Sun, 30 Jun 2024 09:00:00 +0000

这篇文章讲什么

用普通神经网络去拟合单摆的轨迹，训练误差可以做得很小，但只要把它往前积分几十秒，预测的摆要么慢慢停下来，要么一路加速冲到逃逸速度——能量本应严格守恒，可网络根本不知道"能量"为何物。问题不在数据、不在优化器、也不在网络深度。问题在架构：一个无约束的 MLP 可以表示任何向量场，包括违反物理的那些；向量场里只要存在一点点系统性偏差，长时间积分就会把它放大成宏观尺度上的能量漂移。

PDE与机器学习（四）：变分推断与Fokker-Planck方程

Sat, 15 Jun 2024 09:00:00 +0000

本文的七个维度

动机：为什么 VI 与 MCMC 看似不同，却在解同一个 PDE。
理论：从随机微分方程严格推导 Fokker-Planck 方程。
几何：KL 散度作为 Wasserstein 空间中的梯度流。
算法：Langevin Monte Carlo、平均场 VI、SVGD。
收敛：对数 Sobolev 不等式与指数收敛速率。
数值实验：7 张可复现图，附完整脚本。
应用：用 Langevin 采样近似贝叶斯神经网络后验。

你将学到

任意 Itô SDE 的概率密度满足 Fokker-Planck 方程。
Langevin 动力学作为采样算法的实用性，及其离散化误差。
在 Wasserstein 空间中最小化 $\mathrm{KL}(q\|p^\star)$ 本身就是 Fokker-Planck PDE。
变分推断与 Langevin MCMC 在连续时间下完全等价。
Stein 变分梯度下降（SVGD）：用确定性粒子求解变分推断。
用上述工具做贝叶斯神经网络的后验推断。

前置知识

概率论（贝叶斯定理、KL 散度、期望）。
第 3 篇的 Wasserstein 梯度流。
一点点随机分析直觉（布朗运动、Itô 积分）。
Python / PyTorch 用于实验。

1. 推断问题

贝叶斯推断要求后验

变分自编码器 (VAE)：从直觉到实现与调试

Wed, 05 Jun 2024 09:00:00 +0000

普通自编码器只能压缩与重建，变分自编码器（VAE）则要有用得多——它学到的是一个平滑、有结构的潜在空间，你可以从里面采样，凭空生成新的数据。把编码器从"输出一个向量"改成"输出一个分布"，仅这一步，模型就从一个花哨的压缩器升级成了带可优化似然下界的生成模型。

PDE与机器学习（三）：变分原理与优化

Fri, 31 May 2024 09:00:00 +0000

当你训练一个神经网络时，你在做什么？调整几百万个参数？在高维空间中寻找最优点？这些描述都对，但都不够深刻。

换个视角：把神经网络看成一个粒子系统。每个神经元是一个粒子，训练过程是粒子在参数空间中的集体运动。当网络非常宽（成千上万个神经元）时，单个粒子的行为不重要，重要的是粒子的密度分布如何演化——就像研究气体时不跟踪每个分子，而是研究压强和温度。

PDE与机器学习（二）：神经算子理论

Thu, 16 May 2024 09:00:00 +0000

经典 PDE 求解器——有限差分、有限元、谱方法——本质上是一个函数：喂给它一组初始条件和参数，吐回一组解。PINN 不过是把同一个函数披上了神经网络的外衣：每换一个初始条件，就要重新训练。机翼上的来流速度变了，或者预报里某个传感器读数挪了一格，时钟就得重新归零。

多模态大模型与下游任务研究

Sun, 05 May 2024 09:00:00 +0000

把图像、视频、音频塞进语言模型，让它能"看"能"听"能推理 —— 这件事在 2021 年 CLIP 横空出世之前还是研究奇观，今天已经是产品标配。但真要把多模态大模型（Multimodal LLM, MLLM）做到生产可用，难点几乎从来不在"视觉编码器够不够强"，而在四件容易被低估的事：

PDE与机器学习（一）：物理信息神经网络

Wed, 01 May 2024 09:00:00 +0000

本系列第一章 · 阅读用时约 35 分钟。 这一章是整个系列的"地基"——后面七章谈到的神经算子、变分原理、Score Matching，本质上都在重复同一个问题：怎样让神经网络的优化目标编码进物理或数学约束？ 把 PINN 啃透，后面就只剩"换一个约束"。

LAMP 与阿里云服务器详解

Sat, 27 Apr 2024 09:00:00 +0000

刚买的一台阿里云 ECS，从「能 SSH 登录」到「公网能稳定访问、跑得动一个站点」之间，最容易卡的其实就三件事：

网络通不通——包可能在云厂商的安全组、操作系统防火墙、监听端口三个地方被悄悄丢掉，你看到的现象只有一个：浏览器一直转圈。
服务串不起来——Apache、PHP、MySQL 是三个独立的进程，靠文件后缀、Unix socket、TCP 端口互相找到对方，每个接口都有自己的坑。
身份和权限不匹配——Apache 跑在 www-data 用户下，MySQL 跑在 mysql 用户下，wget 下来的文件却归 root 所有。组合错了就是 403、Access denied，最后被逼到 chmod 777。

这篇文章就按你第一天会撞到的顺序把上面三件事讲透，再继续把第三十天才会遇到的问题——HTTPS、虚拟主机、备份、源码编译、什么时候该把单机拆成多机——一起讲完。目标是你照着做能跑起来，并且过半年回头看不会觉得自己当时埋了一堆雷。

Prefix-Tuning：为生成任务优化连续提示

Sat, 20 Apr 2024 09:00:00 +0000

把 GPT-2 微调到一个具体任务上，意味着要再多存一份 1.5B 参数的权重。换十几个任务，存储和上线成本就能直接劝退一个团队，更别提"一份基模 + 多任务共享"这种工程上很想要的架构。Prefix-Tuning（Li & Liang, 2021）走了一条相反的路：模型权重一个不动，只学一小段连续向量——也就是论文里所说的"前缀"——在每一层注意力里被当作"已经在那里的上下文"喂进去。模型本身没变，换一段前缀就等于换了一种"任务人格"。

常微分方程（十八）：前沿专题与系列总结

Mon, 15 Apr 2024 09:00:00 +0000

旅程到此结束。 18 章前我们捡起一枚下落的苹果，今天我们将以同样的精神收尾——把 ODE 看作 变化的通用语言——但站在了一座更高的山上。

本章做三件事。第一，巡视四个正在重塑动力系统建模方式的前沿方向：Neural ODE、时滞微分方程、随机微分方程、分数阶微积分。第二，用方法选择流程图和章节地图把全系列做一次回顾。第三，把你刚刚掌握的经典理论与现代机器学习显式连接起来——那是 ODE 在 2025 年最活跃的舞台。

常微分方程（十七）：物理与工程应用

Fri, 29 Mar 2024 09:00:00 +0000

微分方程不是纯数学游戏——它是理解物理世界的语言。 从天体运动到电路响应，从荡来荡去的单摆到桥缆背后的旋涡脱落，所有动力系统都在"讲" ODE。

常微分方程（十六）：控制理论基础

Tue, 12 Mar 2024 09:00:00 +0000

当你开车时不断根据车道位置纠正方向；恒温器对比室温和设定值后调节加热器；火箭通过摆动喷管让箭体保持垂直。 把硬件全部抽掉，剩下的是同一个想法：测量、比较、动作。控制理论就是研究这个闭环的数学，而它的母语正是常微分方程。

常微分方程（十五）：种群动力学

Sat, 24 Feb 2024 09:00:00 +0000

为什么猞猁与雪兔的数量呈现 10 年周期的精确波动？ 为什么引入一个外来物种有时会导致整个生态系统崩溃？为什么相似的竞争者有时共存、有时互相驱赶到灭绝？答案不在物种里，而在描述物种关系的方程里。本章梳理数学生态学的经典模型：从单种群 Logistic 与 Allee 效应，到二种群竞争，到捕食-被捕食振荡，再到年龄结构与空间扩散。

常微分方程（十四）：传染病模型与流行病学

Wed, 07 Feb 2024 09:00:00 +0000

2020 年初，全世界都在盯着一组三方程的常微分方程做政策决策。 “拉平曲线” 不是口号，而是一个具体方程的直觉；“群体免疫阈值” 不是猜想，而是一行式子推出来的 $1 - 1/R_0$。Kermack 与 McKendrick 在 1927 年写下的 SIR 模型，最终精确到能驱动万亿级别的决策。

重参数化技巧与 Gumbel-Softmax 详解

Mon, 22 Jan 2024 09:00:00 +0000

一旦模型里出现"采样"，训练立刻就会撞上一个硬问题：梯度怎么穿过随机节点？

重参数化（reparameterization）给出的答案非常直接——把 $z\sim p_\theta(z)$ 改写成 $z=g_\theta(\epsilon)$，把随机性隔离到与参数无关的噪声 $\epsilon$ 里，于是反向传播可以顺着 $g_\theta$ 走下去。麻烦在于离散变量：$\arg\max$ 一类操作不可导，梯度会断掉。Gumbel-Softmax（也叫 Concrete 分布）用"带温度的 softmax + Gumbel 噪声"把离散采样变成可微近似，让你在保留离散结构的同时仍能端到端训练。

常微分方程（十三）：偏微分方程引论

Sun, 21 Jan 2024 09:00:00 +0000

当一个量依赖于不止一个自变量，整个 ODE 世界就分裂为一个远更丰富的世界：偏微分方程（PDE）。 金属棒里的温度同时是位置和时间的函数；振动的弦在空间与时间两个维度中演化；静电势驻留在三维空间中。ODE 的所有技术此时变成"工具"而不是"答案"——分离变量法把一个 PDE 拆成一族 ODE，那族 ODE 的本征值就是算子的谱，叠加原理再把一切重新缝合。

常微分方程（十二）：边值问题

Thu, 04 Jan 2024 09:00:00 +0000

初值问题给你一个起始状态，让你向前推进；边值问题在两个不同的点上各给你一部分信息，要求你找出两端都吻合的解。措辞改动微小，后果巨大：边值问题可能有唯一解，也可能完全无解，或者有无穷多解。它们要求一套截然不同的工具——迭代的、全局的、与线性代数深度交织的。

Graph Contextualized Self-Attention Network for Session-based Recommendation

Fri, 22 Dec 2023 09:00:00 +0000

会话推荐里你能看到的就那么一小段匿名点击序列：没有用户画像、没有历史长期偏好、没有人口统计。所有信号都封装在这几次点击里。GC-SAN（IJCAI 2019）的思路很务实：把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构，Transformer 的自注意力捕捉长距离意图，最后用一个标量权重把"当前点击"和"全局意图"线性融合。它本身不发明新机制，但作为一个 baseline，至今仍然不容易被同等参数量级的模型超过。

LLM 工作流与应用架构：企业级实战指南

Fri, 22 Dec 2023 09:00:00 +0000

绝大多数 LLM 教程，恰恰在真正有意思的工作开始之前就结束了。它们告诉你怎么调用 chat completion 接口，怎么挂一个向量库，怎么用 Streamlit 包成一个 demo——这些都没错，但都不是凌晨三点一万人涌入、每隔一条回答就出现幻觉时让你头疼的那部分。

常微分方程（十一）：数值方法

Mon, 18 Dec 2023 09:00:00 +0000

科学与工程中几乎所有有意思的微分方程都拒绝给出解析解：非线性向量场、变系数、上万个耦合状态变量——纸笔早在问题本身屈服之前就已经放弃。数值积分是穿过这道墙的方式。本章构建、评估、对比那一小套基本能解决你会遇到的所有 ODE 的算法，并给出判断积分器是否在欺骗你的诊断手段。

常微分方程（十）：分岔理论

Fri, 01 Dec 2023 09:00:00 +0000

湖泊清澈了几十年，却在一个夏天突然变浑。电网平稳运行，几秒之内级联崩溃。一根细长的钢柱在递增载荷下笔直挺立、笔直挺立、笔直挺立——然后突然弯折。

提示词工程完全指南：从零基础到高级优化

Fri, 24 Nov 2023 09:00:00 +0000

同样的模型，两种问法：一种在小学数学题上准确率 17%，另一种 78%。差别不是玄学，而是提示词工程。这篇文章系统梳理那些真正有效的技巧、它们为什么有效，以及如何在生产环境里把提示词当成一个工程问题来优化。

常微分方程（九）：混沌理论与洛伦兹系统

Tue, 14 Nov 2023 09:00:00 +0000

1961 年的一个冬日，Edward Lorenz 把一次气象模拟从一个截断后的数字 0.506 重新启动——而不是 0.506127。 几周模拟时间后，预报已经面目全非。这一次意外给了我们蝴蝶效应，把混沌从隐喻变成了科学。教训既深刻又冷静：严格确定性的方程，可以是实质上不可预测的。

常微分方程（八）：非线性系统与相图

Sat, 28 Oct 2023 09:00:00 +0000

真实世界是非线性的。 捕食循环、心律节拍、神经元放电——线性方程无力描述这些。当叠加原理失效，世界获得了新的行为：极限环、多平衡点、双稳态、滞回。本章给你直接从 2D 相图读出这些行为的几何与分析工具。

常微分方程（七）：稳定性理论

Wed, 11 Oct 2023 09:00:00 +0000

给系统轻轻一推，它会回到平衡，还是漂走，又或者干脆崩溃？ 这一个问题决定了桥梁能否扛住风暴、生态系统能否从干旱中恢复、经济能否从危机中反弹。稳定性理论告诉我们答案——而且不需要解微分方程。我们将学会如何从相平面的几何图形中读出系统的命运。

常微分方程（六）：线性微分方程组

Sun, 24 Sep 2023 09:00:00 +0000

一个方程描述一个量。但世界很少这么配合。 兔群与狼群此消彼长，RLC 网络中的电流和电压互相牵动，化学反应里的物质浓度彼此影响。只要两个未知量出现在同一组方程里，你就有了一个方程组，标量公式 $y'=ay$ 已经不够用了。

常微分方程（五）：级数解法与特殊函数

Thu, 07 Sep 2023 09:00:00 +0000

有些 ODE 的解，根本写不成熟悉的初等函数。 Bessel 方程描述圆柱里的热传导和鼓面的振动，Legendre 方程出现在球坐标的每一处分离变量，Airy 方程刻画量子隧穿；它们的解定义了全新的"特殊函数"。本章给出找到这些解的统一方法——幂级数与 Frobenius 法——并解释为什么同一小撮特殊函数会反复出现在物理与工程之中。

常微分方程（四）：拉普拉斯变换

Mon, 21 Aug 2023 09:00:00 +0000

拉普拉斯变换把微积分变成了代数。 不必再硬算积分、猜试解、再把初值条件一条条对上。它把整个 ODE — 方程、激励、初始条件 — 一并丢进复变量 $s$ 的一道多项式方程里，像解中学题一样解出来，再变换回去。沿途还有一份意外的礼物：解的形状被翻译成了几何 — 极点落在复平面左半边就衰减，落在右半边就发散，落在虚轴上就永不停歇地振荡。本章从定义出发把这套图像一砖一瓦搭起来，再连接到工程上把拉普拉斯变换变成动力学通用语的那几件工具：传递函数、Bode 图、PID 控制。

paper2repo： GitHub Repository Recommendation for Academic Papers

Tue, 15 Aug 2023 09:00:00 +0000

读论文时最折磨的瞬间之一：方法看懂了，想跑一下原作者的代码，结果论文里那行 “code available at” 要么压根没有，要么链接已经 404，要么指向的是一个空仓库。退而求其次去 GitHub 搜，能命中的基本都是名字起得规范、README 写得用心的那批；冷门方法、起名随意的工程，怎么都翻不出来。

常微分方程（三）：高阶线性微分方程

Fri, 04 Aug 2023 09:00:00 +0000

一阶 ODE 只记得一个数；二阶 ODE 同时记得两个。 这一点点额外的自由度，恰好让同一类方程能够描述被弹拨的吉他弦、汽车的悬挂、调频收音机里的 LC 谐振电路、强风中摆动的高楼。每一种现象背后都重复出现"振荡 / 略带过冲地回到平衡 / 缓慢爬回"这同样的三种状态，而决定走哪一条的，永远是同一个代数玩具——特征方程。

常微分方程（二）：一阶微分方程的求解方法

Tue, 18 Jul 2023 09:00:00 +0000

银行存款的复利、肝脏代谢一片药物、水箱里的盐慢慢稀释、电容在电源驱动下逐步充满——这些看似毫不相关的现象，背后都是同一类方程：一阶常微分方程。本章的目标只有一个：让你看见一个一阶方程的瞬间，就能判断它属于四种典型形态中的哪一种，并立刻知道该使用哪种求解技巧。这四套方法看似各自独立，其实背后是同一个思想——找到一个变量替换或乘子，把方程化成"一眼就能积出来"的形式。

常微分方程（一）：微分方程的起源与直觉

Sat, 01 Jul 2023 09:00:00 +0000

你身边的一切都在变化。 咖啡在冷却，人口在增长，单摆在摆动，病毒在传播，股价在波动，行星在运行。这些系统几乎没有谁能用「某物等于多少」来描述——它们只能用「某物变化得多快」来刻画。这第二种描述方式，正是微分方程存在的理由；学会读它，就是学会读物理与生物所用的那门语言。

多云管理与混合云架构

Wed, 14 Jun 2023 09:00:00 +0000

本系列第一篇问的是："云到底是什么，为什么重要？" 八篇之后，问题成熟为更实际的版本：用哪些云？怎么组合？怎么把这套组合运营得不抓狂？ 多云与混合云就是严肃组织对这个问题的回答。它们把工作负载分布在多个云服务商和自建基础设施上，换取韧性、成本优化、战略弹性——但也引入了一类单云架构永远不会遇到的问题。

运维与 DevOps 实践

Fri, 26 May 2023 09:00:00 +0000

2017 年 GitLab 丢了六个小时的数据库状态。一位疲惫的工程师在事故处理中对错了服务器跑了 rm -rf。备份流程其实已经悄悄坏了几个月，但没人发现，因为没人在做恢复演练。教训不是"用 rm 要小心"。教训是：运维是一个系统——工具、运行手册、监控、自动化，以及围绕这一切的仪式。系统健康时，任何一个疲惫工程师都搞不挂生产；系统腐烂时，每一次深夜抢救都离灾难一个按键。

云安全与隐私保护

Sun, 07 May 2023 09:00:00 +0000

2019 年 Capital One 泄露了一亿条客户数据。攻击链很短：一个配置错误的 WAF 允许了对 EC2 元数据端点的服务端请求伪造（SSRF），元数据端点交出了 IAM 临时凭证，而那个 IAM 角色对账户里所有 S3 存储桶都拥有 s3:* 权限。一处错配、一个权限过宽的角色、一条没人写过的规则。账单（不算法律费用）：超过 8000 万美元。

HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation

Sun, 23 Apr 2023 09:00:00 +0000

会话推荐里的"兴趣结构"几乎天然是分层的：用户先点开一个大类（“跑鞋”），然后筛品牌，再筛尺码、价位，最后落到一个 SKU。这条轨迹其实是一棵树——每多一次点击，候选集就大致按倍数收窄。问题在于：在欧氏空间里把这种树状结构放进去，需要堆很多维度才能让叶子节点不互相挤压，因为欧氏空间的"体积"只随半径多项式增长；而双曲空间的体积随半径指数级增长，正好和树的分支增长是同一个量级，几维就够把整条长尾摊开。

云网络架构与 SDN

Tue, 18 Apr 2023 09:00:00 +0000

云平台说到底，就是「一张网络 + 接在网络上的若干计算」。计算靠加节点扩，存储靠加盘扩，网络才是让这些节点和盘表现得像一个统一系统的那一层。网络做对了，整个栈让人觉得轻盈；网络做错了 —— 一条少加的路由、安全组的 5 元组对不上、负载均衡规格不够 —— 整个平台直接黑屏。

Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

Sat, 15 Apr 2023 09:00:00 +0000

LoRA 把"全量微调"压缩成一个低秩更新，在工程上几乎是免费的：参数少、训练稳、能合并回原权重，因此部署时和原模型一样便宜。但只要你的微调数据稍微"杂"一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大，可惜代价线性增长，而且本质上依然只有一个子空间，只是更"胖"了。

云存储系统与分布式架构

Thu, 30 Mar 2023 09:00:00 +0000

Netflix 存储 PB 级视频，Instagram 提供数十亿张照片，量化基金几分钟内回放一年的行情数据 —— 它们背后都是 分布式存储系统。从开发者的视角看，存储简单得近乎透明（PUT key、GET key），但只要跨过单机的边界，你就接管了一整摞折磨了学术界几十年的难题：如何在磁盘失效时不丢数据、如何线性扩展、如何提供一个不会让上层应用踩坑的一致性模型，还要把每 GB 的成本压到几分钱。

云原生与容器技术

Sat, 11 Mar 2023 09:00:00 +0000

从单体架构到云原生，是过去十年软件工程最重要的范式转变。容器和 Kubernetes 这个标题广为人知，但更值得讲的是：为什么是这套技术栈赢了？每一层究竟在做什么？哪些接缝决定了你的平台是丝滑还是迷宫？

虚拟化技术深度解析

Mon, 20 Feb 2023 09:00:00 +0000

没有虚拟化就没有云计算。每一个 EC2 实例、每一次 Lambda 调用、每一个 Kubernetes Pod，本质上都依赖同一个把戏：让操作系统对底层硬件深信不疑地撒谎。本文从 CPU 指令层（让这个把戏变便宜的硬件支持），一直走到主流四大 Hypervisor，再到生产级调优——决定你的虚拟机到底跑在裸机性能的 70% 还是 99%。

Lipschitz 连续性、强凸性与加速梯度下降

Sat, 11 Feb 2023 09:00:00 +0000

很多优化"玄学"其实都能被三个概念讲清楚：

梯度有多陡 —— Lipschitz 光滑性（$L$-smoothness）决定了步长的上限。
谷底有多硬 —— 强凸性（$\mu$-strong convexity）决定了收敛能有多快、解是否唯一。
能不能更快到达谷底 —— Nesterov 加速与重启策略，在不牺牲稳定性的前提下把每代价 $\kappa$ 的对数收敛压成 $\sqrt{\kappa}$。

本文把它们放在同一条逻辑链上：先用最小必要的定义和不等式把直觉钉牢，再给出关键定理与证明，最后用最小二乘实验对比 GD、Heavy Ball 与 Nesterov 的收敛行为。目标不是堆公式，而是让你在面对一个新问题时，能用这三件事快速判断"该用多大步长、预期什么收敛速度、加速是否值得"。

云计算基础与架构体系

Wed, 01 Feb 2023 09:00:00 +0000

2025 年还在做软件的团队，依然要回答二十年前的同一道题：买服务器还是租服务器？只是答案彻底反转了。从前你把硬件塞进机柜；现在你用 YAML 描述硬件，全球厂商在几秒内变出来、按秒计费、随时拆掉。云计算不只是"别人家的电脑"，而是覆盖在算力、存储、网络之上的一套可编程、可计量、多租户抽象 – 它从根本上改变了企业的构建方式，也改变了工程师每天怎么过。

计算机基础：深度解析与系统协作

Sat, 14 Jan 2023 09:00:00 +0000

前面五章，我们一个一个把盒子打开看：CPU、缓存层级、存储、主板和显卡、网络和电源。每一部分单看都很有意思，但一台计算机不是它的零件之和。一台计算机，是这些零件每一纳秒都要协商一次"接下来做什么"的那个过程。

SR-GNN —— Session-based Recommendation with Graph Neural Networks

Tue, 27 Dec 2022 09:00:00 +0000

用户依次点击 A、B、C、B、D。把它喂给一个序列模型，得到的是五个 token 折叠出的隐状态；交给 SR-GNN，得到的是一张有向图——边 B -> C 即便用户回到 B 也仍然存在，节点 B 只出现一次（它的入边和出邻居都会贡献到它的表示上），整段点击的拓扑都被原样保留在邻接矩阵里。这就是 SR-GNN（Wu 等, AAAI 2019）在多个会话推荐基准上稳稳压过 GRU4Rec、NARM 等纯序列模型的根本原因。

计算机基础：网络、电源与故障排查

Sat, 24 Dec 2022 09:00:00 +0000

主板上明明是千兆网卡，为什么有时只跑出 100 Mbps 的速度？崭新的 650 W 金牌电源，为什么显卡一吃满就重启？机房旁边的房间为什么常年比别处暖几度？这些日常现象的背后，是两套大多数人从不深究的系统：承载数据的网络 I/O 流水线，以及让芯片活下去的电源与冷却链路。

优化算法的演进：从梯度下降到 Adam（再到 2025 之后）

Fri, 16 Dec 2022 09:00:00 +0000

为什么训练 ResNet 时大家都说"调 LR 是手艺活"，到了 GPT/LLaMA 这一代，几乎所有论文却清一色地写 “AdamW，$\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$"？这不是巧合——它是优化器三十年演进的最终收敛点。

Solving Constrained Mean-Variance Portfolio Optimization Problems Using Spiral Optimization Algorithm

Wed, 07 Dec 2022 09:00:00 +0000

马克维茨的均值-方差模型在课本里很优雅，但只要把交易台上的真实约束塞进去——“持有就至少持 5%"、“必须从 500 只股票里挑出恰好 10 只”——原本闭式可解的二次规划立刻退化成混合整数非线性规划（MINLP）。拉格朗日乘子、KKT 条件、内点法这一整套主流求解链条直接哑火。本文讨论的论文用螺旋优化算法（Spiral Optimization Algorithm，简称 SOA）这种基于种群的元启发式方法来攻这个问题，并在小规模基准上证明了它能找到具有竞争力的可行解。

计算机基础：主板、显卡与扩展

Sat, 03 Dec 2022 09:00:00 +0000

桌面主板是一种相当"诚实"的产品。设计上的每一个重要决定——CPU 给出几条 PCIe 通道、哪些插槽直连 CPU 哪些走芯片组、为了喂饱 250 W 的处理器配了几相 VRM、为什么第二根 PCIe 长槽其实只有 ×4——都明明白白印在那块 PCB 上。能读懂板子，你几乎就能预测用户会撞上的每一个性能悬崖。本系列第四篇要教的就是这套读板手艺，然后把同样的视角转向显卡——一颗 GPU 的全部架构都是为了让成千上万条算术通路始终有数据可吃，剩下的一切（缓存、调度器、Tensor Core、HBM 堆栈）都是为这个目标服务的。

计算机基础：存储系统（HDD vs SSD）

Sat, 12 Nov 2022 09:00:00 +0000

为什么仅仅换一块 SSD 就能让一台五年前的笔记本"复活"？为什么 TLC 颗粒标称只有 1 000 次擦写，实际却能轻松撑过十年？为什么标称 3 500 MB/s 的新 SSD 用了几周后会突然掉到 50 MB/s？这是计算机基础深度解析系列的第三篇，我们从第一性原理出发回答这些问题：旋转磁盘片与 NAND 电荷阱在物理层面究竟差在哪里、接口（SATA、PCIe Gen 3/4/5）的带宽如何与协议（AHCI vs NVMe）的并行度相互作用、RAID 各级别如何在容量、性能、容错之间取舍、文件系统如何把字节组织成文件、以及如何在生产环境里把这一切跑得既快又安全。

网球场景计算机视觉系统设计：从论文调研到工业实现

Wed, 09 Nov 2022 09:00:00 +0000

把一颗直径 6.7 cm、时速 200+ km/h 的网球，从 8 路 4K 摄像头里实时重建成毫米级三维轨迹，并同步识别球员动作——这是一个把 小物体检测、多视角几何、卡尔曼滤波、物理建模、姿态估计 全部串起来的系统问题。本文按工业落地的顺序，把每个子问题拆开讲清楚：先界定难点，再做论文调研选型，再给出可运行代码，最后落到性能预算与部署架构。

计算机基础：内存与高速缓存系统

Sat, 22 Oct 2022 09:00:00 +0000

CPU 一次乘法大约需要 0.3 ns，机械硬盘一次寻道要 10 ms。两者之间是 3 千万倍 的速度差。整套内存工程——多级缓存、DRAM 单元、页表、TLB、ECC、NUMA、多通道——都是为了回答这一个问题：这条鸿沟，怎么填？

计算机基础：CPU 与计算核心

Sat, 01 Oct 2022 09:00:00 +0000

为什么 100 Mbps 宽带下载只有大约 12 MB/s？为什么"1 TB"硬盘在 Windows 里只显示 931 GB？为什么 32 位系统最多只能用约 3.2 GB 内存？当 CPU 真正开始执行你的代码时，每个时钟周期里到底发生了什么？

LeetCode（十）—— 栈与队列

Tue, 13 Sep 2022 09:00:00 +0000

栈和队列在数据结构里看起来很不起眼，可一旦真做起算法题，会发现它们出现的频率高得惊人。原因其实只有一句：大部分题目本质上都是在问访问顺序——栈是后进先出（LIFO），队列是先进先出（FIFO），再加上单调栈、双端队列、优先队列这几个变体，括号匹配、下一个更大元素、滑动窗口最值、前 K 大、BFS、还有一票"用 X 实现 Y"的题，几乎全在它们的射程之内。

LeetCode（九）—— 贪心算法

Mon, 29 Aug 2022 09:00:00 +0000

贪心算法看起来像是一种"投机取巧"——每一步只挑当前最划算的选项，从不回头，居然最后能拿到全局最优。代码常常短得离谱，跑得也快。但贪心的真正难点不是写代码，而是判断这道题到底允不允许贪心。同样一个 argmax 循环，在跳跃游戏上完全正确，在 {1, 3, 4} 找零上就会给出错误答案。

操作系统基础深度解析

Sun, 28 Aug 2022 09:00:00 +0000

打开一个终端，敲下 cat hello.txt。在你按下回车的那一瞬间，发生了至少七层下钻：bash 解析命令 -> fork+execve 启动 cat 进程 -> 进程的内存被分配虚拟地址空间 -> cat 调用 read() 触发 syscall -> CPU 切到内核态 -> VFS 转发到 ext4 -> 块层给 NVMe 排好请求 -> 硬件通过 DMA 把字节送回 -> 中断把控制权交还给 cat -> 字节经过页缓存复制到用户缓冲区 -> 屏幕上出现内容。

LeetCode（八）—— 回溯算法

Sun, 14 Aug 2022 09:00:00 +0000

回溯算法是处理"列举所有可能"这一类问题的标准武器：所有排列、所有子集、所有合法棋盘、网格里所有路径。它的本质是带剪枝的暴力搜索——一次走一步，碰到死路立刻退回去，把刚才做的选择"撤回"，让下一条分支看到一个干净的状态。整套方法只有三步：

LeetCode（七）—— 动态规划入门

Sat, 30 Jul 2022 09:00:00 +0000

动态规划在算法学习里有种被神化的气质，听起来高深莫测，做起来又总像在凑公式。其实它一点都不玄。DP 就是一个非常朴素的想法：把同样的子问题算一次就够了，别反复算。所有让人头大的「状态转移方程」「滚动数组」「区间 DP」，归根结底都是围绕这一个想法在打转。

LeetCode（六）—— 二叉树遍历与构造

Fri, 15 Jul 2022 09:00:00 +0000

二叉树类的题目，本质几乎从来不在"树"上，而在两件事上：你按什么顺序碰节点，以及在决定父节点要做什么之前，你已经从子节点拿到了什么信息。把这两件事想透，前序、中序、后序、层序四种遍历，递归与迭代两种写法，从两种遍历序列还原一棵树，乃至最大深度、验证 BST 这类经典题，都能收敛到同一套配方上。这篇文章就是把这套配方从头讲到尾。

LeetCode（五）—— 二分查找

Thu, 30 Jun 2022 09:00:00 +0000

二分查找是一种"看着简单、写起来翻车"的算法。思路一句话能讲完——每次把搜索区间砍掉一半——但真要在面试中一气呵成写对、还要分得清"找第一个"和"找任意一个"，就会发现各种边界条件让人抓狂。本文不打算再罗列一遍模板，而是想说清楚一件事：为什么模板长这样。一旦理解了背后的不变量，< 还是 <=、right = mid 还是 right = mid - 1，就不再是需要硬背的细节，而是机械推导出来的结论。

LeetCode（四）—— 滑动窗口技巧

Wed, 15 Jun 2022 09:00:00 +0000

如果你写过两层 for 循环去枚举所有连续子数组，那么滑动窗口多半就是你缺的那一步优化。它把 $O(nk)$ 或 $O(n^2)$ 的暴力枚举压成线性的一遍扫描，关键就在于"复用上一步算出来的东西"。本文从最朴素的直觉出发，先讲清楚思路，再用四道高频 LeetCode 题目把套路彻底落地，最后再补一个单调队列的进阶用法。

Graph Neural Networks for Learning Equivariant Representations of Neural Networks

Tue, 14 Jun 2022 09:00:00 +0000

把一个 MLP 的隐藏单元换个顺序，函数本身一点没变，可参数向量却换了一副面孔——这是「在网络空间里做学习」绕不开的第一道坎。如果表示方式不尊重这种置换对称性，下游模型就要花大量容量去记忆「同一个函数的不同写法」，泛化和迁移都谈不上。Kofinas 等人在 ICML 2024 的这篇 Graph Neural Networks for Learning Equivariant Representations of Neural Networks 给的解法非常干净：把网络本身当成一张有向图（神经元当节点、权重当边），再用一个本身就对节点置换等变的 GNN 去读它。下面按照「为什么需要等变」「神经图怎么构造」「等变到底意味着什么」「模型怎么搭」「四类下游任务」「细节与坑」的顺序展开。

LeetCode（三）—— 链表操作

Tue, 31 May 2022 09:00:00 +0000

链表是最能逼着你用指针思考的数据结构。数组给你一个下标就能跳到任意位置；链表只丢给你一个头指针，剩下的全靠自己一步步走。这种从「随机访问」到「顺序追指针」的切换，正是链表题在面试里反复出现的原因——题目本身简单到一句话讲完，做对却要求你具备最基本的工程素养：画图、给指针起名字、绝不在没判空时解引用。

LeetCode（二）—— 双指针技巧

Mon, 16 May 2022 09:00:00 +0000

哈希表是用空间换时间，双指针正好相反：用一点结构假设（数组有序、链表可能成环、答案落在某个连续窗口里），换来 $O(n)$ 时间和 $O(1)$ 额外空间。代码看起来再朴素不过——两个下标、一个 while 循环——但它是新手最容易踩坑的技巧：下标差一、死循环、漏掉去重、平手时移错指针。真正能把这些坑填掉的，不是死记移动规则，而是用循环不变量去思考。

LeetCode（一）—— 哈希表

Sun, 01 May 2022 09:00:00 +0000

哈希表是工具箱里性价比最高的"超能力"：每个元素只多花一点点内存，就能让"这个值我之前见过吗？“这种查询变成几乎一条指令的开销。一整类暴力 $O(n^2)$ 的解法，只要换上哈希表，就能直接坍缩成 $O(n)$ 的一次遍历。

Linux Vim 解析

Fri, 15 Apr 2022 09:00:00 +0000

很多人放弃 Vim，是因为他们试图把所有快捷键都背下来。这条路一开始就走错了。Vim 本质上是一门很小的语言：只要掌握它的语法——操作符 + 动作——你就能临场表达出任何编辑操作，再也不用翻速查表。本文会把每天会用到的那 80% 讲透，再说明剩下 20% 是怎么从同一套规则里自然『拼』出来的。

Linux 文件操作深入解析

Sat, 02 Apr 2022 09:00:00 +0000

在命令行上拉开效率差距的，从来不是会多少命令，而是能不能把命令"拼起来"——把一堆小工具串成一条清晰的数据流。管道符 | 正是 Unix 哲学的体现：每个工具只做一件事并把它做好（grep 只过滤、awk 只提取字段、sort 只排序），然后通过管道把它们组合成一条可读、可调试、可维护的流水线。本文从数据流模型讲起——stdin、stdout、stderr 以及它们背后的文件描述符——再系统过一遍各种重定向写法（>、>>、<、2>、2>&1、&>），然后把文本处理工具链（grep、awk、sed、cut、tr、sort、uniq、xargs、tee）一次讲透，最后补上两个大多数入门教程跳过的话题：命名管道（FIFO）和进程替换。读完之后，你应该能把很多"得写个脚本才行"的小需求，用一两行可读的命令搞定，也能更轻松地看懂别人写的 one-liner。

Linux 进程与资源管理：从 top 到 cgroups

Sun, 20 Mar 2022 09:00:00 +0000

运维这份工作，本事从来不是"会背命令"，而是把一个模糊的现象——网站慢了、接口超时了、机器没响应了——快速映射到正确的资源轴：是 CPU 跑满了，是内存被 cache 占满了（这没事）还是被某个失控进程吃光了（这有事），是磁盘队列堆住了，还是某个 socket 在泄漏？只要这一步定下来，工具的选择基本是机械的。

Linux 系统服务管理

Mon, 07 Mar 2022 09:00:00 +0000

Linux 上所谓的"服务"，本质上是一种"在那里待命"的长驻进程：负责对时、监听 SSH、处理 HTTP 请求、凌晨三点跑一次备份。这些进程几乎从来不会由人手工启动——必须有人在开机时拉起它们、在崩溃时把它们拉回来、抓住它们的日志、决定谁依赖谁、关机时按顺序优雅停掉。在所有现代发行版上，承担这个角色的就是 systemd。

Linux 用户管理

Tue, 22 Feb 2022 09:00:00 +0000

如果你只在自己一台笔记本上跑过 useradd 和 passwd，这篇文章里的大多数细节你可能根本用不上。可一旦同一台机器上同时坐着多个人、跑着多个服务，“用户管理"就不再是行政流程，而是安全模型本身：它决定了谁能登进来、进程以哪个 UID 写文件、sudo 把哪些命令提到 root、密码被偷之后还能被用多久。

Linux 软件包管理

Wed, 09 Feb 2022 09:00:00 +0000

很多人是从「装、删、升」三个动词开始学包管理的，平时也够用，直到出问题——依赖冲突装不上、升级以后服务起不来、内核换完机器进不去系统、国内拉镜像慢得想哭。这时候你需要的不是再背几条命令，而是一个心智模型：一个包里到底装了什么、包管理器在背后到底求解什么、状态记录在哪里、Debian 系的 apt/dpkg 和 Red Hat 系的 dnf/rpm 在哪儿一致、又在哪儿分叉，凌晨两点登录线上机器才不至于慌。

Linux 磁盘管理

Thu, 27 Jan 2022 09:00:00 +0000

线上的磁盘问题，几乎从来都不是“敲一两条命令”就能搞定的。你面对的是一摞分层的栈：底下是块设备（一块物理盘或一块云盘），上面是分区表（MBR 或 GPT），可选地夹一层 LVM 把文件系统从具体磁盘解耦出来，然后是文件系统驱动（ext4、xfs、btrfs）赋予原始字节“文件”的语义，最后是挂载点——应用真正打开文件的那个目录路径。我见过的大多数线上故障，只要你能说出“现在卡在哪一层”，就已经赢了一半。

Linux 文件权限：rwx、chmod、chown 与超越它们的机制

Fri, 14 Jan 2022 09:00:00 +0000

文件权限看上去是基本功——chmod 755 一敲就完了——但它在生产中惹出的麻烦排得上前几名：服务起不来、部署脚本默默没动静、Nginx 蹦个 403、共享目录漏成筛子、rm 偏偏不让删一个"应该能删"的文件。光记几个魔数对这些都不管用，真正能救场的是同时把三件事想清楚：

Linux 使用基础

Sat, 01 Jan 2022 09:00:00 +0000

Linux 的"难"很少出在命令本身。真正卡住新人的，是脑子里没有一张系统地图：它为什么主导了服务器领域、多用户多任务到底意味着什么、Debian 系和 Red Hat 系切换时哪些东西会变、SSH 登录之后头十分钟该敲哪些命令。这篇文章是整个 Linux 系列的入口导览，先把心智模型搭起来——哲学、发行版、FHS 目录树——然后过一遍你每天会用上几十次的命令：cd ls pwd、cp mv rm mkdir、cat less head tail、find grep，以及管道、重定向、SSH，还有权限和进程的最小集合。每个主题都点到为止，深入内容散落在专题文章里（文件权限、磁盘管理、用户管理、系统服务管理、进程管理、软件包管理、文件操作深入解析）。

About

Mon, 01 Jan 0001 00:00:00 +0000

Projects

Mon, 01 Jan 0001 00:00:00 +0000

Series

Mon, 01 Jan 0001 00:00:00 +0000

Chen Kai Blog

用 Terraform 给 AI Agent 上云（八）：端到端——一次 apply 起整个 research-agent-stack

用 Terraform 给 AI Agent 上云（七）：可观测、SLS 看板与成本告警

用 Terraform 给 AI Agent 上云（六）：LLM 网关与密钥管理

用 Terraform 给 AI Agent 上云（五）：存储层——向量、关系、对象记忆

用 Terraform 给 AI Agent 上云（四）：计算层选 ECS、ACK 还是函数计算？

用 Terraform 给 AI Agent 上云（三）：可复用的 VPC 与安全基线

用 Terraform 给 AI Agent 上云（二）：Provider、认证与 OSS 上的远程 State

用 Terraform 给 AI Agent 上云（一）：为什么 IaC 是唯一靠谱的部署方式

阿里云 PAI 实战（五）：Designer vs Model Gallery——GUI 什么时候真值钱

阿里云 PAI 实战（四）：PAI-EAS——模型部署、冷启动、以及 TPS 谎言

阿里云 PAI 实战（三）：PAI-DLC——不用通宵刨坑的分布式训练

阿里云 PAI 实战（二）：PAI-DSW——不会吃掉权重的 Notebook

阿里云 PAI 实战（一）：平台总览与产品家族地图

阿里云百炼实战（五）：Qwen-TTS 多语言语音合成

阿里云百炼实战（四）：万相视频生成端到端

阿里云百炼实战（三）：Qwen-Omni 多模态——视频、音频、图像理解

阿里云百炼实战（二）：Qwen 文本大模型在生产环境的用法

阿里云百炼实战（一）：平台总览与第一个请求

机器学习数学推导（二十）：正则化与模型选择

本文要点

机器学习数学推导（十九）：神经网络与反向传播

本文概览

机器学习数学推导（十八）：聚类算法

本文要解决什么

机器学习数学推导（十七）：降维与主成分分析

这篇文章讲什么

机器学习数学推导（十六）：条件随机场

这一篇要讲什么

机器学习数学推导（十五）：隐马尔可夫模型

机器学习数学推导（十四）：变分推断与变分EM

机器学习数学推导（十三）：EM算法与GMM

机器学习数学推导（十二）：XGBoost 与 LightGBM

机器学习数学推导（十一）：集成学习

机器学习数学推导（十）：半朴素贝叶斯与贝叶斯网络

机器学习数学推导（九）：朴素贝叶斯

机器学习数学推导（八）：支持向量机

机器学习数学推导（七）：决策树

机器学习数学推导（六）：逻辑回归与分类

机器学习数学推导（五）：线性回归

机器学习数学推导（四）：凸优化理论

本章概览

机器学习数学推导（三）：概率论与统计推断

本文要讲什么

机器学习数学推导（二）：线性代数与矩阵论

这一章为什么写、和别处有什么不同

机器学习数学推导（一）：绪论与数学基础

本章要做的事

推荐系统（十六）—— 工业级架构与最佳实践

推荐系统（十五）—— 实时推荐与在线学习

推荐系统（十四）—— 跨域推荐与冷启动解决方案

推荐系统（十三）—— 公平性、去偏与可解释性

推荐系统（十二）—— 大语言模型与推荐系统

推荐系统（十一）—— 对比学习与自监督学习

推荐系统（十）—— 深度兴趣网络与注意力机制

推荐系统（九）—— 多任务学习与多目标优化

推荐系统（八）—— 知识图谱增强推荐系统

推荐系统（七）—— 图神经网络与社交推荐

推荐系统（六）—— 序列推荐与会话建模

推荐系统（五）—— Embedding表示学习

推荐系统（四）—— CTR预估与点击率建模

推荐系统（三）—— 深度学习基础模型

推荐系统（二）—— 协同过滤与矩阵分解

推荐系统（一）—— 入门与基础概念

自然语言处理（十二）：前沿技术与实战应用

自然语言处理（十一）：多模态大模型

自然语言处理（十）：RAG与知识增强系统

自然语言处理（九）：大语言模型架构深度解析

自然语言处理（八）：模型微调与PEFT

自然语言处理（七）：提示工程与In-Context Learning

自然语言处理（六）：GPT与生成式语言模型

自然语言处理（五）：BERT与预训练模型

学习率：从入门到大模型训练的终极指南

自然语言处理（四）：注意力机制与Transformer

自然语言处理（三）：RNN与序列建模

自然语言处理（二）：词向量与语言模型

自然语言处理（一）：NLP入门与文本预处理

强化学习（十二）：RLHF与大语言模型应用

强化学习（十一）：层次化强化学习与元学习

AI Agent 完全指南：从理论到工业实践