Standalone Articles on Chen Kai Blog

学习率：从入门到大模型训练的终极指南

Sun, 19 Oct 2025 09:00:00 +0000

模型炸了，你把学习率减半。能跑了，但训练慢得令人发指。再减半，损失曲线变成一条直线。这种场景是不是很熟？在所有可调的超参数里，学习率（learning rate, LR）是最容易决定训练成败的那一个——它决定模型是收敛、龟速爬行，还是直接发散。

AI Agent 完全指南：从理论到工业实践

Fri, 19 Sep 2025 09:00:00 +0000

聊天机器人是用来回答问题的，Agent 是用来把事情做完的。同样一个大模型放在背后，前者只会输出文字，后者会去搜索、写代码、调 API、查数据库，并且不断迭代直到任务完成。差别不在模型，差别在外层包了什么——一个能保留状态的循环、一组工具、一个能审视自己输出的批评者。

近端算子：从 Moreau 包络到 ISTA/FISTA 与 ADMM

Sat, 05 Jul 2025 09:00:00 +0000

当目标函数带有不可导项（稀疏正则、TV 正则、指示函数）或约束难以直接处理时，“直接做梯度下降"常常会卡住：要么没有梯度，要么每一步都难以保证可行性。近端算子（proximal operator） 给出了一个工程化又漂亮的解决方式——把更新理解成"先按光滑部分走一步，再用一个带二次惩罚的最小化把解拉回到合理的结构上”。

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

Tue, 03 Jun 2025 09:00:00 +0000

第一次手动算 Self-Attention，多数人都会被一件事吓一跳：它完全不在乎输入顺序。把 token 重新排一下，每个注意力分数也跟着排，函数本身严格满足置换等变。所以在让 Transformer 干任何"正经事"之前，必须从外部把"位置"信息塞进去。

核方法：从理论到实战 (RKHS、常见核函数与超参数调优)

Fri, 27 Dec 2024 09:00:00 +0000

你手上是非线性数据，工具箱里却只有线性算法。核技巧（kernel trick）让你把这套线性算法直接用在非线性数据上——而且全程不需要把高维特征映射写出来。这篇文章先讲直觉，再补数学，最后给一套能直接搬到生产里的工具箱。

Integrating Large Language Models with Graphical Session-Based Recommendation

Sun, 13 Oct 2024 09:00:00 +0000

会话推荐（Session-based Recommendation, SBR）本质上是一个"短历史"问题：你只看到用户在一次会话里很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点不在概念，而在工程现实——会话短、长尾多、冷启动多，纯靠交互图（ID + 转移边）经常学不稳：新物品几乎没有边，长尾物品的边稀疏且不可靠，再叠加一层用户随手点击的噪声。

辛几何与结构保持神经网络：让模型学会守恒

Thu, 18 Jul 2024 09:00:00 +0000

随手训练一个普通 MLP 去拟合一维谐振子的运动。验证集上误差很小，前十步看着也对。然后让它一口气往后推一千步——轨道不再闭合，能量缓慢漂移，本该周期运动的系统变成了一条慢慢张开的螺旋。网络学到了"数据点之间的插值"，没学到"物理"。结构保持网络（structure-preserving NN）的做法，是把守恒律——能量守恒、辛 2-形式、欧拉-拉格朗日方程——直接编码进架构里，使得模型从数学结构上就不可能违反这些约束，无论积分多长时间。

矩阵低秩近似与伪逆：从 SVD 到正则化

Mon, 15 Jul 2024 09:00:00 +0000

真实数据里的矩阵几乎从不"方+满秩"：特征相关、样本不足、噪声放大病态——求逆这件事要么不存在，要么不稳定。伪逆（Moore-Penrose inverse）把"逆"的直觉延续下去：它不要求方程组有精确解，而是把"解"重新定义为最小二乘解（多解时再选最小范数那一个）。本文从最小二乘视角给出伪逆的定义与四条 Penrose 条件，再用 SVD 把它的计算与低秩近似绑在一起，最后看截断奇异值如何让解更稳、什么时候必须正则化、以及这些结论在 PCA、推荐系统、LoRA 中如何落地。

变分自编码器 (VAE)：从直觉到实现与调试

Wed, 05 Jun 2024 09:00:00 +0000

普通自编码器只能压缩与重建，变分自编码器（VAE）则要有用得多——它学到的是一个平滑、有结构的潜在空间，你可以从里面采样，凭空生成新的数据。把编码器从"输出一个向量"改成"输出一个分布"，仅这一步，模型就从一个花哨的压缩器升级成了带可优化似然下界的生成模型。

多模态大模型与下游任务研究

Sun, 05 May 2024 09:00:00 +0000

把图像、视频、音频塞进语言模型，让它能"看"能"听"能推理 —— 这件事在 2021 年 CLIP 横空出世之前还是研究奇观，今天已经是产品标配。但真要把多模态大模型（Multimodal LLM, MLLM）做到生产可用，难点几乎从来不在"视觉编码器够不够强"，而在四件容易被低估的事：

LAMP 与阿里云服务器详解

Sat, 27 Apr 2024 09:00:00 +0000

刚买的一台阿里云 ECS，从「能 SSH 登录」到「公网能稳定访问、跑得动一个站点」之间，最容易卡的其实就三件事：

网络通不通——包可能在云厂商的安全组、操作系统防火墙、监听端口三个地方被悄悄丢掉，你看到的现象只有一个：浏览器一直转圈。
服务串不起来——Apache、PHP、MySQL 是三个独立的进程，靠文件后缀、Unix socket、TCP 端口互相找到对方，每个接口都有自己的坑。
身份和权限不匹配——Apache 跑在 www-data 用户下，MySQL 跑在 mysql 用户下，wget 下来的文件却归 root 所有。组合错了就是 403、Access denied，最后被逼到 chmod 777。

这篇文章就按你第一天会撞到的顺序把上面三件事讲透，再继续把第三十天才会遇到的问题——HTTPS、虚拟主机、备份、源码编译、什么时候该把单机拆成多机——一起讲完。目标是你照着做能跑起来，并且过半年回头看不会觉得自己当时埋了一堆雷。

Prefix-Tuning：为生成任务优化连续提示

Sat, 20 Apr 2024 09:00:00 +0000

把 GPT-2 微调到一个具体任务上，意味着要再多存一份 1.5B 参数的权重。换十几个任务，存储和上线成本就能直接劝退一个团队，更别提"一份基模 + 多任务共享"这种工程上很想要的架构。Prefix-Tuning（Li & Liang, 2021）走了一条相反的路：模型权重一个不动，只学一小段连续向量——也就是论文里所说的"前缀"——在每一层注意力里被当作"已经在那里的上下文"喂进去。模型本身没变，换一段前缀就等于换了一种"任务人格"。

重参数化技巧与 Gumbel-Softmax 详解

Mon, 22 Jan 2024 09:00:00 +0000

一旦模型里出现"采样"，训练立刻就会撞上一个硬问题：梯度怎么穿过随机节点？

重参数化（reparameterization）给出的答案非常直接——把 $z\sim p_\theta(z)$ 改写成 $z=g_\theta(\epsilon)$，把随机性隔离到与参数无关的噪声 $\epsilon$ 里，于是反向传播可以顺着 $g_\theta$ 走下去。麻烦在于离散变量：$\arg\max$ 一类操作不可导，梯度会断掉。Gumbel-Softmax（也叫 Concrete 分布）用"带温度的 softmax + Gumbel 噪声"把离散采样变成可微近似，让你在保留离散结构的同时仍能端到端训练。

Graph Contextualized Self-Attention Network for Session-based Recommendation

Fri, 22 Dec 2023 09:00:00 +0000

会话推荐里你能看到的就那么一小段匿名点击序列：没有用户画像、没有历史长期偏好、没有人口统计。所有信号都封装在这几次点击里。GC-SAN（IJCAI 2019）的思路很务实：把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构，Transformer 的自注意力捕捉长距离意图，最后用一个标量权重把"当前点击"和"全局意图"线性融合。它本身不发明新机制，但作为一个 baseline，至今仍然不容易被同等参数量级的模型超过。

LLM 工作流与应用架构：企业级实战指南

Fri, 22 Dec 2023 09:00:00 +0000

绝大多数 LLM 教程，恰恰在真正有意思的工作开始之前就结束了。它们告诉你怎么调用 chat completion 接口，怎么挂一个向量库，怎么用 Streamlit 包成一个 demo——这些都没错，但都不是凌晨三点一万人涌入、每隔一条回答就出现幻觉时让你头疼的那部分。

提示词工程完全指南：从零基础到高级优化

Fri, 24 Nov 2023 09:00:00 +0000

同样的模型，两种问法：一种在小学数学题上准确率 17%，另一种 78%。差别不是玄学，而是提示词工程。这篇文章系统梳理那些真正有效的技巧、它们为什么有效，以及如何在生产环境里把提示词当成一个工程问题来优化。

paper2repo： GitHub Repository Recommendation for Academic Papers

Tue, 15 Aug 2023 09:00:00 +0000

读论文时最折磨的瞬间之一：方法看懂了，想跑一下原作者的代码，结果论文里那行 “code available at” 要么压根没有，要么链接已经 404，要么指向的是一个空仓库。退而求其次去 GitHub 搜，能命中的基本都是名字起得规范、README 写得用心的那批；冷门方法、起名随意的工程，怎么都翻不出来。

HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation

Sun, 23 Apr 2023 09:00:00 +0000

会话推荐里的"兴趣结构"几乎天然是分层的：用户先点开一个大类（“跑鞋”），然后筛品牌，再筛尺码、价位，最后落到一个 SKU。这条轨迹其实是一棵树——每多一次点击，候选集就大致按倍数收窄。问题在于：在欧氏空间里把这种树状结构放进去，需要堆很多维度才能让叶子节点不互相挤压，因为欧氏空间的"体积"只随半径多项式增长；而双曲空间的体积随半径指数级增长，正好和树的分支增长是同一个量级，几维就够把整条长尾摊开。

Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

Sat, 15 Apr 2023 09:00:00 +0000

LoRA 把"全量微调"压缩成一个低秩更新，在工程上几乎是免费的：参数少、训练稳、能合并回原权重，因此部署时和原模型一样便宜。但只要你的微调数据稍微"杂"一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大，可惜代价线性增长，而且本质上依然只有一个子空间，只是更"胖"了。

Lipschitz 连续性、强凸性与加速梯度下降

Sat, 11 Feb 2023 09:00:00 +0000

很多优化"玄学"其实都能被三个概念讲清楚：

梯度有多陡 —— Lipschitz 光滑性（$L$-smoothness）决定了步长的上限。
谷底有多硬 —— 强凸性（$\mu$-strong convexity）决定了收敛能有多快、解是否唯一。
能不能更快到达谷底 —— Nesterov 加速与重启策略，在不牺牲稳定性的前提下把每代价 $\kappa$ 的对数收敛压成 $\sqrt{\kappa}$。

本文把它们放在同一条逻辑链上：先用最小必要的定义和不等式把直觉钉牢，再给出关键定理与证明，最后用最小二乘实验对比 GD、Heavy Ball 与 Nesterov 的收敛行为。目标不是堆公式，而是让你在面对一个新问题时，能用这三件事快速判断"该用多大步长、预期什么收敛速度、加速是否值得"。

SR-GNN —— Session-based Recommendation with Graph Neural Networks

Tue, 27 Dec 2022 09:00:00 +0000

用户依次点击 A、B、C、B、D。把它喂给一个序列模型，得到的是五个 token 折叠出的隐状态；交给 SR-GNN，得到的是一张有向图——边 B -> C 即便用户回到 B 也仍然存在，节点 B 只出现一次（它的入边和出邻居都会贡献到它的表示上），整段点击的拓扑都被原样保留在邻接矩阵里。这就是 SR-GNN（Wu 等, AAAI 2019）在多个会话推荐基准上稳稳压过 GRU4Rec、NARM 等纯序列模型的根本原因。

优化算法的演进：从梯度下降到 Adam（再到 2025 之后）

Fri, 16 Dec 2022 09:00:00 +0000

为什么训练 ResNet 时大家都说"调 LR 是手艺活"，到了 GPT/LLaMA 这一代，几乎所有论文却清一色地写 “AdamW，$\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$"？这不是巧合——它是优化器三十年演进的最终收敛点。

Solving Constrained Mean-Variance Portfolio Optimization Problems Using Spiral Optimization Algorithm

Wed, 07 Dec 2022 09:00:00 +0000

马克维茨的均值-方差模型在课本里很优雅，但只要把交易台上的真实约束塞进去——“持有就至少持 5%"、“必须从 500 只股票里挑出恰好 10 只”——原本闭式可解的二次规划立刻退化成混合整数非线性规划（MINLP）。拉格朗日乘子、KKT 条件、内点法这一整套主流求解链条直接哑火。本文讨论的论文用螺旋优化算法（Spiral Optimization Algorithm，简称 SOA）这种基于种群的元启发式方法来攻这个问题，并在小规模基准上证明了它能找到具有竞争力的可行解。

网球场景计算机视觉系统设计：从论文调研到工业实现

Wed, 09 Nov 2022 09:00:00 +0000

把一颗直径 6.7 cm、时速 200+ km/h 的网球，从 8 路 4K 摄像头里实时重建成毫米级三维轨迹，并同步识别球员动作——这是一个把 小物体检测、多视角几何、卡尔曼滤波、物理建模、姿态估计 全部串起来的系统问题。本文按工业落地的顺序，把每个子问题拆开讲清楚：先界定难点，再做论文调研选型，再给出可运行代码，最后落到性能预算与部署架构。

操作系统基础深度解析

Sun, 28 Aug 2022 09:00:00 +0000

打开一个终端，敲下 cat hello.txt。在你按下回车的那一瞬间，发生了至少七层下钻：bash 解析命令 -> fork+execve 启动 cat 进程 -> 进程的内存被分配虚拟地址空间 -> cat 调用 read() 触发 syscall -> CPU 切到内核态 -> VFS 转发到 ext4 -> 块层给 NVMe 排好请求 -> 硬件通过 DMA 把字节送回 -> 中断把控制权交还给 cat -> 字节经过页缓存复制到用户缓冲区 -> 屏幕上出现内容。

Graph Neural Networks for Learning Equivariant Representations of Neural Networks

Tue, 14 Jun 2022 09:00:00 +0000

把一个 MLP 的隐藏单元换个顺序，函数本身一点没变，可参数向量却换了一副面孔——这是「在网络空间里做学习」绕不开的第一道坎。如果表示方式不尊重这种置换对称性，下游模型就要花大量容量去记忆「同一个函数的不同写法」，泛化和迁移都谈不上。Kofinas 等人在 ICML 2024 的这篇 Graph Neural Networks for Learning Equivariant Representations of Neural Networks 给的解法非常干净：把网络本身当成一张有向图（神经元当节点、权重当边），再用一个本身就对节点置换等变的 GNN 去读它。下面按照「为什么需要等变」「神经图怎么构造」「等变到底意味着什么」「模型怎么搭」「四类下游任务」「细节与坑」的顺序展开。