Series

Standalone Articles

Oct 19, 2025 Standalone 17 min read

学习率：从入门到大模型训练的终极指南

模型炸了，你把学习率减半。能跑了，但训练慢得令人发指。再减半，损失曲线变成一条直线。这种场景是不是很熟？在所有可调的超参数里，学习率（learning rate, LR）是最容易决定训练成败的那一个——它决定模型是收敛、龟速爬行，还是直接发散。

Sep 19, 2025 Standalone 18 min read

AI Agent 完全指南：从理论到工业实践

面向工程师的 AI Agent 实战指南：规划（CoT/ReAct/ToT）、记忆体系、工具调用、自我反思、多 Agent 协作、主流框架（LangChain、LangGraph、AutoGen、CrewAI）、评估方法与生产部署的全部坑。

Jul 5, 2025 Standalone 16 min read

近端算子：从 Moreau 包络到 ISTA/FISTA 与 ADMM

系统讲解近端算子的理论与应用：凸分析基础、Moreau 包络、常见近端闭式解，以及 ISTA/FISTA、ADMM 等算法中的实际用法。

Jun 3, 2025 Standalone 11 min read

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

系统梳理 Transformer 位置编码：为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳，以及如何为新模型选型。

Dec 27, 2024 Standalone 13 min read

核方法：从理论到实战 (RKHS、常见核函数与超参数调优)

理解核技巧、RKHS 理论与实用核函数选择。涵盖 RBF、多项式、Matern、周期核，含 sklearn 代码与调优流程图。

Oct 13, 2024 Standalone 11 min read

Integrating Large Language Models with Graphical Session-Based Recommendation

会话推荐（Session-based Recommendation, SBR）本质上是一个"短历史"问题：你只看到用户在一次会话里很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点不在概念，而在工程现实——会话短、长尾多、冷启动多，纯靠交互图（ID + 转移边）经常学不稳：新物品几乎没有边，长尾物品的边稀疏且不可靠，再叠加一层用户随手点击的噪声。

Jul 18, 2024 Standalone 13 min read

辛几何与结构保持神经网络：让模型学会守恒

理解能保持能量与辛结构的物理感知神经网络。涵盖 HNN、LNN、SympNet、辛积分器，以及四个经典物理系统实验。

Jul 15, 2024 Standalone 11 min read

矩阵低秩近似与伪逆：从 SVD 到正则化

从最小二乘视角讲解 Moore-Penrose 伪逆的定义、Penrose 四条件、SVD 计算、截断奇异值与正则化，以及在机器学习中的落地应用。

Jun 5, 2024 Standalone 11 min read

变分自编码器 (VAE)：从直觉到实现与调试

从零用 PyTorch 构建 VAE。涵盖 ELBO 目标函数、重参数化技巧、后验坍塌修复、beta-VAE，以及完整的训练流水线。

May 5, 2024 Standalone 21 min read

多模态大模型与下游任务研究

梳理多模态大模型的核心技术：视觉-语言对齐、跨模态融合、多模态预训练，以及 LLM 在传统 NLP 任务中的应用与优化（提示/微调/蒸馏/检索增强）。

Apr 27, 2024 Standalone 19 min read

LAMP 与阿里云服务器详解

刚买的一台阿里云 ECS，从「能 SSH 登录」到「公网能稳定访问、跑得动一个站点」之间，最容易卡的其实就三件事：网络通不通——包可能在云厂商的安全组、操作系统防火墙、监听端口三个地方被悄悄丢掉，你看到的现象只有一个：浏览器一直转圈。服务串不起来——Apache、PHP、MySQL 是三个独立的进程，靠文件后缀、Unix socket、TCP 端口互相找到对方，每个接口都有自己的坑。身份和权 …

Apr 20, 2024 Standalone 9 min read

Prefix-Tuning：为生成任务优化连续提示

Prefix-Tuning 冻结整个语言模型，只学习一组注入到注意力层的连续向量来引导生成。本文从注意力公式、重参数化、KV cache 机制到 GPT-2 上的实验，把这套方法和 Adapter、Prompt Tuning、LoRA 的边界讲清楚。

Jan 22, 2024 Standalone 14 min read

重参数化技巧与 Gumbel-Softmax 详解

讲清楚连续重参数化与 Gumbel-Softmax 的推导、直觉与实现：为什么梯度能穿过采样节点，温度参数如何权衡偏差-方差，以及离散变量端到端训练的常见坑。

Dec 22, 2023 Standalone 13 min read

LLM 工作流与应用架构：企业级实战指南

从一次 API 调用到一个生产级 LLM 平台：工作流模式、RAG、模型路由、部署拓扑、成本杠杆、可观测性、企业集成——以及那些真正决定成败的取舍。

Dec 22, 2023 Standalone 9 min read

Graph Contextualized Self-Attention Network for Session-based Recommendation

会话推荐里你能看到的就那么一小段匿名点击序列：没有用户画像、没有历史长期偏好、没有人口统计。所有信号都封装在这几次点击里。GC-SAN（IJCAI 2019）的思路很务实：把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构，Transformer 的自注意力捕捉长距离意图，最后用一个标量权重把"当前点击"和"全局意图"线性融合。它本身不 …

Nov 24, 2023 Standalone 24 min read

提示词工程完全指南：从零基础到高级优化

从零样本基础到思维树、DSPy 和自动化优化，掌握提示词工程。包含基准测试、代码示例和调试工具箱。

Aug 15, 2023 Standalone 9 min read

paper2repo： GitHub Repository Recommendation for Academic Papers

读论文时最折磨的瞬间之一：方法看懂了，想跑一下原作者的代码，结果论文里那行 “code available at” 要么压根没有，要么链接已经 404，要么指向的是一个空仓库。退而求其次去 GitHub 搜，能命中的基本都是名字起得规范、README 写得用心的那批；冷门方法、起名随意的工程，怎么都翻不出来。

Apr 23, 2023 Standalone 11 min read

HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation

会话推荐里的"兴趣结构"几乎天然是分层的：用户先点开一个大类（“跑鞋”），然后筛品牌，再筛尺码、价位，最后落到一个 SKU。这条轨迹其实是一棵树——每多一次点击，候选集就大致按倍数收窄。问题在于：在欧氏空间里把这种树状结构放进去，需要堆很多维度才能让叶子节点不互相挤压，因为欧氏空间的"体积"只随半径多项式增长；而双曲空间的体积随半径指 …

Apr 15, 2023 Standalone 11 min read

Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

LoRA 把"全量微调"压缩成一个低秩更新，在工程上几乎是免费的：参数少、训练稳、能合并回原权重，因此部署时和原模型一样便宜。但只要你的微调数据稍微"杂"一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大，可惜代价线性增长，而且本质上依然只有一个子空间，只是更"胖"了。

Feb 11, 2023 Standalone 11 min read

Lipschitz 连续性、强凸性与加速梯度下降

用三个核心概念理清优化直觉：Lipschitz 光滑性决定步长上限，强凸性决定收敛速度与解的唯一性，Nesterov 加速在不牺牲稳定性的前提下加速到达。含关键定理证明与最小二乘实验对比。

Dec 27, 2022 Standalone 12 min read

SR-GNN —— Session-based Recommendation with Graph Neural Networks

SR-GNN 把一段点击会话拆成有向加权图，再用门控 GNN 做下一跳预测。本文系统讲清会话图构建、GGNN 更新、局部+全局池化、训练细节、基准对比，以及决定要不要在生产里用它的几类失败模式。

Dec 16, 2022 Standalone 10 min read

优化算法的演进：从梯度下降到 Adam（再到 2025 之后）

一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW，再到 Lion / Sophia / Schedule-Free 的完整脉络：每一步解决了前一步的什么痛点？为什么大模型几乎都在用 AdamW？以及 2023 年之后我们究竟走到了哪里。

Dec 7, 2022 Standalone 10 min read

Solving Constrained Mean-Variance Portfolio Optimization Problems Using Spiral Optimization Algorithm

马克维茨的均值-方差模型在课本里很优雅，但只要把交易台上的真实约束塞进去——“持有就至少持 5%"、“必须从 500 只股票里挑出恰好 10 只”——原本闭式可解的二次规划立刻退化成混合整数非线性规划（MINLP）。拉格朗日乘子、KKT 条件、内点法这一整套主流求解链条直接哑火。本文讨论的论文用螺旋优化算法（Spiral Optimization …

Nov 9, 2022 Standalone 16 min read

网球场景计算机视觉系统设计：从论文调研到工业实现

为网球场景设计完整的 CV 系统：高速小物体检测、多相机三维重建、轨迹预测与姿态识别。从论文调研到工业部署，含完整代码与性能预算。

Aug 28, 2022 Standalone 18 min read

操作系统基础深度解析

从内核态/用户态出发，把进程、虚拟内存、文件系统、I/O 栈、系统调用与调度器一次讲透。每一节都给出可在终端验证的命令和量级数字。

Jun 14, 2022 Standalone 12 min read

Graph Neural Networks for Learning Equivariant Representations of Neural Networks

把神经网络本身画成一张图（神经元做节点、权重做边），再让 GNN 来读它，就能得到一个对隐藏单元置换天然等变的表示。换对了对称性，预测泛化、检索相似模型、跨架构合并权重这类任务才真正变得可学。