Standalone Articles
学习率:从入门到大模型训练的终极指南
模型炸了,你把学习率减半。能跑了,但训练慢得令人发指。再减半,损失曲线变成一条直线。这种场景是不是很熟?在所有可调的超参数里,学习率(learning rate, LR)是最容易决定训练成败的那一个——它决定模型是收敛、龟速爬行,还是直接发散。
AI Agent 完全指南:从理论到工业实践
面向工程师的 AI Agent 实战指南:规划(CoT/ReAct/ToT)、记忆体系、工具调用、自我反思、多 Agent 协作、主流框架(LangChain、LangGraph、AutoGen、CrewAI)、评估方法与生产部署的全部坑。
近端算子:从 Moreau 包络到 ISTA/FISTA 与 ADMM
系统讲解近端算子的理论与应用:凸分析基础、Moreau 包络、常见近端闭式解,以及 ISTA/FISTA、ADMM 等算法中的实际用法。
浅谈位置编码:从 Sinusoidal 到 RoPE 与 ALiBi
系统梳理 Transformer 位置编码:为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳,以及如何为新模型选型。
核方法:从理论到实战 (RKHS、常见核函数与超参数调优)
理解核技巧、RKHS 理论与实用核函数选择。涵盖 RBF、多项式、Matern、周期核,含 sklearn 代码与调优流程图。
Integrating Large Language Models with Graphical Session-Based Recommendation
会话推荐(Session-based Recommendation, SBR)本质上是一个"短历史"问题:你只看到用户在一次会话里很短的一段点击序列(通常 3-20 次),就要预测下一个最可能点击的物品。难点不在概念,而在工程现实——会话短、长尾多、冷启动多,纯靠交互图(ID + 转移边)经常学不稳:新物品几乎没有边,长尾物品的边稀疏且不可靠,再叠加一层用户随手点击的噪声。
辛几何与结构保持神经网络:让模型学会守恒
理解能保持能量与辛结构的物理感知神经网络。涵盖 HNN、LNN、SympNet、辛积分器,以及四个经典物理系统实验。
矩阵低秩近似与伪逆:从 SVD 到正则化
从最小二乘视角讲解 Moore-Penrose 伪逆的定义、Penrose 四条件、SVD 计算、截断奇异值与正则化,以及在机器学习中的落地应用。
变分自编码器 (VAE):从直觉到实现与调试
从零用 PyTorch 构建 VAE。涵盖 ELBO 目标函数、重参数化技巧、后验坍塌修复、beta-VAE,以及完整的训练流水线。
多模态大模型与下游任务研究
梳理多模态大模型的核心技术:视觉-语言对齐、跨模态融合、多模态预训练,以及 LLM 在传统 NLP 任务中的应用与优化(提示/微调/蒸馏/检索增强)。
LAMP 与阿里云服务器详解
刚买的一台阿里云 ECS,从「能 SSH 登录」到「公网能稳定访问、跑得动一个站点」之间,最容易卡的其实就三件事: 网络通不通——包可能在云厂商的安全组、操作系统防火墙、监听端口三个地方被悄悄丢掉,你看到的现象只有一个:浏览器一直转圈。 服务串不起来——Apache、PHP、MySQL 是三个独立的进程,靠文件后缀、Unix socket、TCP 端口互相找到对方,每个接口都有自己的坑。 身份和权 …
Prefix-Tuning:为生成任务优化连续提示
Prefix-Tuning 冻结整个语言模型,只学习一组注入到注意力层的连续向量来引导生成。本文从注意力公式、重参数化、KV cache 机制到 GPT-2 上的实验,把这套方法和 Adapter、Prompt Tuning、LoRA 的边界讲清楚。
重参数化技巧与 Gumbel-Softmax 详解
讲清楚连续重参数化与 Gumbel-Softmax 的推导、直觉与实现:为什么梯度能穿过采样节点,温度参数如何权衡偏差-方差,以及离散变量端到端训练的常见坑。
LLM 工作流与应用架构:企业级实战指南
从一次 API 调用到一个生产级 LLM 平台:工作流模式、RAG、模型路由、部署拓扑、成本杠杆、可观测性、企业集成——以及那些真正决定成败的取舍。
Graph Contextualized Self-Attention Network for Session-based Recommendation
会话推荐里你能看到的就那么一小段匿名点击序列:没有用户画像、没有历史长期偏好、没有人口统计。所有信号都封装在这几次点击里。GC-SAN(IJCAI 2019)的思路很务实:把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构,Transformer 的自注意力捕捉长距离意图,最后用一个标量权重把"当前点击"和"全局意图"线性融合。它本身不 …
提示词工程完全指南:从零基础到高级优化
从零样本基础到思维树、DSPy 和自动化优化,掌握提示词工程。包含基准测试、代码示例和调试工具箱。
paper2repo: GitHub Repository Recommendation for Academic Papers
读论文时最折磨的瞬间之一:方法看懂了,想跑一下原作者的代码,结果论文里那行 “code available at” 要么压根没有,要么链接已经 404,要么指向的是一个空仓库。退而求其次去 GitHub 搜,能命中的基本都是名字起得规范、README 写得用心的那批;冷门方法、起名随意的工程,怎么都翻不出来。
HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation
会话推荐里的"兴趣结构"几乎天然是分层的:用户先点开一个大类(“跑鞋”),然后筛品牌,再筛尺码、价位,最后落到一个 SKU。这条轨迹其实是一棵树——每多一次点击,候选集就大致按倍数收窄。问题在于:在欧氏空间里把这种树状结构放进去,需要堆很多维度才能让叶子节点不互相挤压,因为欧氏空间的"体积"只随半径多项式增长;而双曲空间的体积随半径指 …
Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)
LoRA 把"全量微调"压缩成一个低秩更新,在工程上几乎是免费的:参数少、训练稳、能合并回原权重,因此部署时和原模型一样便宜。但只要你的微调数据稍微"杂"一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大,可惜代价线性增长,而且本质上依然只有一个子空间,只是更"胖"了。
Lipschitz 连续性、强凸性与加速梯度下降
用三个核心概念理清优化直觉:Lipschitz 光滑性决定步长上限,强凸性决定收敛速度与解的唯一性,Nesterov 加速在不牺牲稳定性的前提下加速到达。含关键定理证明与最小二乘实验对比。
SR-GNN —— Session-based Recommendation with Graph Neural Networks
SR-GNN 把一段点击会话拆成有向加权图,再用门控 GNN 做下一跳预测。本文系统讲清会话图构建、GGNN 更新、局部+全局池化、训练细节、基准对比,以及决定要不要在生产里用它的几类失败模式。
优化算法的演进:从梯度下降到 Adam(再到 2025 之后)
一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW,再到 Lion / Sophia / Schedule-Free 的完整脉络:每一步解决了前一步的什么痛点?为什么大模型几乎都在用 AdamW?以及 2023 年之后我们究竟走到了哪里。
Solving Constrained Mean-Variance Portfolio Optimization Problems Using Spiral Optimization Algorithm
马克维茨的均值-方差模型在课本里很优雅,但只要把交易台上的真实约束塞进去——“持有就至少持 5%"、“必须从 500 只股票里挑出恰好 10 只”——原本闭式可解的二次规划立刻退化成混合整数非线性规划(MINLP)。拉格朗日乘子、KKT 条件、内点法这一整套主流求解链条直接哑火。本文讨论的论文用螺旋优化算法(Spiral Optimization …
网球场景计算机视觉系统设计:从论文调研到工业实现
为网球场景设计完整的 CV 系统:高速小物体检测、多相机三维重建、轨迹预测与姿态识别。从论文调研到工业部署,含完整代码与性能预算。
操作系统基础深度解析
从内核态/用户态出发,把进程、虚拟内存、文件系统、I/O 栈、系统调用与调度器一次讲透。每一节都给出可在终端验证的命令和量级数字。
Graph Neural Networks for Learning Equivariant Representations of Neural Networks
把神经网络本身画成一张图(神经元做节点、权重做边),再让 GNN 来读它,就能得到一个对隐藏单元置换天然等变的表示。换对了对称性,预测泛化、检索相似模型、跨架构合并权重这类任务才真正变得可学。