<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Standalone Articles on Chen Kai Blog</title><link>https://www.chenk.top/zh/standalone/</link><description>Recent content in Standalone Articles on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sun, 19 Oct 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/standalone/index.xml" rel="self" type="application/rss+xml"/><item><title>学习率：从入门到大模型训练的终极指南</title><link>https://www.chenk.top/zh/standalone/%E5%AD%A6%E4%B9%A0%E7%8E%87-%E4%BB%8E%E5%85%A5%E9%97%A8%E5%88%B0%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E7%9A%84%E7%BB%88%E6%9E%81%E6%8C%87%E5%8D%97-2026/</link><pubDate>Sun, 19 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E5%AD%A6%E4%B9%A0%E7%8E%87-%E4%BB%8E%E5%85%A5%E9%97%A8%E5%88%B0%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E7%9A%84%E7%BB%88%E6%9E%81%E6%8C%87%E5%8D%97-2026/</guid><description>&lt;p>模型炸了，你把学习率减半。能跑了，但训练慢得令人发指。再减半，损失曲线变成一条直线。这种场景是不是很熟？在所有可调的超参数里，&lt;strong>学习率（learning rate, LR）是最容易决定训练成败的那一个&lt;/strong>——它决定模型是收敛、龟速爬行，还是直接发散。&lt;/p></description></item><item><title>AI Agent 完全指南：从理论到工业实践</title><link>https://www.chenk.top/zh/standalone/ai-agent%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E7%90%86%E8%AE%BA%E5%88%B0%E5%B7%A5%E4%B8%9A%E5%AE%9E%E8%B7%B5/</link><pubDate>Fri, 19 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/ai-agent%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E7%90%86%E8%AE%BA%E5%88%B0%E5%B7%A5%E4%B8%9A%E5%AE%9E%E8%B7%B5/</guid><description>&lt;p>聊天机器人是用来回答问题的，Agent 是用来&lt;strong>把事情做完&lt;/strong>的。同样一个大模型放在背后，前者只会输出文字，后者会去搜索、写代码、调 API、查数据库，并且不断迭代直到任务完成。差别不在模型，差别在外层包了什么——一个能保留状态的循环、一组工具、一个能审视自己输出的批评者。&lt;/p></description></item><item><title>近端算子：从 Moreau 包络到 ISTA/FISTA 与 ADMM</title><link>https://www.chenk.top/zh/standalone/%E8%BF%91%E7%AB%AF%E7%AE%97%E5%AD%90/</link><pubDate>Sat, 05 Jul 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E8%BF%91%E7%AB%AF%E7%AE%97%E5%AD%90/</guid><description>&lt;p>当目标函数带有不可导项（稀疏正则、TV 正则、指示函数）或约束难以直接处理时，&amp;ldquo;直接做梯度下降&amp;quot;常常会卡住：要么没有梯度，要么每一步都难以保证可行性。&lt;strong>近端算子（proximal operator）&lt;/strong> 给出了一个工程化又漂亮的解决方式——把更新理解成&amp;quot;先按光滑部分走一步，再用一个带二次惩罚的最小化把解拉回到合理的结构上&amp;rdquo;。&lt;/p></description></item><item><title>浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi</title><link>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</link><pubDate>Tue, 03 Jun 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</guid><description>&lt;p>第一次手动算 Self-Attention，多数人都会被一件事吓一跳：它&lt;strong>完全不在乎输入顺序&lt;/strong>。把 token 重新排一下，每个注意力分数也跟着排，函数本身严格满足置换等变。所以在让 Transformer 干任何&amp;quot;正经事&amp;quot;之前，必须从外部把&amp;quot;位置&amp;quot;信息塞进去。&lt;/p></description></item><item><title>核方法：从理论到实战 (RKHS、常见核函数与超参数调优)</title><link>https://www.chenk.top/zh/standalone/%E6%A0%B8%E5%87%BD%E6%95%B0%E7%AE%80%E8%BF%B0/</link><pubDate>Fri, 27 Dec 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%A0%B8%E5%87%BD%E6%95%B0%E7%AE%80%E8%BF%B0/</guid><description>&lt;p>你手上是非线性数据，工具箱里却只有线性算法。核技巧（kernel trick）让你把这套线性算法直接用在非线性数据上——而且&lt;strong>全程不需要把高维特征映射写出来&lt;/strong>。这篇文章先讲直觉，再补数学，最后给一套能直接搬到生产里的工具箱。&lt;/p></description></item><item><title>Integrating Large Language Models with Graphical Session-Based Recommendation</title><link>https://www.chenk.top/zh/standalone/integrating-large-language-models-with-graphical-session-bas/</link><pubDate>Sun, 13 Oct 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/integrating-large-language-models-with-graphical-session-bas/</guid><description>&lt;p>会话推荐（Session-based Recommendation, SBR）本质上是一个&amp;quot;短历史&amp;quot;问题：你只看到用户在一次会话里很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点不在概念，而在工程现实——会话短、长尾多、冷启动多，&lt;strong>纯靠交互图（ID + 转移边）经常学不稳&lt;/strong>：新物品几乎没有边，长尾物品的边稀疏且不可靠，再叠加一层用户随手点击的噪声。&lt;/p></description></item><item><title>辛几何与结构保持神经网络：让模型学会守恒</title><link>https://www.chenk.top/zh/standalone/symplectic-geometry-and-structure-preserving-neural-networks/</link><pubDate>Thu, 18 Jul 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/symplectic-geometry-and-structure-preserving-neural-networks/</guid><description>&lt;p>随手训练一个普通 MLP 去拟合一维谐振子的运动。验证集上误差很小，前十步看着也对。然后让它一口气往后推一千步——轨道不再闭合，能量缓慢漂移，本该周期运动的系统变成了一条慢慢张开的螺旋。网络学到了&amp;quot;数据点之间的插值&amp;quot;，没学到&amp;quot;物理&amp;quot;。&lt;strong>结构保持网络&lt;/strong>（structure-preserving NN）的做法，是把守恒律——能量守恒、辛 2-形式、欧拉-拉格朗日方程——直接编码进架构里，使得模型从数学结构上就不可能违反这些约束，无论积分多长时间。&lt;/p></description></item><item><title>矩阵低秩近似与伪逆：从 SVD 到正则化</title><link>https://www.chenk.top/zh/standalone/%E7%9F%A9%E9%98%B5%E4%BD%8E%E7%A7%A9%E8%BF%91%E4%BC%BC-%E4%BC%AA%E9%80%86/</link><pubDate>Mon, 15 Jul 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E7%9F%A9%E9%98%B5%E4%BD%8E%E7%A7%A9%E8%BF%91%E4%BC%BC-%E4%BC%AA%E9%80%86/</guid><description>&lt;p>真实数据里的矩阵几乎从不&amp;quot;方+满秩&amp;quot;：特征相关、样本不足、噪声放大病态——求逆这件事要么不存在，要么不稳定。&lt;strong>伪逆&lt;/strong>（Moore-Penrose inverse）把&amp;quot;逆&amp;quot;的直觉延续下去：它不要求方程组有精确解，而是把&amp;quot;解&amp;quot;重新定义为&lt;strong>最小二乘解&lt;/strong>（多解时再选&lt;strong>最小范数&lt;/strong>那一个）。本文从最小二乘视角给出伪逆的定义与四条 Penrose 条件，再用 &lt;strong>SVD&lt;/strong> 把它的计算与&lt;strong>低秩近似&lt;/strong>绑在一起，最后看截断奇异值如何让解更稳、什么时候必须正则化、以及这些结论在 PCA、推荐系统、LoRA 中如何落地。&lt;/p></description></item><item><title>变分自编码器 (VAE)：从直觉到实现与调试</title><link>https://www.chenk.top/zh/standalone/%E5%8F%98%E5%88%86%E8%87%AA%E7%BC%96%E7%A0%81%E5%99%A8-vae-%E8%AF%A6%E8%A7%A3/</link><pubDate>Wed, 05 Jun 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E5%8F%98%E5%88%86%E8%87%AA%E7%BC%96%E7%A0%81%E5%99%A8-vae-%E8%AF%A6%E8%A7%A3/</guid><description>&lt;p>普通自编码器只能压缩与重建，变分自编码器（VAE）则要有用得多——它学到的是一个&lt;strong>平滑、有结构的潜在空间&lt;/strong>，你可以从里面&lt;strong>采样&lt;/strong>，凭空生成新的数据。把编码器从&amp;quot;输出一个向量&amp;quot;改成&amp;quot;输出一个分布&amp;quot;，仅这一步，模型就从一个花哨的压缩器升级成了带可优化似然下界的生成模型。&lt;/p></description></item><item><title>多模态大模型与下游任务研究</title><link>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</link><pubDate>Sun, 05 May 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</guid><description>&lt;p>把图像、视频、音频塞进语言模型，让它能&amp;quot;看&amp;quot;能&amp;quot;听&amp;quot;能推理 —— 这件事在 2021 年 CLIP 横空出世之前还是研究奇观，今天已经是产品标配。但真要把多模态大模型（Multimodal LLM, MLLM）做到生产可用，难点几乎从来不在&amp;quot;视觉编码器够不够强&amp;quot;，而在四件容易被低估的事：&lt;/p></description></item><item><title>LAMP 与阿里云服务器详解</title><link>https://www.chenk.top/zh/standalone/lamp-%E4%B8%8E%E9%98%BF%E9%87%8C%E4%BA%91%E6%9C%8D%E5%8A%A1%E5%99%A8%E8%AF%A6%E8%A7%A3/</link><pubDate>Sat, 27 Apr 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/lamp-%E4%B8%8E%E9%98%BF%E9%87%8C%E4%BA%91%E6%9C%8D%E5%8A%A1%E5%99%A8%E8%AF%A6%E8%A7%A3/</guid><description>&lt;p>刚买的一台阿里云 ECS，从「能 SSH 登录」到「公网能稳定访问、跑得动一个站点」之间，最容易卡的其实就三件事：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>网络通不通&lt;/strong>——包可能在云厂商的安全组、操作系统防火墙、监听端口三个地方被悄悄丢掉，你看到的现象只有一个：浏览器一直转圈。&lt;/li>
&lt;li>&lt;strong>服务串不起来&lt;/strong>——Apache、PHP、MySQL 是三个独立的进程，靠文件后缀、Unix socket、TCP 端口互相找到对方，每个接口都有自己的坑。&lt;/li>
&lt;li>&lt;strong>身份和权限不匹配&lt;/strong>——Apache 跑在 &lt;code>www-data&lt;/code> 用户下，MySQL 跑在 &lt;code>mysql&lt;/code> 用户下，&lt;code>wget&lt;/code> 下来的文件却归 &lt;code>root&lt;/code> 所有。组合错了就是 403、Access denied，最后被逼到 &lt;code>chmod 777&lt;/code>。&lt;/li>
&lt;/ol>
&lt;p>这篇文章就按你第一天会撞到的顺序把上面三件事讲透，再继续把第三十天才会遇到的问题——HTTPS、虚拟主机、备份、源码编译、什么时候该把单机拆成多机——一起讲完。目标是你照着做能跑起来，并且过半年回头看不会觉得自己当时埋了一堆雷。&lt;/p></description></item><item><title>Prefix-Tuning：为生成任务优化连续提示</title><link>https://www.chenk.top/zh/standalone/prefix-tuning-optimizing-continuous-prompts-for-generation/</link><pubDate>Sat, 20 Apr 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/prefix-tuning-optimizing-continuous-prompts-for-generation/</guid><description>&lt;p>把 GPT-2 微调到一个具体任务上，意味着要再多存一份 1.5B 参数的权重。换十几个任务，存储和上线成本就能直接劝退一个团队，更别提&amp;quot;一份基模 + 多任务共享&amp;quot;这种工程上很想要的架构。&lt;strong>Prefix-Tuning&lt;/strong>（Li &amp;amp; Liang, 2021）走了一条相反的路：模型权重一个不动，只学一小段连续向量——也就是论文里所说的&amp;quot;前缀&amp;quot;——在每一层注意力里被当作&amp;quot;已经在那里的上下文&amp;quot;喂进去。模型本身没变，换一段前缀就等于换了一种&amp;quot;任务人格&amp;quot;。&lt;/p></description></item><item><title>重参数化技巧与 Gumbel-Softmax 详解</title><link>https://www.chenk.top/zh/standalone/%E9%87%8D%E5%8F%82%E6%95%B0%E5%8C%96%E8%AF%A6%E8%A7%A3%E4%B8%8Egumbel-softmax%E6%B7%B1%E5%85%A5%E6%8E%A2%E8%AE%A8/</link><pubDate>Mon, 22 Jan 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E9%87%8D%E5%8F%82%E6%95%B0%E5%8C%96%E8%AF%A6%E8%A7%A3%E4%B8%8Egumbel-softmax%E6%B7%B1%E5%85%A5%E6%8E%A2%E8%AE%A8/</guid><description>&lt;p>一旦模型里出现&amp;quot;采样&amp;quot;，训练立刻就会撞上一个硬问题：&lt;strong>梯度怎么穿过随机节点？&lt;/strong>&lt;/p>
&lt;p>重参数化（reparameterization）给出的答案非常直接——把 $z\sim p_\theta(z)$ 改写成 $z=g_\theta(\epsilon)$，把随机性隔离到与参数无关的噪声 $\epsilon$ 里，于是反向传播可以顺着 $g_\theta$ 走下去。麻烦在于离散变量：$\arg\max$ 一类操作不可导，梯度会断掉。&lt;strong>Gumbel-Softmax&lt;/strong>（也叫 Concrete 分布）用&amp;quot;带温度的 softmax + Gumbel 噪声&amp;quot;把离散采样变成可微近似，让你在保留离散结构的同时仍能端到端训练。&lt;/p></description></item><item><title>Graph Contextualized Self-Attention Network for Session-based Recommendation</title><link>https://www.chenk.top/zh/standalone/graph-contextualized-self-attention-network-for-session-base/</link><pubDate>Fri, 22 Dec 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/graph-contextualized-self-attention-network-for-session-base/</guid><description>&lt;p>会话推荐里你能看到的就那么一小段匿名点击序列：没有用户画像、没有历史长期偏好、没有人口统计。所有信号都封装在这几次点击里。&lt;strong>GC-SAN&lt;/strong>（IJCAI 2019）的思路很务实：把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构，Transformer 的自注意力捕捉长距离意图，最后用一个标量权重把&amp;quot;当前点击&amp;quot;和&amp;quot;全局意图&amp;quot;线性融合。它本身不发明新机制，但作为一个 baseline，至今仍然不容易被同等参数量级的模型超过。&lt;/p></description></item><item><title>LLM 工作流与应用架构：企业级实战指南</title><link>https://www.chenk.top/zh/standalone/llm%E5%B7%A5%E4%BD%9C%E6%B5%81%E4%B8%8E%E5%BA%94%E7%94%A8%E6%9E%B6%E6%9E%84-%E4%BC%81%E4%B8%9A%E7%BA%A7%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</link><pubDate>Fri, 22 Dec 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/llm%E5%B7%A5%E4%BD%9C%E6%B5%81%E4%B8%8E%E5%BA%94%E7%94%A8%E6%9E%B6%E6%9E%84-%E4%BC%81%E4%B8%9A%E7%BA%A7%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</guid><description>&lt;p>绝大多数 LLM 教程，恰恰在真正有意思的工作开始之前就结束了。它们告诉你怎么调用 chat completion 接口，怎么挂一个向量库，怎么用 Streamlit 包成一个 demo——这些都没错，但都不是凌晨三点一万人涌入、每隔一条回答就出现幻觉时让你头疼的那部分。&lt;/p></description></item><item><title>提示词工程完全指南：从零基础到高级优化</title><link>https://www.chenk.top/zh/standalone/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E9%9B%B6%E5%9F%BA%E7%A1%80%E5%88%B0%E9%AB%98%E7%BA%A7%E4%BC%98%E5%8C%96/</link><pubDate>Fri, 24 Nov 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97-%E4%BB%8E%E9%9B%B6%E5%9F%BA%E7%A1%80%E5%88%B0%E9%AB%98%E7%BA%A7%E4%BC%98%E5%8C%96/</guid><description>&lt;p>同样的模型，两种问法：一种在小学数学题上准确率 17%，另一种 78%。差别不是玄学，而是提示词工程。这篇文章系统梳理那些真正有效的技巧、它们为什么有效，以及如何在生产环境里把提示词当成一个工程问题来优化。&lt;/p></description></item><item><title>paper2repo： GitHub Repository Recommendation for Academic Papers</title><link>https://www.chenk.top/zh/standalone/paper2repo-github-repository-recommendation-for-academic-pap/</link><pubDate>Tue, 15 Aug 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/paper2repo-github-repository-recommendation-for-academic-pap/</guid><description>&lt;p>读论文时最折磨的瞬间之一：方法看懂了，想跑一下原作者的代码，结果论文里那行 &amp;ldquo;code available at&amp;rdquo; 要么压根没有，要么链接已经 404，要么指向的是一个空仓库。退而求其次去 GitHub 搜，能命中的基本都是名字起得规范、README 写得用心的那批；冷门方法、起名随意的工程，怎么都翻不出来。&lt;/p></description></item><item><title>HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation</title><link>https://www.chenk.top/zh/standalone/hcgr-hyperbolic-contrastive-graph-representation-learning-fo/</link><pubDate>Sun, 23 Apr 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/hcgr-hyperbolic-contrastive-graph-representation-learning-fo/</guid><description>&lt;p>会话推荐里的&amp;quot;兴趣结构&amp;quot;几乎天然是分层的：用户先点开一个大类（&amp;ldquo;跑鞋&amp;rdquo;），然后筛品牌，再筛尺码、价位，最后落到一个 SKU。这条轨迹其实是一棵树——每多一次点击，候选集就大致按倍数收窄。问题在于：在欧氏空间里把这种树状结构放进去，需要堆很多维度才能让叶子节点不互相挤压，因为欧氏空间的&amp;quot;体积&amp;quot;只随半径多项式增长；而双曲空间的体积随半径&lt;strong>指数级&lt;/strong>增长，正好和树的分支增长是同一个量级，几维就够把整条长尾摊开。&lt;/p></description></item><item><title>Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)</title><link>https://www.chenk.top/zh/standalone/mixture-of-subspaces-in-low-rank-adaptation-moslora/</link><pubDate>Sat, 15 Apr 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/mixture-of-subspaces-in-low-rank-adaptation-moslora/</guid><description>&lt;p>LoRA 把&amp;quot;全量微调&amp;quot;压缩成一个低秩更新，在工程上几乎是免费的：参数少、训练稳、能合并回原权重，因此部署时和原模型一样便宜。但只要你的微调数据稍微&amp;quot;杂&amp;quot;一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大，可惜代价线性增长，而且本质上依然只有&lt;strong>一个&lt;/strong>子空间，只是更&amp;quot;胖&amp;quot;了。&lt;/p></description></item><item><title>Lipschitz 连续性、强凸性与加速梯度下降</title><link>https://www.chenk.top/zh/standalone/%E6%B7%B1%E5%85%A5%E8%A7%A3%E6%9E%90%E9%9D%9E%E7%BA%BF%E6%80%A7%E4%BC%98%E5%8C%96%E4%B8%AD%E7%9A%84lipschitz%E8%BF%9E%E7%BB%AD%E6%80%A7-%E5%BC%BA%E5%87%B8%E6%80%A7%E4%B8%8E%E5%8A%A0%E9%80%9F%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E7%AE%97%E6%B3%95/</link><pubDate>Sat, 11 Feb 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%B7%B1%E5%85%A5%E8%A7%A3%E6%9E%90%E9%9D%9E%E7%BA%BF%E6%80%A7%E4%BC%98%E5%8C%96%E4%B8%AD%E7%9A%84lipschitz%E8%BF%9E%E7%BB%AD%E6%80%A7-%E5%BC%BA%E5%87%B8%E6%80%A7%E4%B8%8E%E5%8A%A0%E9%80%9F%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E7%AE%97%E6%B3%95/</guid><description>&lt;p>很多优化&amp;quot;玄学&amp;quot;其实都能被三个概念讲清楚：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>梯度有多陡&lt;/strong> —— Lipschitz 光滑性（$L$-smoothness）决定了步长的上限。&lt;/li>
&lt;li>&lt;strong>谷底有多硬&lt;/strong> —— 强凸性（$\mu$-strong convexity）决定了收敛能有多快、解是否唯一。&lt;/li>
&lt;li>&lt;strong>能不能更快到达谷底&lt;/strong> —— Nesterov 加速与重启策略，在不牺牲稳定性的前提下把每代价 $\kappa$ 的对数收敛压成 $\sqrt{\kappa}$。&lt;/li>
&lt;/ul>
&lt;p>本文把它们放在同一条逻辑链上：先用最小必要的定义和不等式把直觉钉牢，再给出关键定理与证明，最后用最小二乘实验对比 GD、Heavy Ball 与 Nesterov 的收敛行为。目标不是堆公式，而是让你在面对一个新问题时，能用这三件事快速判断&amp;quot;该用多大步长、预期什么收敛速度、加速是否值得&amp;quot;。&lt;/p></description></item><item><title>SR-GNN —— Session-based Recommendation with Graph Neural Networks</title><link>https://www.chenk.top/zh/standalone/session-based-recommendation-with-graph-neural-networks/</link><pubDate>Tue, 27 Dec 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/session-based-recommendation-with-graph-neural-networks/</guid><description>&lt;p>用户依次点击 &lt;strong>A、B、C、B、D&lt;/strong>。把它喂给一个序列模型，得到的是五个 token 折叠出的隐状态；交给 &lt;strong>SR-GNN&lt;/strong>，得到的是一张有向图——边 &lt;code>B -&amp;gt; C&lt;/code> 即便用户回到 &lt;code>B&lt;/code> 也仍然存在，节点 &lt;code>B&lt;/code> 只出现一次（它的入边和出邻居都会贡献到它的表示上），整段点击的拓扑都被原样保留在邻接矩阵里。这就是 &lt;a href="https://arxiv.org/abs/1811.00855" target="_blank" rel="noopener noreferrer">SR-GNN（Wu 等, AAAI 2019） &lt;span aria-hidden="true" style="font-size:0.75em; opacity:0.55; margin-left:2px;">↗&lt;/span>&lt;/a>
 在多个会话推荐基准上稳稳压过 GRU4Rec、NARM 等纯序列模型的根本原因。&lt;/p></description></item><item><title>优化算法的演进：从梯度下降到 Adam（再到 2025 之后）</title><link>https://www.chenk.top/zh/standalone/%E4%BC%98%E5%8C%96%E7%AE%97%E6%B3%95%E7%9A%84%E6%BC%94%E8%BF%9B-%E4%BB%8E%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E5%88%B0adam/</link><pubDate>Fri, 16 Dec 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E4%BC%98%E5%8C%96%E7%AE%97%E6%B3%95%E7%9A%84%E6%BC%94%E8%BF%9B-%E4%BB%8E%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E5%88%B0adam/</guid><description>&lt;p>为什么训练 ResNet 时大家都说&amp;quot;调 LR 是手艺活&amp;quot;，到了 GPT/LLaMA 这一代，几乎所有论文却清一色地写 &amp;ldquo;AdamW，$\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$&amp;quot;？这不是巧合——它是&lt;strong>优化器三十年演进&lt;/strong>的最终收敛点。&lt;/p></description></item><item><title>Solving Constrained Mean-Variance Portfolio Optimization Problems Using Spiral Optimization Algorithm</title><link>https://www.chenk.top/zh/standalone/solving-constrained-mean-variance-portfolio-optimization-pro/</link><pubDate>Wed, 07 Dec 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/solving-constrained-mean-variance-portfolio-optimization-pro/</guid><description>&lt;p>马克维茨的均值-方差模型在课本里很优雅，但只要把交易台上的真实约束塞进去——&amp;ldquo;持有就至少持 5%&amp;quot;、&amp;ldquo;必须从 500 只股票里挑出恰好 10 只&amp;rdquo;——原本闭式可解的二次规划立刻退化成&lt;strong>混合整数非线性规划&lt;/strong>（MINLP）。拉格朗日乘子、KKT 条件、内点法这一整套主流求解链条直接哑火。本文讨论的论文用&lt;strong>螺旋优化算法&lt;/strong>（Spiral Optimization Algorithm，简称 SOA）这种基于种群的元启发式方法来攻这个问题，并在小规模基准上证明了它能找到具有竞争力的可行解。&lt;/p></description></item><item><title>网球场景计算机视觉系统设计：从论文调研到工业实现</title><link>https://www.chenk.top/zh/standalone/%E7%BD%91%E7%90%83%E5%9C%BA%E6%99%AF%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88/</link><pubDate>Wed, 09 Nov 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E7%BD%91%E7%90%83%E5%9C%BA%E6%99%AF%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88/</guid><description>&lt;p>把一颗直径 6.7 cm、时速 200+ km/h 的网球，从 8 路 4K 摄像头里实时重建成毫米级三维轨迹，并同步识别球员动作——这是一个把 &lt;strong>小物体检测、多视角几何、卡尔曼滤波、物理建模、姿态估计&lt;/strong> 全部串起来的系统问题。本文按工业落地的顺序，把每个子问题拆开讲清楚：先界定难点，再做论文调研选型，再给出可运行代码，最后落到性能预算与部署架构。&lt;/p></description></item><item><title>操作系统基础深度解析</title><link>https://www.chenk.top/zh/standalone/%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F%E5%9F%BA%E7%A1%80%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</link><pubDate>Sun, 28 Aug 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F%E5%9F%BA%E7%A1%80%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</guid><description>&lt;p>打开一个终端，敲下 &lt;code>cat hello.txt&lt;/code>。在你按下回车的那一瞬间，发生了至少七层下钻：bash 解析命令 -&amp;gt; fork+execve 启动 cat 进程 -&amp;gt; 进程的内存被分配虚拟地址空间 -&amp;gt; cat 调用 &lt;code>read()&lt;/code> 触发 syscall -&amp;gt; CPU 切到内核态 -&amp;gt; VFS 转发到 ext4 -&amp;gt; 块层给 NVMe 排好请求 -&amp;gt; 硬件通过 DMA 把字节送回 -&amp;gt; 中断把控制权交还给 cat -&amp;gt; 字节经过页缓存复制到用户缓冲区 -&amp;gt; 屏幕上出现内容。&lt;/p></description></item><item><title>Graph Neural Networks for Learning Equivariant Representations of Neural Networks</title><link>https://www.chenk.top/zh/standalone/graph-neural-networks-for-learning-equivariant-representatio/</link><pubDate>Tue, 14 Jun 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/graph-neural-networks-for-learning-equivariant-representatio/</guid><description>&lt;p>把一个 MLP 的隐藏单元换个顺序，函数本身一点没变，可参数向量却换了一副面孔——这是「在网络空间里做学习」绕不开的第一道坎。如果表示方式不尊重这种置换对称性，下游模型就要花大量容量去记忆「同一个函数的不同写法」，泛化和迁移都谈不上。Kofinas 等人在 ICML 2024 的这篇 &lt;em>Graph Neural Networks for Learning Equivariant Representations of Neural Networks&lt;/em> 给的解法非常干净：把网络本身当成一张有向图（神经元当节点、权重当边），再用一个本身就对节点置换等变的 GNN 去读它。下面按照「为什么需要等变」「神经图怎么构造」「等变到底意味着什么」「模型怎么搭」「四类下游任务」「细节与坑」的顺序展开。&lt;/p></description></item></channel></rss>