论文笔记 on Chen Kai Blog

Prefix-Tuning：为生成任务优化连续提示

Tue, 29 Jul 2025 09:00:00 +0000

将 GPT-2 微调到具体任务上需要额外存储 1.5B 参数的权重；切换十几个任务时，存储和上线成本会让团队望而却步，更不用说实现“一份基模 + 多任务共享”的理想架构。Prefix-Tuning（Li & Liang, 2021）走了一条相反的路：模型权重一个不动，只学一小段连续向量——也就是论文里所说的“前缀”——在每一层注意力里被当作“已经在那里的上下文”喂进去。模型本身保持不变，只需更换前缀，即可赋予模型对应任务的适配行为。

Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

Sun, 01 Sep 2024 09:00:00 +0000

LoRA 将全量微调压缩为一个低秩更新，在工程上近乎零成本：参数量少、训练稳定、可合并回原权重，因此部署开销与原模型完全一致。然而，一旦微调数据具备一定异质性——例如混合了代码、数学、指令遵循和文本生成任务——单一低秩子空间便难以充分建模。直觉上的解法是把 $$r$$ 调大，可惜代价线性增长，而且本质上依然只有一个子空间，只是更“胖”了。

HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation

Wed, 01 May 2024 09:00:00 +0000

会话推荐中的“兴趣结构”几乎天然是分层的：用户先点开一个大类（如“跑鞋”），再筛选品牌、尺码和价位，最终选定一个 SKU。这条交互轨迹天然构成一棵树——每次点击都会将候选集大致按固定倍数缩小。问题在于，在欧氏空间中嵌入这类树状结构需要大幅增加维度，以避免叶子节点在表示空间中过度靠近，因为欧氏空间的“体积”只随半径多项式增长；而双曲空间的体积随半径指数级增长，正好与树的分支增长是同一个量级，几维就能把整条长尾摊开。

paper2repo：GitHub Repository Recommendation for Academic Papers

Mon, 26 Jun 2023 09:00:00 +0000

读论文时最折磨的瞬间之一是：方法看懂了，想复现原作者的代码，结果论文里的 “code available at” 要么根本没提，要么链接已失效（404），要么指向一个空仓库。退而求其次去 GitHub 搜，能命中的基本都是名字起得规范、README 写得用心的项目；冷门方法、起名随意的工程则很难找到。

SR-GNN —— Session-based Recommendation with Graph Neural Networks

Sun, 25 Jun 2023 09:00:00 +0000

用户依次点击 A、 B、 C、 B、 D。将其输入序列模型，得到的是五个 token 压缩而成的单一隐状态；而输入 SR-GNN，则生成一张有向图——边 B -> C 即便用户回到 B 也仍然存在，节点 B 只出现一次（它的入边和出邻居都会贡献到它的表示上），整段点击的拓扑都被原样保留在邻接矩阵里。这就是 SR-GNN（Wu 等, AAAI 2019）在多个会话推荐基准上稳稳压过 GRU4Rec、 NARM 等纯序列模型的根本原因。

Graph Contextualized Self-Attention Network for Session-based Recommendation

Sun, 29 Jan 2023 09:00:00 +0000

会话推荐里你能看到的只是一小段匿名点击序列，没有用户画像、历史长期偏好或人口统计，所有信号都封装在这几次点击中。GC-SAN（IJCAI 2019）的思路很务实：把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构，Transformer 的自注意力捕捉长距离意图，最后用一个标量权重把“当前点击”和“全局意图”线性融合。它本身不引入新机制，但作为一个基准，至今仍难以被同等参数量级的模型超越。

Integrating Large Language Models with Graphical Session-Based Recommendation

Sun, 22 Jan 2023 09:00:00 +0000

会话推荐（Session-based Recommendation, SBR）本质上是一个“短历史”问题：你只看到用户在一次会话中很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点在于工程现实——会话短、长尾多、冷启动多，仅依赖交互图（ID + 转移边）往往难以稳定训练：新物品几乎无交互边，长尾物品的边既稀疏又不可靠，用户随意点击还会引入噪声。

Graph Neural Networks for Learning Equivariant Representations of Neural Networks

Sun, 03 Apr 2022 09:00:00 +0000

把一个 MLP 的隐藏单元换个顺序，函数本身不变，但参数向量却完全不同——这是「在网络空间里做学习」绕不开的第一道坎。如果不尊重这种置换对称性，下游模型就需要大量容量来记忆同一个函数的不同写法，从而影响泛化和迁移。 Kofinas 等人在 ICML 2024 的论文 Graph Neural Networks for Learning Equivariant Representations of Neural Networks 提出了一种简洁的解决方案：将网络视为有向图（神经元为节点，权重为边），并使用对节点置换等变的 GNN 来读取。下面依次介绍为什么需要等变、神经图怎么构造、等变的意义、模型搭建方法以及四类下游任务及其细节与坑。