<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>论文笔记 on Chen Kai Blog</title><link>https://www.chenk.top/zh/categories/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0/</link><description>Recent content in 论文笔记 on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 29 Jul 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/categories/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0/index.xml" rel="self" type="application/rss+xml"/><item><title>Prefix-Tuning：为生成任务优化连续提示</title><link>https://www.chenk.top/zh/standalone/prefix-tuning-optimizing-continuous-prompts-for-generation/</link><pubDate>Tue, 29 Jul 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/prefix-tuning-optimizing-continuous-prompts-for-generation/</guid><description>&lt;p>将 GPT-2 微调到具体任务上需要额外存储 1.5B 参数的权重；切换十几个任务时，存储和上线成本会让团队望而却步，更不用说实现“一份基模 + 多任务共享”的理想架构。&lt;strong>Prefix-Tuning&lt;/strong>（Li &amp;amp; Liang, 2021）走了一条相反的路：模型权重一个不动，只学一小段连续向量——也就是论文里所说的“前缀”——在每一层注意力里被当作“已经在那里的上下文”喂进去。模型本身保持不变，只需更换前缀，即可赋予模型对应任务的适配行为。&lt;/p></description></item><item><title>Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)</title><link>https://www.chenk.top/zh/standalone/mixture-of-subspaces-in-low-rank-adaptation-moslora/</link><pubDate>Sun, 01 Sep 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/mixture-of-subspaces-in-low-rank-adaptation-moslora/</guid><description>&lt;p>LoRA 将全量微调压缩为一个低秩更新，在工程上近乎零成本：参数量少、训练稳定、可合并回原权重，因此部署开销与原模型完全一致。然而，一旦微调数据具备一定异质性——例如混合了代码、数学、指令遵循和文本生成任务——单一低秩子空间便难以充分建模。直觉上的解法是把 &lt;span class="math-inline">$r$&lt;/span>
 调大，可惜代价线性增长，而且本质上依然只有&lt;strong>一个&lt;/strong>子空间，只是更“胖”了。&lt;/p></description></item><item><title>HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation</title><link>https://www.chenk.top/zh/standalone/hcgr-hyperbolic-contrastive-graph-representation-learning-fo/</link><pubDate>Wed, 01 May 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/hcgr-hyperbolic-contrastive-graph-representation-learning-fo/</guid><description>&lt;p>会话推荐中的“兴趣结构”几乎天然是分层的：用户先点开一个大类（如“跑鞋”），再筛选品牌、尺码和价位，最终选定一个 SKU。这条交互轨迹天然构成一棵树——每次点击都会将候选集大致按固定倍数缩小。问题在于，在欧氏空间中嵌入这类树状结构需要大幅增加维度，以避免叶子节点在表示空间中过度靠近，因为欧氏空间的“体积”只随半径多项式增长；而双曲空间的体积随半径指数级增长，正好与树的分支增长是同一个量级，几维就能把整条长尾摊开。&lt;/p></description></item><item><title>paper2repo：GitHub Repository Recommendation for Academic Papers</title><link>https://www.chenk.top/zh/standalone/paper2repo-github-repository-recommendation-for-academic-pap/</link><pubDate>Mon, 26 Jun 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/paper2repo-github-repository-recommendation-for-academic-pap/</guid><description>&lt;p>读论文时最折磨的瞬间之一是：方法看懂了，想复现原作者的代码，结果论文里的 &amp;ldquo;code available at&amp;rdquo; 要么根本没提，要么链接已失效（404），要么指向一个空仓库。退而求其次去 GitHub 搜，能命中的基本都是名字起得规范、README 写得用心的项目；冷门方法、起名随意的工程则很难找到。&lt;/p></description></item><item><title>SR-GNN —— Session-based Recommendation with Graph Neural Networks</title><link>https://www.chenk.top/zh/standalone/session-based-recommendation-with-graph-neural-networks/</link><pubDate>Sun, 25 Jun 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/session-based-recommendation-with-graph-neural-networks/</guid><description>&lt;p>用户依次点击 &lt;strong>A、 B、 C、 B、 D&lt;/strong>。将其输入序列模型，得到的是五个 token 压缩而成的单一隐状态；而输入 SR-GNN，则生成一张有向图——边 &lt;code>B -&amp;gt; C&lt;/code> 即便用户回到 &lt;code>B&lt;/code> 也仍然存在，节点 &lt;code>B&lt;/code> 只出现一次（它的入边和出邻居都会贡献到它的表示上），整段点击的拓扑都被原样保留在邻接矩阵里。这就是 &lt;a href="https://arxiv.org/abs/1811.00855" target="_blank" rel="noopener noreferrer">SR-GNN（Wu 等, AAAI 2019） &lt;span aria-hidden="true" style="font-size:0.75em; opacity:0.55; margin-left:2px;">↗&lt;/span>&lt;/a>
 在多个会话推荐基准上稳稳压过 GRU4Rec、 NARM 等纯序列模型的根本原因。&lt;/p></description></item><item><title>Graph Contextualized Self-Attention Network for Session-based Recommendation</title><link>https://www.chenk.top/zh/standalone/graph-contextualized-self-attention-network-for-session-base/</link><pubDate>Sun, 29 Jan 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/graph-contextualized-self-attention-network-for-session-base/</guid><description>&lt;p>会话推荐里你能看到的只是一小段匿名点击序列，没有用户画像、历史长期偏好或人口统计，所有信号都封装在这几次点击中。&lt;strong>GC-SAN&lt;/strong>（IJCAI 2019）的思路很务实：把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构，Transformer 的自注意力捕捉长距离意图，最后用一个标量权重把“当前点击”和“全局意图”线性融合。它本身不引入新机制，但作为一个基准，至今仍难以被同等参数量级的模型超越。&lt;/p></description></item><item><title>Integrating Large Language Models with Graphical Session-Based Recommendation</title><link>https://www.chenk.top/zh/standalone/integrating-large-language-models-with-graphical-session-bas/</link><pubDate>Sun, 22 Jan 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/integrating-large-language-models-with-graphical-session-bas/</guid><description>&lt;p>会话推荐（Session-based Recommendation, SBR）本质上是一个“短历史”问题：你只看到用户在一次会话中很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点在于工程现实——会话短、长尾多、冷启动多，仅依赖交互图（ID + 转移边）往往难以稳定训练：新物品几乎无交互边，长尾物品的边既稀疏又不可靠，用户随意点击还会引入噪声。&lt;/p></description></item><item><title>Graph Neural Networks for Learning Equivariant Representations of Neural Networks</title><link>https://www.chenk.top/zh/standalone/graph-neural-networks-for-learning-equivariant-representatio/</link><pubDate>Sun, 03 Apr 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/graph-neural-networks-for-learning-equivariant-representatio/</guid><description>&lt;p>把一个 MLP 的隐藏单元换个顺序，函数本身不变，但参数向量却完全不同——这是「在网络空间里做学习」绕不开的第一道坎。如果不尊重这种置换对称性，下游模型就需要大量容量来记忆同一个函数的不同写法，从而影响泛化和迁移。 Kofinas 等人在 ICML 2024 的论文 &lt;em>Graph Neural Networks for Learning Equivariant Representations of Neural Networks&lt;/em> 提出了一种简洁的解决方案：将网络视为有向图（神经元为节点，权重为边），并使用对节点置换等变的 GNN 来读取。下面依次介绍为什么需要等变、神经图怎么构造、等变的意义、模型搭建方法以及四类下游任务及其细节与坑。&lt;/p></description></item></channel></rss>