Tagged

论文笔记

Oct 13, 2024 Standalone 11 min read

Integrating Large Language Models with Graphical Session-Based Recommendation

会话推荐（Session-based Recommendation, SBR）本质上是一个"短历史"问题：你只看到用户在一次会话里很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点不在概念，而在工程现实——会话短、长尾多、冷启动多，纯靠交互图（ID + 转移边）经常学不稳：新物品几乎没有边，长尾物品的边稀疏且不可靠，再叠加一层用户随手点击的噪声。

Apr 20, 2024 Standalone 9 min read

Prefix-Tuning：为生成任务优化连续提示

Prefix-Tuning 冻结整个语言模型，只学习一组注入到注意力层的连续向量来引导生成。本文从注意力公式、重参数化、KV cache 机制到 GPT-2 上的实验，把这套方法和 Adapter、Prompt Tuning、LoRA 的边界讲清楚。

Dec 22, 2023 Standalone 9 min read

Graph Contextualized Self-Attention Network for Session-based Recommendation

会话推荐里你能看到的就那么一小段匿名点击序列：没有用户画像、没有历史长期偏好、没有人口统计。所有信号都封装在这几次点击里。GC-SAN（IJCAI 2019）的思路很务实：把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构，Transformer 的自注意力捕捉长距离意图，最后用一个标量权重把"当前点击"和"全局意图"线性融合。它本身不 …

Aug 15, 2023 Standalone 9 min read

paper2repo： GitHub Repository Recommendation for Academic Papers

读论文时最折磨的瞬间之一：方法看懂了，想跑一下原作者的代码，结果论文里那行 “code available at” 要么压根没有，要么链接已经 404，要么指向的是一个空仓库。退而求其次去 GitHub 搜，能命中的基本都是名字起得规范、README 写得用心的那批；冷门方法、起名随意的工程，怎么都翻不出来。

Apr 23, 2023 Standalone 11 min read

HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation

会话推荐里的"兴趣结构"几乎天然是分层的：用户先点开一个大类（“跑鞋”），然后筛品牌，再筛尺码、价位，最后落到一个 SKU。这条轨迹其实是一棵树——每多一次点击，候选集就大致按倍数收窄。问题在于：在欧氏空间里把这种树状结构放进去，需要堆很多维度才能让叶子节点不互相挤压，因为欧氏空间的"体积"只随半径多项式增长；而双曲空间的体积随半径指 …

Apr 15, 2023 Standalone 11 min read

Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

LoRA 把"全量微调"压缩成一个低秩更新，在工程上几乎是免费的：参数少、训练稳、能合并回原权重，因此部署时和原模型一样便宜。但只要你的微调数据稍微"杂"一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大，可惜代价线性增长，而且本质上依然只有一个子空间，只是更"胖"了。

Dec 27, 2022 Standalone 12 min read

SR-GNN —— Session-based Recommendation with Graph Neural Networks

SR-GNN 把一段点击会话拆成有向加权图，再用门控 GNN 做下一跳预测。本文系统讲清会话图构建、GGNN 更新、局部+全局池化、训练细节、基准对比，以及决定要不要在生产里用它的几类失败模式。

Dec 7, 2022 Standalone 10 min read

Solving Constrained Mean-Variance Portfolio Optimization Problems Using Spiral Optimization Algorithm

马克维茨的均值-方差模型在课本里很优雅，但只要把交易台上的真实约束塞进去——“持有就至少持 5%"、“必须从 500 只股票里挑出恰好 10 只”——原本闭式可解的二次规划立刻退化成混合整数非线性规划（MINLP）。拉格朗日乘子、KKT 条件、内点法这一整套主流求解链条直接哑火。本文讨论的论文用螺旋优化算法（Spiral Optimization …

Jun 14, 2022 Standalone 12 min read

Graph Neural Networks for Learning Equivariant Representations of Neural Networks

把神经网络本身画成一张图（神经元做节点、权重做边），再让 GNN 来读它，就能得到一个对隐藏单元置换天然等变的表示。换对了对称性，预测泛化、检索相似模型、跨架构合并权重这类任务才真正变得可学。