论文笔记
Integrating Large Language Models with Graphical Session-Based Recommendation
会话推荐(Session-based Recommendation, SBR)本质上是一个"短历史"问题:你只看到用户在一次会话里很短的一段点击序列(通常 3-20 次),就要预测下一个最可能点击的物品。难点不在概念,而在工程现实——会话短、长尾多、冷启动多,纯靠交互图(ID + 转移边)经常学不稳:新物品几乎没有边,长尾物品的边稀疏且不可靠,再叠加一层用户随手点击的噪声。
Prefix-Tuning:为生成任务优化连续提示
Prefix-Tuning 冻结整个语言模型,只学习一组注入到注意力层的连续向量来引导生成。本文从注意力公式、重参数化、KV cache 机制到 GPT-2 上的实验,把这套方法和 Adapter、Prompt Tuning、LoRA 的边界讲清楚。
Graph Contextualized Self-Attention Network for Session-based Recommendation
会话推荐里你能看到的就那么一小段匿名点击序列:没有用户画像、没有历史长期偏好、没有人口统计。所有信号都封装在这几次点击里。GC-SAN(IJCAI 2019)的思路很务实:把当时最强的两个想法直接叠起来——SR-GNN 的会话图捕捉局部转移结构,Transformer 的自注意力捕捉长距离意图,最后用一个标量权重把"当前点击"和"全局意图"线性融合。它本身不 …
paper2repo: GitHub Repository Recommendation for Academic Papers
读论文时最折磨的瞬间之一:方法看懂了,想跑一下原作者的代码,结果论文里那行 “code available at” 要么压根没有,要么链接已经 404,要么指向的是一个空仓库。退而求其次去 GitHub 搜,能命中的基本都是名字起得规范、README 写得用心的那批;冷门方法、起名随意的工程,怎么都翻不出来。
HCGR —— Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation
会话推荐里的"兴趣结构"几乎天然是分层的:用户先点开一个大类(“跑鞋”),然后筛品牌,再筛尺码、价位,最后落到一个 SKU。这条轨迹其实是一棵树——每多一次点击,候选集就大致按倍数收窄。问题在于:在欧氏空间里把这种树状结构放进去,需要堆很多维度才能让叶子节点不互相挤压,因为欧氏空间的"体积"只随半径多项式增长;而双曲空间的体积随半径指 …
Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)
LoRA 把"全量微调"压缩成一个低秩更新,在工程上几乎是免费的:参数少、训练稳、能合并回原权重,因此部署时和原模型一样便宜。但只要你的微调数据稍微"杂"一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大,可惜代价线性增长,而且本质上依然只有一个子空间,只是更"胖"了。
SR-GNN —— Session-based Recommendation with Graph Neural Networks
SR-GNN 把一段点击会话拆成有向加权图,再用门控 GNN 做下一跳预测。本文系统讲清会话图构建、GGNN 更新、局部+全局池化、训练细节、基准对比,以及决定要不要在生产里用它的几类失败模式。
Solving Constrained Mean-Variance Portfolio Optimization Problems Using Spiral Optimization Algorithm
马克维茨的均值-方差模型在课本里很优雅,但只要把交易台上的真实约束塞进去——“持有就至少持 5%"、“必须从 500 只股票里挑出恰好 10 只”——原本闭式可解的二次规划立刻退化成混合整数非线性规划(MINLP)。拉格朗日乘子、KKT 条件、内点法这一整套主流求解链条直接哑火。本文讨论的论文用螺旋优化算法(Spiral Optimization …
Graph Neural Networks for Learning Equivariant Representations of Neural Networks
把神经网络本身画成一张图(神经元做节点、权重做边),再让 GNN 来读它,就能得到一个对隐藏单元置换天然等变的表示。换对了对称性,预测泛化、检索相似模型、跨架构合并权重这类任务才真正变得可学。