标签

Deep Learning

Feb 7, 2026 机器学习数学推导 24 分钟

机器学习数学推导(十九):神经网络与反向传播

神经网络如何学习?本文推导前向传播的矩阵形式、反向传播的链式法则逐层推导、梯度消失/爆炸的数学分析、以及 Xavier 和 He 初始化的方差保持策略。

Dec 10, 2025 推荐系统 46 分钟

推荐系统(四)—— CTR 预估与点击率建模

CTR 预估模型全面解析:从 Logistic Regression 到 FM/FFM,再到 DeepFM、xDeepFM、DCN、AutoInt、FiBiNet 等深度学习模型,附 PyTorch 实现与训练策略。

Dec 7, 2025 推荐系统 30 分钟

推荐系统(三)—— 深度学习基础模型

从 MLP 到 Embedding,再到 NeuMF、YouTube DNN、Wide & Deep —— 用渐进的方式讲清深度学习推荐系统的每一块基石,附经过原文核对的架构图和可直接运行的 PyTorch 代码。

Jul 30, 2025 单点深潜 20 分钟

重参数化技巧与 Gumbel-Softmax 详解

讲清楚连续重参数化与 Gumbel-Softmax 的推导、直觉与实现:为什么梯度能穿过采样节点,温度参数如何权衡偏差-方差,以及离散变量端到端训练的常见坑。

May 31, 2025 迁移学习 38 分钟

迁移学习(六):多任务学习

多任务学习完全指南:硬/软参数共享、梯度冲突与 PCGrad/GradNorm/CAGrad、辅助任务设计,以及完整的多任务框架实现。

May 25, 2025 迁移学习 32 分钟

迁移学习(五):知识蒸馏

把大模型的能力压进小模型而几乎不掉点:暗知识、温度缩放、响应/特征/关系蒸馏、自蒸馏与多策略实现的完整指南。

May 19, 2025 迁移学习 38 分钟

迁移学习(四):小样本学习

从极少样本中学会新概念:N-way K-shot 评测协议、度量学习(Siamese、Prototypical、Matching、Relation 网络)、元学习(MAML、Reptile)、Episode 训练范式,以及一份可直接运行的 Prototypical 网络实现。

May 13, 2025 迁移学习 36 分钟

迁移学习(三):域适应

域适应实战指南:协变量偏移、标签偏移、DANN 梯度反转、MMD 对齐、CORAL、自训练、AdaBN,以及一份可运行的 DANN 完整实现。

May 7, 2025 迁移学习 40 分钟

迁移学习(二):预训练与微调

预训练如何从无标注数据中学到强大的先验,微调如何把它适配到具体任务。涵盖对比学习、掩码语言模型、判别式学习率、层冻结、灾难性遗忘、LoRA,以及一个工业级 BERT 微调实现。

May 1, 2025 迁移学习 34 分钟

迁移学习(一):基础与核心概念

迁移学习入门指南:为什么迁移有效、形式化定义、分类体系、负迁移,以及一个基于 MMD 域适应的完整特征迁移实现。

Apr 16, 2025 线性代数 26 分钟

线性代数(十六):深度学习中的线性代数——从全连接到 Transformer

深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式,反向传播的矩阵链式法则,卷积的 im2col 技巧,注意力机制的矩阵操作,到 LoRA 低秩微调。

Mar 26, 2025 线性代数 30 分钟

线性代数(十三):张量与多线性代数——从标量到高维数据立方体

张量是向量和矩阵到任意维度的推广。本章从标量、向量、矩阵出发,讲解纤维、切片、展开等概念,以及 CP 分解、Tucker 分解和 HOSVD,并探讨张量在神经网络压缩和推荐系统中的应用。

Jun 30, 2023 单点深潜 18 分钟

浅谈位置编码:从 Sinusoidal 到 RoPE 与 ALiBi

系统梳理 Transformer 位置编码:为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳,以及如何为新模型选型。

Jun 27, 2023 单点深潜 18 分钟

变分自编码器 (VAE):从直觉到实现与调试

从零用 PyTorch 构建 VAE。涵盖 ELBO 目标函数、重参数化技巧、后验坍塌修复、beta-VAE,以及完整的训练流水线。

Sep 16, 2022 优化理论 20 分钟

优化理论(三):梯度下降族——从 SGD 到 AdamW

一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW,再到 Lion / Sophia / Schedule-Free 的完整脉络:每一步解决了前一步的什么痛点?为什么大模型几乎都在用 AdamW?以及 2023 年之后我们究竟走到了哪里。