Tagged

深度学习

Feb 7, 2026 ML Math Derivations 10 min read

机器学习数学推导(十九):神经网络与反向传播

神经网络如何学习?本文推导前向传播的矩阵形式、反向传播的链式法则逐层推导、梯度消失/爆炸的数学分析、以及 Xavier 和 He 初始化的方差保持策略。

Dec 10, 2025 Recommendation Systems 6 min read

推荐系统(四)—— CTR预估与点击率建模

CTR预估模型全面解析:从Logistic Regression到FM/FFM,再到DeepFM、xDeepFM、DCN、AutoInt、FiBiNet等深度学习模型,附PyTorch实现与训练策略。

Dec 7, 2025 Recommendation Systems 2 min read

推荐系统(三)—— 深度学习基础模型

从 MLP 到 Embedding,再到 NeuMF、YouTube DNN、Wide & Deep —— 用渐进的方式讲清深度学习推荐系统的每一块基石,附经过原文核对的架构图和可直接运行的 PyTorch 代码。

Oct 26, 2025 NLP 5 min read

自然语言处理(六):GPT与生成式语言模型

从GPT-1到GPT-4:理解自回归语言建模、解码策略(贪心、束搜索、top-k、top-p)、上下文学习,并用HuggingFace构建聊天机器人。

Oct 21, 2025 NLP 14 min read

自然语言处理(五):BERT与预训练模型

BERT 如何让双向预训练成为 NLP 的默认范式:从架构到 80/10/10 掩码规则,到微调技巧,再到 RoBERTa/ALBERT/ELECTRA 全家桶,并附完整 HuggingFace 代码。

Oct 11, 2025 NLP 7 min read

自然语言处理(三):RNN与序列建模

RNN、LSTM、GRU 如何通过记忆处理序列。从第一性原理推导梯度消失,用 PyTorch 实现字符级文本生成器和 Seq2Seq 翻译器。

Oct 6, 2025 NLP 15 min read

自然语言处理(二):词向量与语言模型

深入理解Word2Vec、GloVe和FastText如何将词语转化为捕获语义的向量。掌握数学原理,用Gensim训练自己的词嵌入,理解嵌入与语言模型的关系。

Oct 1, 2025 NLP 14 min read

自然语言处理(一):NLP入门与文本预处理

从第一性原理出发的 NLP 入门:梳理四个时代的脉络,亲手搭建从清洗到向量化的完整流水线,把分词、TF-IDF、n-gram 与分布式表示背后的数学讲清楚。

May 13, 2025 Transfer Learning 13 min read

迁移学习(三):域适应

域适应实战指南:协变量偏移、标签偏移、DANN 梯度反转、MMD 对齐、CORAL、自训练、AdaBN,以及一份可运行的 DANN 完整实现。

May 7, 2025 Transfer Learning 14 min read

迁移学习(二):预训练与微调

预训练如何从无标注数据中学到强大的先验,微调如何把它适配到具体任务。涵盖对比学习、掩码语言模型、判别式学习率、层冻结、灾难性遗忘、LoRA,以及一个工业级 BERT 微调实现。

May 1, 2025 Transfer Learning 15 min read

迁移学习(一):基础与核心概念

迁移学习入门指南:为什么迁移有效、形式化定义、分类体系、负迁移,以及一个基于 MMD 域适应的完整特征迁移实现。

Mar 26, 2025 Linear Algebra 20 min read

张量与多线性代数 -- 从标量到高维数据立方体

张量是向量和矩阵到任意维度的推广。本章从标量、向量、矩阵出发,讲解纤维、切片、展开等概念,以及 CP 分解、Tucker 分解和 HOSVD,并探讨张量在神经网络压缩和推荐系统中的应用。

Dec 15, 2024 Time Series Forecasting 12 min read

时间序列模型(八):Informer -- 高效长序列预测

Informer 用 ProbSparse 注意力、编码器蒸馏、生成式解码器把 Transformer 复杂度从 O(L^2) 降到 O(L log L)。完整数学推导、PyTorch 代码与 ETT/气象 benchmark。

Nov 30, 2024 Time Series Forecasting 13 min read

时间序列模型(七):N-BEATS -- 可解释的深度架构

N-BEATS 把深度学习的表达力和经典分解的可解释性合二为一:基函数展开、双重残差堆叠、M4 竞赛分析,以及完整的 PyTorch 代码。

Nov 15, 2024 Time Series Forecasting 12 min read

时间序列模型(六):时序卷积网络 (TCN)

TCN 用因果膨胀卷积换取并行训练和指数级感受野。完整 PyTorch 实现,附交通流和多变量传感器两个实战案例。

Oct 31, 2024 Time Series Forecasting 11 min read

时间序列模型(五):时间序列的 Transformer 架构

时间序列的 Transformer 全景:编码器-解码器结构、时序位置编码、O(n^2) 注意力瓶颈、Decoder-only 自回归预测与 Patching 策略。含 Autoformer / FEDformer / Informer / PatchTST 选型与可直接运行的实现。

Oct 16, 2024 Time Series Forecasting 10 min read

时间序列模型(四):Attention 机制 -- 直接的长程依赖

自注意力、多头注意力和位置编码在时间序列中的应用。逐步推导数学公式,附 PyTorch 实现和注意力可视化。

Oct 1, 2024 Time Series Forecasting 8 min read

时间序列模型(三):GRU -- 轻量门控与效率权衡

GRU 把 LSTM 精炼为两个门,参数减少 25%,训练快 10--15%。本文用公式、基准测试和决策矩阵告诉你 GRU 何时优于 LSTM。

Sep 16, 2024 Time Series Forecasting 7 min read

时间序列模型(二):LSTM -- 门控机制与长期依赖

LSTM 的遗忘门、输入门和输出门如何解决梯度消失问题。完整的 PyTorch 时间序列预测代码和实用调参技巧。