Mathematical Derivations on Chen Kai Blog

机器学习数学推导（二十）：正则化与模型选择

Sun, 08 Feb 2026 09:00:00 +0000

你将学到什么#

一个拥有 1 亿参数的网络，用 5 万张图片训练，按经典理论应该会严重过拟合，但现代深度网络却能很好地泛化。这背后主要有两个原因：正则化——一系列限制模型容量的技术；以及泛化理论——从数学上解释学习何时有效。作为整个系列的最后一章，我们将整合之前积累的所有工具——最小二乘、MAP 估计、优化方法、EM 算法、神经网络——来探讨这个领域最深刻的问题：机器学习为什么能泛化？

机器学习数学推导（十九）：神经网络与反向传播

Sat, 07 Feb 2026 09:00:00 +0000

本文概览#

单个感知机无法解决 XOR 问题，但只要堆叠足够多的感知机并引入非线性激活函数，就能构建出一个通用函数逼近器。那么，这样的网络如何从数据中学习？答案是反向传播——它本质上是对链式法则的高效应用，通过一次反向遍历复用中间结果，成为过去四十年所有深度学习库的核心引擎。深入理解其数学原理，还能揭示两个关键现象：为什么深层网络容易遭遇梯度消失或爆炸，以及为什么权重初始化远非随意选择。

机器学习数学推导（十八）：聚类算法

Fri, 06 Feb 2026 09:00:00 +0000

本文要解决什么#

面对一百万条没有标签的客户记录，能否自动找出有意义的分组？这就是聚类——无监督学习中最基础的任务。与分类不同，聚类首先要回答一个棘手的问题：“相似”到底是什么意思？每种聚类算法本质上都是对这个问题的不同回答：它们从几何、概率或图论的角度，对“群组”施加了不同的先验假设。

机器学习数学推导（十七）：降维与主成分分析

Thu, 05 Feb 2026 09:00:00 +0000

你将学到什么#

给聚类算法输入 10,000 维的数据，它大概率会失败——问题不在于算法本身，而在于高维空间对基于距离的学习方法天然不友好。体积几乎都集中在球壳上，最近邻和最远邻的距离比值趋近于 $$1$$ ，“近”这个概念变得毫无意义。降维的目的正是将数据投影到低维空间，同时保留其关键结构。

机器学习数学推导（十六）：条件随机场

Wed, 04 Feb 2026 09:00:00 +0000

你将学到什么#

命名实体识别、词性标注、信息抽取——这些任务都要求给序列中的每个元素打上标签。HMM（第十五篇）采用生成式方法，通过建模联合分布 $P(\mathbf{X},\mathbf{Y})$ 来解决这一问题。但为了使联合分布可分解，它不得不付出高昂代价：每个观测值仅被允许依赖于其对应的隐状态标签。然而在真实文本中，“bank”究竟是名词还是动词，往往取决于前后文、词缀、大小写乃至词典查询结果——所有这些特征共同作用。

机器学习数学推导（十五）：隐马尔可夫模型

Tue, 03 Feb 2026 09:00:00 +0000

雾里传来脚步声，有人在你身后。你看不见人，只能听到短促、轻快、急促的声音。从节奏和音调判断，对方是在走路、跑步，还是跛行？如果听到一整段声音序列，哪种步态最有可能产生它？再进一步，根据我对“走路”建立的模型，这段声音本身出现的概率有多大？

机器学习数学推导（十四）：变分推断与变分 EM

Mon, 02 Feb 2026 09:00:00 +0000

后验 $p(\mathbf{z}\mid\mathbf{x})$ 无法直接计算时，我们面临两条路径。采样方法（MCMC）通过构造一条马尔可夫链，使其平稳分布恰好等于目标后验——理论上最终能精确逼近，但收敛缓慢且诊断困难。变分推断（VI）则另辟蹊径：先选定一个结构简单的分布族 $\mathcal{Q}$ ，再从中找出最接近真实后验的那个成员 $q^\star$ 。如此一来，推断问题就转化为优化问题——训练神经网络的那一套工具，现在也能用来拟合贝叶斯模型了。

机器学习数学推导（十三）：EM 算法与 GMM

Sun, 01 Feb 2026 09:00:00 +0000

数据中常隐含难以观测的结构：样本所属的簇未知，某些特征的真实值缺失，文本背后的潜在主题也不明确。这些隐变量让最大似然估计变得棘手——似然函数变成“对数里面套求和”的形式，既没有闭式解，梯度方法也容易被隐变量困住。EM 算法用一个看似简单的思路巧妙绕开这一难题：交替进行两步操作——先基于当前参数下的隐变量后验分布计算期望（E 步），再将这些期望当作真实值来更新模型参数（M 步）。每次迭代都严格保证对数似然值不减。本文将从第一性原理出发推导 EM 算法，利用 Jensen 不等式证明其单调上升性质，并将其应用于最经典的场景——高斯混合模型（GMM），即 K-means 的软化、椭球化推广。

机器学习数学推导（十二）：XGBoost 与 LightGBM

Sat, 31 Jan 2026 09:00:00 +0000

XGBoost 和 LightGBM 是表格数据领域的两大利器——从 Kaggle 排行榜到风控系统、广告排序和用户流失预测，背后几乎都有它们的身影。两者都基于梯度提升树（Gradient-Boosted Trees，见第 11 篇），但在工程设计上选择了截然不同的方向：

机器学习数学推导（十一）：集成学习

Fri, 30 Jan 2026 09:00:00 +0000

为什么一群平庸的分类器组合起来能胜过一个超级厉害的分类器？答案很简单：取平均能降低方差，逐步调整权重能减少偏差，再加上一点随机性，就能打破相关性——否则前面的努力都会白费。本文将深入推导背后的数学原理，包括偏差-方差分解、Bagging 和随机森林如何利用 Bootstrap、AdaBoost 在指数损失下的前向分步优化，以及 GBDT 如何将这些方法统一为函数空间中的梯度下降。

机器学习数学推导（十）：半朴素贝叶斯与贝叶斯网络

Thu, 29 Jan 2026 09:00:00 +0000

引子： 朴素贝叶斯假设所有特征在给定类别下条件独立。这是一种便于计算的“善意谎言”——它让我们只需遍历一遍数据就能完成训练，但几乎所有 UCI 基准测试都表明，基于树结构或小型图的分类器总能稳定高出几个百分点的准确率。本文将沿着从“无依赖”（朴素贝叶斯）到“全依赖”（完整联合分布）的连续谱系，重点介绍实践中真正常用的三个甜点模型：SPODE、TAN 和 AODE。而将这种因子分解思想推广至一般形式，就得到了贝叶斯网络。

机器学习数学推导（九）：朴素贝叶斯

Wed, 28 Jan 2026 09:00:00 +0000

引子： 一个垃圾邮件过滤器，训练只需几毫秒，支持百万级特征，几乎不需要调整超参数，却能在短文本任务上胜过许多更复杂的模型。朴素贝叶斯能做到这一点，靠的是一个大胆到近乎离谱的假设：给定类别后，所有特征条件独立。它不仅不为此道歉，反而坚持到底；尽管这个假设在几乎所有真实数据集上都不成立，分类器依然表现良好。要搞清楚原因，需要深入理解生成模型、MAP 估计、Dirichlet 先验及偏差–方差权衡的核心概念。这篇文章将带你一步步走完这条完整路径。

机器学习数学推导（八）：支持向量机

Tue, 27 Jan 2026 09:00:00 +0000

引子： 假设有两团点，能将它们分开的直线有无数条，哪一条才是“最佳选择”？SVM 给出了一个极具几何美感的答案：位于两类点之间“最宽空白走廊”正中央的那条直线。将这一朴素思想通过拉格朗日对偶推演下去，竟能同时收获三大成果——稀疏模型（只有走廊边界上的点才起作用）、具有全局最优解的凸二次规划问题，以及几乎算是附赠的核技巧：它让同一套线性机制能在无限维空间中刻画出弯曲的决策边界。

机器学习数学推导（七）：决策树

Mon, 26 Jan 2026 09:00:00 +0000

导言： 决策树模仿了人类做决定的过程：先问一个问题，根据答案分叉，再问下一个问题。这种直观做法背后的数学却出人意料地丰富——信息论中的熵告诉我们该先问哪个问题；基尼指数提供了一个计算更高效、效果几乎相同的替代方案；而代价复杂度剪枝则给出了一种有理论依据的方法，防止模型记住噪声。如今几乎所有主流的提升集成方法（如 XGBoost、LightGBM 和 CatBoost）本质上都是这些决策树的巧妙组合，因此扎实掌握基础将带来丰厚回报。

机器学习数学推导（六）：逻辑回归与分类

Sun, 25 Jan 2026 09:00:00 +0000

开篇。线性回归可以将输入映射到任意实数——但如果输出必须是 0 到 1 之间的概率呢？逻辑回归通过一个优雅的技巧解决了这个问题：使用 Sigmoid 压缩函数。尽管名字里有“回归”，逻辑回归实际上是一种分类算法，其数学原理更是支撑着现代神经网络中每一个神经元的计算。

机器学习数学推导（五）：线性回归

Sat, 24 Jan 2026 09:00:00 +0000

引子： 1886 年，Francis Galton 在研究遗传时发现了一个奇怪的现象：特别高或特别矮的父母，他们的孩子身高往往会比父母更接近平均值。他把这种“向均值靠拢”的现象称为 regression，这个名字一直沿用至今。一个统计学上的小发现，最终演变成了机器学习中最重要的基础模型——并非因为线性回归本身有多强大，而是因为几乎所有其他算法（逻辑回归、神经网络、核方法等）本质上都是同一种思想的变体：在合适的空间里拟合一条直线。

机器学习数学推导（一）：绪论与数学基础

Tue, 20 Jan 2026 09:00:00 +0000

本章内容#

2005 年，Google Research 在公开评测中证明：仅用原始双语语料训练的统计翻译模型，竟能超越语言学家数十年精心设计的规则系统。这一结论令当时的专家颇感不适，却在数学上令人振奋——一个从未被告知语言规则的系统，只要有足够多的例子，依然能自行还原这些规则。这是为什么？