<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>ML Math Derivations on Chen Kai Blog</title><link>https://www.chenk.top/zh/ml-math-derivations/</link><description>Recent content in ML Math Derivations on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sun, 08 Feb 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/ml-math-derivations/index.xml" rel="self" type="application/rss+xml"/><item><title>机器学习数学推导（二十）：正则化与模型选择</title><link>https://www.chenk.top/zh/ml-math-derivations/20-%E6%AD%A3%E5%88%99%E5%8C%96%E4%B8%8E%E6%A8%A1%E5%9E%8B%E9%80%89%E6%8B%A9/</link><pubDate>Sun, 08 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/20-%E6%AD%A3%E5%88%99%E5%8C%96%E4%B8%8E%E6%A8%A1%E5%9E%8B%E9%80%89%E6%8B%A9/</guid><description>&lt;h2 id="本文要点">本文要点&lt;/h2>
&lt;p>一个有 1 亿参数的网络，用 5 万张图训练，按经典理论应当过拟合到一塌糊涂；可现代深度网络偏偏泛化得很好。这背后是两件事在配合：&lt;strong>正则化&lt;/strong>——一系列约束模型容量的技巧；以及&lt;strong>泛化理论&lt;/strong>——从数学上回答&amp;quot;学习什么时候真的有效&amp;quot;。本文是整个系列的收官之作，我们把前面攒下的所有工具——最小二乘、MAP 估计、凸优化、EM、神经网络——一起拿出来，直面这个领域里最深的开放问题：&lt;strong>为什么机器学习能泛化？&lt;/strong>&lt;/p></description></item><item><title>机器学习数学推导（十九）：神经网络与反向传播</title><link>https://www.chenk.top/zh/ml-math-derivations/19-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E4%B8%8E%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD/</link><pubDate>Sat, 07 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/19-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E4%B8%8E%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD/</guid><description>&lt;h2 id="本文概览">本文概览&lt;/h2>
&lt;p>单个感知机连 XOR 都解决不了；把足够多的感知机用非线性激活叠起来，却能成为&lt;strong>通用函数逼近器&lt;/strong>。剩下的问题只有一个：这样的网络如何从数据中学习？答案是&lt;strong>反向传播&lt;/strong>——一次链式法则的精巧应用，借由一次&amp;quot;反向遍历&amp;quot;把所有中间结果重复利用。这套机制是过去四十年所有深度学习库的核心引擎。把它的数学讲清楚，会顺带回答两件事：&lt;strong>为什么深层网络会出现梯度消失/爆炸&lt;/strong>，以及&lt;strong>为什么权重初始化远比看上去讲究&lt;/strong>。&lt;/p></description></item><item><title>机器学习数学推导（十八）：聚类算法</title><link>https://www.chenk.top/zh/ml-math-derivations/18-%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/</link><pubDate>Fri, 06 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/18-%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/</guid><description>&lt;h2 id="本文要解决什么">本文要解决什么&lt;/h2>
&lt;p>一百万条客户记录摆在面前，没有任何标签。能不能自动找出有意义的分组？这就是 &lt;strong>聚类&lt;/strong>——无监督学习中最基础的任务。和分类不同，聚类逼着你先回答一个棘手的问题：&lt;em>&amp;ldquo;相似&amp;rdquo; 到底是什么意思？&lt;/em> 每一种聚类算法，本质上都是对这个问题的一种回答——是对&amp;quot;什么是一个群组&amp;quot;提出的某种几何、概率或图论假设。&lt;/p></description></item><item><title>机器学习数学推导（十七）：降维与主成分分析</title><link>https://www.chenk.top/zh/ml-math-derivations/17-%E9%99%8D%E7%BB%B4%E4%B8%8E%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/</link><pubDate>Thu, 05 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/17-%E9%99%8D%E7%BB%B4%E4%B8%8E%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/</guid><description>&lt;h2 id="这篇文章讲什么">这篇文章讲什么&lt;/h2>
&lt;p>把一万维的数据扔给聚类算法，多半会失败——不是算法不好，而是 &lt;strong>高维空间本身对距离类方法极其不友好&lt;/strong>：体积都集中在球壳上，最近邻和最远邻的距离比趋近于 1，&amp;ldquo;近&amp;quot;这个概念失去了信息。降维的目的就是回应这件事：把数据投到一个低维空间里，同时尽可能保留真正重要的结构。&lt;/p></description></item><item><title>机器学习数学推导（十六）：条件随机场</title><link>https://www.chenk.top/zh/ml-math-derivations/16-%E6%9D%A1%E4%BB%B6%E9%9A%8F%E6%9C%BA%E5%9C%BA/</link><pubDate>Wed, 04 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/16-%E6%9D%A1%E4%BB%B6%E9%9A%8F%E6%9C%BA%E5%9C%BA/</guid><description>&lt;h2 id="这一篇要讲什么">这一篇要讲什么&lt;/h2>
&lt;p>命名实体识别、词性标注、信息抽取——这一类任务都要给序列里的每一个元素打标签。HMM（&lt;a href="https://www.chenk.top/zh/%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e6%8e%a8%e5%af%bc-%e5%8d%81%e4%ba%94-%e9%9a%90%e9%a9%ac%e5%b0%94%e5%8f%af%e5%a4%ab%e6%a8%a1%e5%9e%8b/">第十五篇&lt;/a>
）用&lt;strong>生成式&lt;/strong>思路硬刚：建模联合分布 $P(\mathbf{X},\mathbf{Y})$，但代价是必须假设每个观测只依赖自己的隐状态。可现实里，&lt;em>bank&lt;/em> 是名词还是动词，依赖于前一个词、后一个词、词缀、大小写、词典命中——这些重叠特征 HMM 全都用不了。&lt;/p></description></item><item><title>机器学习数学推导（十五）：隐马尔可夫模型</title><link>https://www.chenk.top/zh/ml-math-derivations/15-%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B/</link><pubDate>Tue, 03 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/15-%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>雾里有人在你身后走过。看不见人，只听见脚步——短促、轻、急。从节奏和音色，你能猜出对方是在走、跑，还是跛着腿吗？如果听到一整段声音呢？哪条步态序列最可能产生它？又或者，在你对&amp;quot;走路&amp;quot;建立的模型下，这段声音本身有多大概率出现？&lt;/p></description></item><item><title>机器学习数学推导（十四）：变分推断与变分EM</title><link>https://www.chenk.top/zh/ml-math-derivations/14-%E5%8F%98%E5%88%86%E6%8E%A8%E6%96%AD%E4%B8%8E%E5%8F%98%E5%88%86em/</link><pubDate>Mon, 02 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/14-%E5%8F%98%E5%88%86%E6%8E%A8%E6%96%AD%E4%B8%8E%E5%8F%98%E5%88%86em/</guid><description>&lt;p>后验 $p(\mathbf{z}\mid\mathbf{x})$ 算不出来时，你有两条路。&lt;strong>采样路线&lt;/strong>（MCMC）让一条马尔可夫链以后验为平稳分布慢慢走，理论上渐近精确，但收敛慢、难诊断。&lt;strong>变分路线&lt;/strong>（VI）则换个角度：先选一个简单的分布族 $\mathcal{Q}$，再在其中找到与真实后验最接近的那个 $q^\star$。&lt;strong>推断变成了优化&lt;/strong>——同样的工具链既能训练神经网络，也能拟合贝叶斯模型。&lt;/p></description></item><item><title>机器学习数学推导（十三）：EM算法与GMM</title><link>https://www.chenk.top/zh/ml-math-derivations/13-em%E7%AE%97%E6%B3%95%E4%B8%8Egmm/</link><pubDate>Sun, 01 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/13-em%E7%AE%97%E6%B3%95%E4%B8%8Egmm/</guid><description>&lt;p>数据里常常藏着看不见的结构——你不知道每个样本属于哪个簇、不知道某个特征的真实取值、不知道一段文本背后是哪些主题在驱动。这些&lt;strong>隐变量&lt;/strong>让最大似然估计变得棘手：似然函数变成&amp;quot;对数里套求和&amp;quot;的形式，既无闭式解，梯度法也容易绕进死胡同。&lt;strong>EM 算法&lt;/strong>用一招看似朴素的拆解破解了这种困境：在隐变量的后验下&amp;quot;猜&amp;quot;一次（E 步），再把参数当成完全数据来&amp;quot;拟合&amp;quot;一次（M 步），交替进行。每一轮迭代都被数学保证不会让似然下降。本文从第一性原理推导 EM，借 Jensen 不等式证明其单调上升性，并把它落到最经典的应用——&lt;strong>高斯混合模型（GMM）&lt;/strong>——上：K-means 的软化、椭球化版本。&lt;/p></description></item><item><title>机器学习数学推导（十二）：XGBoost 与 LightGBM</title><link>https://www.chenk.top/zh/ml-math-derivations/12-xgboost%E4%B8%8Elightgbm/</link><pubDate>Sat, 31 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/12-xgboost%E4%B8%8Elightgbm/</guid><description>&lt;p>XGBoost 与 LightGBM 是当下表格数据领域最常用的两套库——Kaggle 榜单、风控流水线、广告排序、流失预测，背后多半都是它们。两者共享同一个骨架（梯度提升树，见第十一篇），但在工程取舍上走了完全不同的路：&lt;/p></description></item><item><title>机器学习数学推导（十一）：集成学习</title><link>https://www.chenk.top/zh/ml-math-derivations/11-%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/</link><pubDate>Fri, 30 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/11-%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>为什么&amp;quot;三个臭皮匠顶个诸葛亮&amp;quot;在机器学习里几乎是字面意义上成立的？答案不浪漫，但精确：&lt;strong>平均能压方差，串行重加权能压偏差，再加一点随机化打破相关性&lt;/strong>——否则前两件事都白干。本文把这条线索的数学推到底：从偏差-方差分解出发，到 Bagging/随机森林如何利用 Bootstrap，再到 AdaBoost 如何被解读为指数损失下的前向分步加性建模，最后是 GBDT 把所有这些抽象成函数空间里的梯度下降。&lt;/p></description></item><item><title>机器学习数学推导（十）：半朴素贝叶斯与贝叶斯网络</title><link>https://www.chenk.top/zh/ml-math-derivations/10-%E5%8D%8A%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%B8%8E%E8%B4%9D%E5%8F%B6%E6%96%AF%E7%BD%91%E7%BB%9C/</link><pubDate>Thu, 29 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/10-%E5%8D%8A%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%B8%8E%E8%B4%9D%E5%8F%B6%E6%96%AF%E7%BD%91%E7%BB%9C/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>引子。&lt;/strong> 朴素贝叶斯假定特征在给定类别后两两独立——这是个非常方便的谎言，让我们能用一遍数据扫描就训出一个分类器，但几乎在所有 UCI 基准上，基于树结构和小型概率图的模型都能稳稳地把它再压一个百分点。这一篇沿着「依赖关系」的轴线从 0 走到 d：先看从「全独立」到「全联合」之间的三个甜蜜点——SPODE、TAN、AODE，再把这套因子分解的思路推到极致，就得到贝叶斯网络。&lt;/p></description></item><item><title>机器学习数学推导（九）：朴素贝叶斯</title><link>https://www.chenk.top/zh/ml-math-derivations/09-%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF/</link><pubDate>Wed, 28 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/09-%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>引子：&lt;/strong> 一个训练只需毫秒、特征量级可达百万、几乎没有超参数可调的垃圾邮件过滤器，却能在短文本任务上击败结构复杂得多的模型。朴素贝叶斯靠的就是一个看似离谱的假设——给定类别后所有特征都条件独立——并且毫不掩饰这一点。在几乎所有真实数据上这个假设都不成立，但分类器照样能用。要理解&lt;strong>为什么&lt;/strong>，需要走一趟生成模型、MAP 估计、Dirichlet 先验和偏差-方差权衡的完整链路。本文就把这条路从头走一遍。&lt;/p></description></item><item><title>机器学习数学推导（八）：支持向量机</title><link>https://www.chenk.top/zh/ml-math-derivations/08-%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/</link><pubDate>Tue, 27 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/08-%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>引子。&lt;/strong> 两团点，能把它们分开的直线有无穷多条，&amp;ldquo;哪一条最好&amp;rdquo;？SVM 给出的答案出奇地几何：站在两个类之间最宽的&amp;quot;无人走廊&amp;quot;正中央的那一条。把这一个想法塞进拉格朗日对偶里，会自动跑出三件礼物——稀疏的模型（只有走廊壁上的点重要）、有全局最优解的二次规划、以及核技巧（同一套线性机器可以在无限维空间里画出弯曲的边界）。&lt;/p></description></item><item><title>机器学习数学推导（七）：决策树</title><link>https://www.chenk.top/zh/ml-math-derivations/07-%E5%86%B3%E7%AD%96%E6%A0%91/</link><pubDate>Mon, 26 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/07-%E5%86%B3%E7%AD%96%E6%A0%91/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>导言。&lt;/strong> 决策树模拟的是人做决定的方式：问一个问题、按答案分支、再问下一个问题。这种朴素的直觉背后藏着不少数学：信息论中的熵告诉我们&lt;em>应该先问哪个问题&lt;/em>；基尼指数提供了一种几乎等价但更便宜的代替；代价复杂度剪枝则给出了一套有原则的方式来阻止树去记噪声。今天最强的一类表格学习器——XGBoost、LightGBM、CatBoost——本质上都是这套对象的巧妙组合，所以把基础打扎实，回报会反复显现。&lt;/p></description></item><item><title>机器学习数学推导（六）：逻辑回归与分类</title><link>https://www.chenk.top/zh/ml-math-derivations/06-%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%E4%B8%8E%E5%88%86%E7%B1%BB/</link><pubDate>Sun, 25 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/06-%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%E4%B8%8E%E5%88%86%E7%B1%BB/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>开篇.&lt;/strong> 线性回归把输入映射成任意实数，但如果输出必须是 0 到 1 之间的概率呢？逻辑回归用一个优雅的小技巧解决了这件事：Sigmoid 压缩函数。它名字里带&amp;quot;回归&amp;quot;，骨子里却是分类算法——而且它的数学是现代神经网络中每一个神经元的原型。&lt;/p></description></item><item><title>机器学习数学推导（五）：线性回归</title><link>https://www.chenk.top/zh/ml-math-derivations/05-%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/</link><pubDate>Sat, 24 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/05-%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>引子。&lt;/strong> 1886 年，Francis Galton 研究遗传时注意到一个怪现象：身高极端（很高或很矮）的父母，子女的身高总是比父母更靠近平均值。他把这种&amp;quot;向均值漂移&amp;quot;的现象叫做 &lt;em>regression&lt;/em>——回归这个名字就是这么来的。一个统计学上的小观察，后来长成了机器学习里最具基础地位的模型。线性回归本身的预测能力其实很普通，它的真正价值在于：从逻辑回归、神经网络到核方法，几乎所有机器学习算法都是同一个思路的变奏——&lt;strong>先找一个合适的空间，再在里面拟一条线。&lt;/strong>&lt;/p></description></item><item><title>机器学习数学推导（四）：凸优化理论</title><link>https://www.chenk.top/zh/ml-math-derivations/04-%E5%87%B8%E4%BC%98%E5%8C%96%E7%90%86%E8%AE%BA/</link><pubDate>Fri, 23 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/04-%E5%87%B8%E4%BC%98%E5%8C%96%E7%90%86%E8%AE%BA/</guid><description>&lt;h2 id="本章概览">本章概览&lt;/h2>
&lt;p>1947 年，George Dantzig 提出了线性规划的单纯形法，现代优化理论从此正式登场。八十年过去，优化已经成为机器学习的发动机：你训练过的每一个模型——从一行代码的线性回归，到 700 亿参数的语言模型——本质上都是某个优化问题的解。&lt;/p></description></item><item><title>机器学习数学推导（三）：概率论与统计推断</title><link>https://www.chenk.top/zh/ml-math-derivations/03-%E6%A6%82%E7%8E%87%E8%AE%BA%E4%B8%8E%E7%BB%9F%E8%AE%A1%E6%8E%A8%E6%96%AD/</link><pubDate>Thu, 22 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/03-%E6%A6%82%E7%8E%87%E8%AE%BA%E4%B8%8E%E7%BB%9F%E8%AE%A1%E6%8E%A8%E6%96%AD/</guid><description>&lt;h2 id="本文要讲什么">本文要讲什么&lt;/h2>
&lt;p>1912 年，Ronald Fisher 在一篇短文中提出了&lt;strong>最大似然估计（MLE）&lt;/strong>，从此悄悄改写了统计学。他的洞察直白到令人有些不好意思：&lt;em>如果某组参数让我们恰好看到的数据出现得特别&amp;quot;自然&amp;quot;，那这组参数大概就是对的&lt;/em>。从逻辑回归到大语言模型，几乎所有现代学习算法都是这个思路的后裔。&lt;/p></description></item><item><title>机器学习数学推导（二）：线性代数与矩阵论</title><link>https://www.chenk.top/zh/ml-math-derivations/02-%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E4%B8%8E%E7%9F%A9%E9%98%B5%E8%AE%BA/</link><pubDate>Wed, 21 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/02-%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E4%B8%8E%E7%9F%A9%E9%98%B5%E8%AE%BA/</guid><description>&lt;h2 id="这一章为什么写和别处有什么不同">这一章为什么写、和别处有什么不同&lt;/h2>
&lt;p>如果你上过一门标准的线性代数课，本文里的对象你大多见过。&lt;strong>但本文不是那门课。&lt;/strong> 它是「机器学习视角下的线性代数」——梯度下降、PCA、神经网络训练、读论文时真正会反复用到的那六七个想法。&lt;/p></description></item><item><title>机器学习数学推导（一）：绪论与数学基础</title><link>https://www.chenk.top/zh/ml-math-derivations/01-%E7%BB%AA%E8%AE%BA%E4%B8%8E%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/</link><pubDate>Tue, 20 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/01-%E7%BB%AA%E8%AE%BA%E4%B8%8E%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/</guid><description>&lt;h2 id="本章要做的事">本章要做的事&lt;/h2>
&lt;p>2005 年，Google Research 在公开机器翻译评测中表明：一个仅靠双语语料训练的统计模型，可以击败语言学家精雕细琢数十年的规则系统。结论令人不安，却也极具数学美感——&lt;strong>一个从未被告知语法的系统，只要数据足够多，就能把语法 &amp;ldquo;推&amp;rdquo; 出来&lt;/strong>。为什么？&lt;/p></description></item></channel></rss>