<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Machine Learning on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/machine-learning/</link><description>Recent content in Machine Learning on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 08 May 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/machine-learning/index.xml" rel="self" type="application/rss+xml"/><item><title>阿里云全栈实战（十一）：PAI 打造机器学习平台</title><link>https://www.chenk.top/zh/aliyun-fullstack/11-pai-ml-platform/</link><pubDate>Fri, 08 May 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-fullstack/11-pai-ml-platform/</guid><description>&lt;p>单卡跑模型很有趣，但要稳定支撑每秒 1000 个请求，才是从实验迈向产品的关键一步。PAI 正好覆盖了这两个阶段。&lt;/p>
&lt;p>PAI（Platform for AI）是阿里云的托管式机器学习平台。严格来说，它并非单一产品，而是五个独立子产品共享同一控制台的集合：Notebook 用于交互式探索，分布式训练服务支撑规模化训练，模型服务平台承载生产部署，可视化流水线面向偏好拖拽操作的用户，模型库则提供开源模型的一键部署能力。经过十八个月的真实 LLM 负载验证，各组件表现不一——EAS 表现优秀，Designer 基本够用；但一旦理清它们之间的协同机制，整体效能远超各部分之和。&lt;/p></description></item><item><title>阿里云 PAI（二）：DSW Notebook 避坑指南</title><link>https://www.chenk.top/zh/aliyun-pai/02-pai-dsw-notebook/</link><pubDate>Fri, 06 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-pai/02-pai-dsw-notebook/</guid><description>&lt;p>每次带新人上手 PAI，第一天的剧本都差不多：启动 DSW 实例，&lt;code>pip install&lt;/code> 一通依赖，训练一小时，不知为何重启了 kernel，然后一脸茫然地问我模型文件去哪了。实话实说——“在 &lt;code>/root&lt;/code> 下，但那台节点已经没了”——这种教训一次就够了。这篇文章就是让你提前避坑的版本。&lt;/p></description></item><item><title>阿里云 PAI（一）：平台概览与产品地图</title><link>https://www.chenk.top/zh/aliyun-pai/01-platform-overview/</link><pubDate>Thu, 05 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-pai/01-platform-overview/</guid><description>&lt;p>只要你的团队在阿里云上训练或部署模型，迟早会用到 PAI 控制台。PAI 是一个平台级整合层（umbrella），真正干活的是它底下的核心产品：笔记本（DSW）、分布式训练服务（DLC）、模型推理服务（EAS），以及两个面向快速交付的 GUI 层——Designer 和 Model Gallery。我在一个 AI 营销平台上用 PAI 跑了大约十八个月的真实 LLM 负载，写下这个系列，就是希望你在部署第一个 endpoint 前，能少踩些我踩过的坑。&lt;/p></description></item><item><title>机器学习数学推导（二十）：正则化与模型选择</title><link>https://www.chenk.top/zh/ml-math-derivations/20-%E6%AD%A3%E5%88%99%E5%8C%96%E4%B8%8E%E6%A8%A1%E5%9E%8B%E9%80%89%E6%8B%A9/</link><pubDate>Sun, 08 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/20-%E6%AD%A3%E5%88%99%E5%8C%96%E4%B8%8E%E6%A8%A1%E5%9E%8B%E9%80%89%E6%8B%A9/</guid><description>&lt;h2 id="你将学到什么" class="heading-anchor">你将学到什么&lt;a href="#%e4%bd%a0%e5%b0%86%e5%ad%a6%e5%88%b0%e4%bb%80%e4%b9%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>一个拥有 1 亿参数的网络，用 5 万张图片训练，按经典理论应该会严重过拟合，但现代深度网络却能很好地泛化。这背后主要有两个原因：&lt;strong>正则化&lt;/strong>——一系列限制模型容量的技术；以及&lt;strong>泛化理论&lt;/strong>——从数学上解释学习何时有效。作为整个系列的最后一章，我们将整合之前积累的所有工具——最小二乘、MAP 估计、优化方法、EM 算法、神经网络——来探讨这个领域最深刻的问题：&lt;strong>机器学习为什么能泛化？&lt;/strong>&lt;/p></description></item><item><title>机器学习数学推导（十九）：神经网络与反向传播</title><link>https://www.chenk.top/zh/ml-math-derivations/19-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E4%B8%8E%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD/</link><pubDate>Sat, 07 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/19-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E4%B8%8E%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD/</guid><description>&lt;h2 id="本文概览" class="heading-anchor">本文概览&lt;a href="#%e6%9c%ac%e6%96%87%e6%a6%82%e8%a7%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>单个感知机无法解决 XOR 问题，但只要堆叠足够多的感知机并引入非线性激活函数，就能构建出一个&lt;strong>通用函数逼近器&lt;/strong>。那么，这样的网络如何从数据中学习？答案是&lt;strong>反向传播&lt;/strong>——它本质上是对链式法则的高效应用，通过一次反向遍历复用中间结果，成为过去四十年所有深度学习库的核心引擎。深入理解其数学原理，还能揭示两个关键现象：为什么深层网络容易遭遇梯度消失或爆炸，以及为什么权重初始化远非随意选择。&lt;/p></description></item><item><title>机器学习数学推导（十八）：聚类算法</title><link>https://www.chenk.top/zh/ml-math-derivations/18-%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/</link><pubDate>Fri, 06 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/18-%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/</guid><description>&lt;h2 id="本文要解决什么" class="heading-anchor">本文要解决什么&lt;a href="#%e6%9c%ac%e6%96%87%e8%a6%81%e8%a7%a3%e5%86%b3%e4%bb%80%e4%b9%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>面对一百万条没有标签的客户记录，能否自动找出有意义的分组？这就是 &lt;strong>聚类&lt;/strong>——无监督学习中最基础的任务。与分类不同，聚类首先要回答一个棘手的问题：“相似”到底是什么意思？每种聚类算法本质上都是对这个问题的不同回答：它们从几何、概率或图论的角度，对“群组”施加了不同的先验假设。&lt;/p></description></item><item><title>机器学习数学推导（十七）：降维与主成分分析</title><link>https://www.chenk.top/zh/ml-math-derivations/17-%E9%99%8D%E7%BB%B4%E4%B8%8E%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/</link><pubDate>Thu, 05 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/17-%E9%99%8D%E7%BB%B4%E4%B8%8E%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/</guid><description>&lt;h2 id="你将学到什么" class="heading-anchor">你将学到什么&lt;a href="#%e4%bd%a0%e5%b0%86%e5%ad%a6%e5%88%b0%e4%bb%80%e4%b9%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>给聚类算法输入 10,000 维的数据，它大概率会失败——问题不在于算法本身，而在于&lt;strong>高维空间对基于距离的学习方法天然不友好&lt;/strong>。体积几乎都集中在球壳上，最近邻和最远邻的距离比值趋近于 &lt;span class="math-inline">$1$&lt;/span>
，“近”这个概念变得毫无意义。降维的目的正是将数据投影到低维空间，同时保留其关键结构。&lt;/p></description></item><item><title>机器学习数学推导（十六）：条件随机场</title><link>https://www.chenk.top/zh/ml-math-derivations/16-%E6%9D%A1%E4%BB%B6%E9%9A%8F%E6%9C%BA%E5%9C%BA/</link><pubDate>Wed, 04 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/16-%E6%9D%A1%E4%BB%B6%E9%9A%8F%E6%9C%BA%E5%9C%BA/</guid><description>&lt;h2 id="你将学到什么" class="heading-anchor">你将学到什么&lt;a href="#%e4%bd%a0%e5%b0%86%e5%ad%a6%e5%88%b0%e4%bb%80%e4%b9%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>命名实体识别、词性标注、信息抽取——这些任务都要求给序列中的每个元素打上标签。HMM（&lt;a href="https://www.chenk.top/zh/ml-math-derivations/15-%e9%9a%90%e9%a9%ac%e5%b0%94%e5%8f%af%e5%a4%ab%e6%a8%a1%e5%9e%8b/">第十五篇&lt;/a>
）采用生成式方法，通过建模联合分布 &lt;span class="math-inline">$P(\mathbf{X},\mathbf{Y})$&lt;/span>
 来解决这一问题。但为了使联合分布可分解，它不得不付出高昂代价：每个观测值仅被允许依赖于其对应的隐状态标签。然而在真实文本中，“bank”究竟是名词还是动词，往往取决于前后文、词缀、大小写乃至词典查询结果——所有这些特征共同作用。&lt;/p></description></item><item><title>机器学习数学推导（十五）：隐马尔可夫模型</title><link>https://www.chenk.top/zh/ml-math-derivations/15-%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B/</link><pubDate>Tue, 03 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/15-%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>雾里传来脚步声，有人在你身后。你看不见人，只能听到短促、轻快、急促的声音。从节奏和音调判断，对方是在走路、跑步，还是跛行？如果听到一整段声音序列，哪种步态最有可能产生它？再进一步，根据我对“走路”建立的模型，这段声音本身出现的概率有多大？&lt;/p></description></item><item><title>机器学习数学推导（十四）：变分推断与变分 EM</title><link>https://www.chenk.top/zh/ml-math-derivations/14-%E5%8F%98%E5%88%86%E6%8E%A8%E6%96%AD%E4%B8%8E%E5%8F%98%E5%88%86em/</link><pubDate>Mon, 02 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/14-%E5%8F%98%E5%88%86%E6%8E%A8%E6%96%AD%E4%B8%8E%E5%8F%98%E5%88%86em/</guid><description>&lt;p>后验 &lt;span class="math-inline">$p(\mathbf{z}\mid\mathbf{x})$&lt;/span>
 无法直接计算时，我们面临两条路径。&lt;strong>采样方法&lt;/strong>（MCMC）通过构造一条马尔可夫链，使其平稳分布恰好等于目标后验——理论上最终能精确逼近，但收敛缓慢且诊断困难。&lt;strong>变分推断&lt;/strong>（VI）则另辟蹊径：先选定一个结构简单的分布族 &lt;span class="math-inline">$\mathcal{Q}$&lt;/span>
，再从中找出最接近真实后验的那个成员 &lt;span class="math-inline">$q^\star$&lt;/span>
。如此一来，推断问题就转化为优化问题——训练神经网络的那一套工具，现在也能用来拟合贝叶斯模型了。&lt;/p></description></item><item><title>机器学习数学推导（十三）：EM 算法与 GMM</title><link>https://www.chenk.top/zh/ml-math-derivations/13-em%E7%AE%97%E6%B3%95%E4%B8%8Egmm/</link><pubDate>Sun, 01 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/13-em%E7%AE%97%E6%B3%95%E4%B8%8Egmm/</guid><description>&lt;p>数据中常隐含难以观测的结构：样本所属的簇未知，某些特征的真实值缺失，文本背后的潜在主题也不明确。这些隐变量让最大似然估计变得棘手——似然函数变成“对数里面套求和”的形式，既没有闭式解，梯度方法也容易被隐变量困住。&lt;strong>EM 算法&lt;/strong>用一个看似简单的思路巧妙绕开这一难题：交替进行两步操作——先基于当前参数下的隐变量后验分布计算期望（E 步），再将这些期望当作真实值来更新模型参数（M 步）。每次迭代都严格保证对数似然值不减。本文将从第一性原理出发推导 EM 算法，利用 Jensen 不等式证明其单调上升性质，并将其应用于最经典的场景——&lt;strong>高斯混合模型（GMM）&lt;/strong>，即 K-means 的软化、椭球化推广。&lt;/p></description></item><item><title>机器学习数学推导（十二）：XGBoost 与 LightGBM</title><link>https://www.chenk.top/zh/ml-math-derivations/12-xgboost%E4%B8%8Elightgbm/</link><pubDate>Sat, 31 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/12-xgboost%E4%B8%8Elightgbm/</guid><description>&lt;p>XGBoost 和 LightGBM 是表格数据领域的两大利器——从 Kaggle 排行榜到风控系统、广告排序和用户流失预测，背后几乎都有它们的身影。两者都基于梯度提升树（Gradient-Boosted Trees，见第 11 篇），但在工程设计上选择了截然不同的方向：&lt;/p></description></item><item><title>机器学习数学推导（十一）：集成学习</title><link>https://www.chenk.top/zh/ml-math-derivations/11-%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/</link><pubDate>Fri, 30 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/11-%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>为什么一群平庸的分类器组合起来能胜过一个超级厉害的分类器？答案很简单：取平均能降低方差，逐步调整权重能减少偏差，再加上一点随机性，就能打破相关性——否则前面的努力都会白费。本文将深入推导背后的数学原理，包括偏差-方差分解、Bagging 和随机森林如何利用 Bootstrap、AdaBoost 在指数损失下的前向分步优化，以及 GBDT 如何将这些方法统一为函数空间中的梯度下降。&lt;/p></description></item><item><title>机器学习数学推导（十）：半朴素贝叶斯与贝叶斯网络</title><link>https://www.chenk.top/zh/ml-math-derivations/10-%E5%8D%8A%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%B8%8E%E8%B4%9D%E5%8F%B6%E6%96%AF%E7%BD%91%E7%BB%9C/</link><pubDate>Thu, 29 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/10-%E5%8D%8A%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%B8%8E%E8%B4%9D%E5%8F%B6%E6%96%AF%E7%BD%91%E7%BB%9C/</guid><description>&lt;p>&lt;strong>引子：&lt;/strong> 朴素贝叶斯假设所有特征在给定类别下条件独立。这是一种便于计算的“善意谎言”——它让我们只需遍历一遍数据就能完成训练，但几乎所有 UCI 基准测试都表明，基于树结构或小型图的分类器总能稳定高出几个百分点的准确率。本文将沿着从“无依赖”（朴素贝叶斯）到“全依赖”（完整联合分布）的连续谱系，重点介绍实践中真正常用的三个甜点模型：SPODE、TAN 和 AODE。而将这种因子分解思想推广至一般形式，就得到了贝叶斯网络。&lt;/p></description></item><item><title>机器学习数学推导（九）：朴素贝叶斯</title><link>https://www.chenk.top/zh/ml-math-derivations/09-%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF/</link><pubDate>Wed, 28 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/09-%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF/</guid><description>&lt;p>&lt;strong>引子：&lt;/strong> 一个垃圾邮件过滤器，训练只需几毫秒，支持百万级特征，几乎不需要调整超参数，却能在短文本任务上胜过许多更复杂的模型。朴素贝叶斯能做到这一点，靠的是一个大胆到近乎离谱的假设：给定类别后，所有特征条件独立。它不仅不为此道歉，反而坚持到底；尽管这个假设在几乎所有真实数据集上都不成立，分类器依然表现良好。要搞清楚原因，需要深入理解生成模型、MAP 估计、Dirichlet 先验及偏差–方差权衡的核心概念。这篇文章将带你一步步走完这条完整路径。&lt;/p></description></item><item><title>机器学习数学推导（八）：支持向量机</title><link>https://www.chenk.top/zh/ml-math-derivations/08-%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/</link><pubDate>Tue, 27 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/08-%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/</guid><description>&lt;p>&lt;strong>引子：&lt;/strong> 假设有两团点，能将它们分开的直线有无数条，哪一条才是“最佳选择”？SVM 给出了一个极具几何美感的答案：位于两类点之间“最宽空白走廊”正中央的那条直线。将这一朴素思想通过拉格朗日对偶推演下去，竟能同时收获三大成果——稀疏模型（只有走廊边界上的点才起作用）、具有全局最优解的凸二次规划问题，以及几乎算是附赠的核技巧：它让同一套线性机制能在无限维空间中刻画出弯曲的决策边界。&lt;/p></description></item><item><title>机器学习数学推导（七）：决策树</title><link>https://www.chenk.top/zh/ml-math-derivations/07-%E5%86%B3%E7%AD%96%E6%A0%91/</link><pubDate>Mon, 26 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/07-%E5%86%B3%E7%AD%96%E6%A0%91/</guid><description>&lt;p>&lt;strong>导言：&lt;/strong> 决策树模仿了人类做决定的过程：先问一个问题，根据答案分叉，再问下一个问题。这种直观做法背后的数学却出人意料地丰富——信息论中的熵告诉我们该先问哪个问题；基尼指数提供了一个计算更高效、效果几乎相同的替代方案；而代价复杂度剪枝则给出了一种有理论依据的方法，防止模型记住噪声。如今几乎所有主流的提升集成方法（如 XGBoost、LightGBM 和 CatBoost）本质上都是这些决策树的巧妙组合，因此扎实掌握基础将带来丰厚回报。&lt;/p></description></item><item><title>机器学习数学推导（六）：逻辑回归与分类</title><link>https://www.chenk.top/zh/ml-math-derivations/06-%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%E4%B8%8E%E5%88%86%E7%B1%BB/</link><pubDate>Sun, 25 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/06-%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%E4%B8%8E%E5%88%86%E7%B1%BB/</guid><description>&lt;p>&lt;strong>开篇&lt;/strong>。线性回归可以将输入映射到任意实数——但如果输出必须是 0 到 1 之间的概率呢？逻辑回归通过一个优雅的技巧解决了这个问题：使用 Sigmoid 压缩函数。尽管名字里有“回归”，逻辑回归实际上是一种&lt;strong>分类&lt;/strong>算法，其数学原理更是支撑着现代神经网络中每一个神经元的计算。&lt;/p></description></item><item><title>机器学习数学推导（五）：线性回归</title><link>https://www.chenk.top/zh/ml-math-derivations/05-%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/</link><pubDate>Sat, 24 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/05-%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/</guid><description>&lt;p>&lt;strong>引子：&lt;/strong> 1886 年，Francis Galton 在研究遗传时发现了一个奇怪的现象：特别高或特别矮的父母，他们的孩子身高往往会比父母更接近平均值。他把这种“向均值靠拢”的现象称为 &lt;em>regression&lt;/em>，这个名字一直沿用至今。一个统计学上的小发现，最终演变成了机器学习中最重要的基础模型——并非因为线性回归本身有多强大，而是因为几乎所有其他算法（逻辑回归、神经网络、核方法等）本质上都是同一种思想的变体：&lt;strong>在合适的空间里拟合一条直线。&lt;/strong>&lt;/p></description></item><item><title>机器学习数学推导（四）：凸优化理论</title><link>https://www.chenk.top/zh/ml-math-derivations/04-%E5%87%B8%E4%BC%98%E5%8C%96%E7%90%86%E8%AE%BA/</link><pubDate>Fri, 23 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/04-%E5%87%B8%E4%BC%98%E5%8C%96%E7%90%86%E8%AE%BA/</guid><description>&lt;h2 id="本章概览" class="heading-anchor">本章概览&lt;a href="#%e6%9c%ac%e7%ab%a0%e6%a6%82%e8%a7%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>1947 年，George Dantzig 提出了单纯形法，用于解决线性规划问题，现代优化理论由此诞生。八十年过去了，优化已成为机器学习的核心驱动力——无论是通过一行代码实现的线性回归，还是拥有 700 亿参数的语言模型，每个训练完成的模型本质上都是某个优化问题的答案。&lt;/p></description></item><item><title>机器学习数学推导（三）：概率论与统计推断</title><link>https://www.chenk.top/zh/ml-math-derivations/03-%E6%A6%82%E7%8E%87%E8%AE%BA%E4%B8%8E%E7%BB%9F%E8%AE%A1%E6%8E%A8%E6%96%AD/</link><pubDate>Thu, 22 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/03-%E6%A6%82%E7%8E%87%E8%AE%BA%E4%B8%8E%E7%BB%9F%E8%AE%A1%E6%8E%A8%E6%96%AD/</guid><description>&lt;h2 id="本文要讲什么" class="heading-anchor">本文要讲什么&lt;a href="#%e6%9c%ac%e6%96%87%e8%a6%81%e8%ae%b2%e4%bb%80%e4%b9%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>1912 年，Ronald Fisher 在一篇短文中提出了&lt;strong>最大似然估计（MLE）&lt;/strong>，从此悄悄改变了统计学的面貌。他的想法简单得让人有点不好意思：如果某组参数让观察到的数据显得特别合理，那么这组参数很可能就是正确的。从逻辑回归到大语言模型，几乎所有现代学习算法都源于这一思路。&lt;/p></description></item><item><title>机器学习数学推导（二）：线性代数与矩阵论</title><link>https://www.chenk.top/zh/ml-math-derivations/02-%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E4%B8%8E%E7%9F%A9%E9%98%B5%E8%AE%BA/</link><pubDate>Wed, 21 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/02-%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E4%B8%8E%E7%9F%A9%E9%98%B5%E8%AE%BA/</guid><description>&lt;h2 id="为什么写这一章有什么不同" class="heading-anchor">为什么写这一章，有什么不同&lt;a href="#%e4%b8%ba%e4%bb%80%e4%b9%88%e5%86%99%e8%bf%99%e4%b8%80%e7%ab%a0%e6%9c%89%e4%bb%80%e4%b9%88%e4%b8%8d%e5%90%8c" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>如果你学过标准的线性代数课程，大部分内容你可能已经见过。但本章不是对传统课程的简单复述，而是面向机器学习实践者，聚焦于实际场景中高频使用的线性代数核心概念，如实现梯度下降、运行 PCA、训练神经网络或研读论文时所需的内容。&lt;/p></description></item><item><title>机器学习数学推导（一）：绪论与数学基础</title><link>https://www.chenk.top/zh/ml-math-derivations/01-%E7%BB%AA%E8%AE%BA%E4%B8%8E%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/</link><pubDate>Tue, 20 Jan 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/01-%E7%BB%AA%E8%AE%BA%E4%B8%8E%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/</guid><description>&lt;h2 id="本章内容" class="heading-anchor">本章内容&lt;a href="#%e6%9c%ac%e7%ab%a0%e5%86%85%e5%ae%b9" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>2005 年，Google Research 在公开评测中证明：仅用原始双语语料训练的统计翻译模型，竟能超越语言学家数十年精心设计的规则系统。这一结论令当时的专家颇感不适，却在数学上令人振奋——&lt;strong>一个从未被告知语言规则的系统，只要有足够多的例子，依然能自行还原这些规则&lt;/strong>。这是为什么？&lt;/p></description></item><item><title>辛几何与结构保持神经网络：让模型学会守恒</title><link>https://www.chenk.top/zh/standalone/symplectic-geometry-and-structure-preserving-neural-networks/</link><pubDate>Mon, 28 Jul 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/symplectic-geometry-and-structure-preserving-neural-networks/</guid><description>&lt;p>随手训练一个普通的 MLP 来拟合一维谐振子的运动——尽管验证集上的误差很小，前十步看起来也正确，但继续预测一千步后，轨道不再闭合，能量缓慢漂移，原本应周期运动的系统变成了一条慢慢张开的螺旋。网络学到了“数据点之间的插值”，却没有学到“物理”。&lt;strong>结构保持网络&lt;/strong>（structure-preserving NN）的做法是把守恒律——能量守恒、辛 2-形式、欧拉-拉格朗日方程——直接编码进架构里，使得模型从数学结构上就不可能违反这些约束，无论积分多长时间。&lt;/p></description></item><item><title>迁移学习（一）：基础与核心概念</title><link>https://www.chenk.top/zh/transfer-learning/01-%E5%9F%BA%E7%A1%80%E4%B8%8E%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5/</link><pubDate>Thu, 01 May 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/transfer-learning/01-%E5%9F%BA%E7%A1%80%E4%B8%8E%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5/</guid><description>&lt;p>我花了整整两周时间，用一整柜 GPU 训练出一个 ImageNet 分类器。周一早上，团队负责人突然要求我做一个胸片肺炎识别模型，而手头的标注数据只有 &lt;strong>200 张&lt;/strong>——难道还要再排队两周 GPU 时间，从零开始训练吗？&lt;/p></description></item><item><title>线性代数（十五）：机器学习中的线性代数——从 PCA 到推荐系统</title><link>https://www.chenk.top/zh/linear-algebra/15-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0/</link><pubDate>Wed, 09 Apr 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/linear-algebra/15-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0/</guid><description>&lt;p>随便找个资深机器学习工程师问一句：“你每天实际用得最多的数学是什么？”答案几乎肯定是&lt;strong>线性代数&lt;/strong>。微积分用于推导公式，概率用于建模，但在实际运行 ML 系统时，大部分时间都花在矩阵向量乘法、分解和投影上。PyTorch 的 &lt;code>Linear&lt;/code>、scikit-learn 的 &lt;code>PCA&lt;/code>、Spark MLlib 的 &lt;code>ALS&lt;/code>，还有 Transformer 的注意力头，其实都是同一个线性代数基本操作换了个马甲。&lt;/p></description></item><item><title>概率与统计（八）：贝叶斯统计——先验、后验，以及频率学派为何争论不休</title><link>https://www.chenk.top/zh/probability-statistics/08-bayesian-thinking/</link><pubDate>Fri, 30 Aug 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/probability-statistics/08-bayesian-thinking/</guid><description>&lt;p>两位统计学家走进一家酒吧。一人说：“明天下雨的概率是 30%。”另一人反驳道：“概率指的是长期频率；而明天只发生一次，这种说法毫无意义。”第一个人回应：“它量化的是我对这一独特事件的不确定性。”两人就此争论了一整晚。&lt;/p></description></item><item><title>偏微分方程与机器学习（八）：反应扩散系统与 GNN</title><link>https://www.chenk.top/zh/pde-ml/08-%E5%8F%8D%E5%BA%94%E6%89%A9%E6%95%A3%E7%B3%BB%E7%BB%9F%E4%B8%8Egnn/</link><pubDate>Wed, 14 Aug 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/08-%E5%8F%8D%E5%BA%94%E6%89%A9%E6%95%A3%E7%B3%BB%E7%BB%9F%E4%B8%8Egnn/</guid><description>&lt;p>深层 GNN 大家都见过它崩——堆到十几层之后所有节点的 embedding 几乎一样，模型“糊掉”了。这个现象有个名字叫 &lt;strong>over-smoothing&lt;/strong>，背后的数学原因其实非常干净：&lt;strong>GNN 的消息传递本质上就是图上的扩散方程&lt;/strong>，扩散到最后所有节点都收敛到同一个常数。&lt;/p></description></item><item><title>偏微分方程与机器学习（七）：扩散模型与 Score Matching</title><link>https://www.chenk.top/zh/pde-ml/07-%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E4%B8%8Escore-matching/</link><pubDate>Tue, 30 Jul 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/07-%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E4%B8%8Escore-matching/</guid><description>&lt;p>扩散模型的输出端我们很熟悉：一张高质量图片。但训练目标乍看之下却很反直觉——&lt;strong>先把数据加噪声加到完全是高斯，再学怎么一步步去噪&lt;/strong>。为什么这个绕远路的策略反而比直接学数据分布有效？&lt;/p></description></item><item><title>偏微分方程与机器学习（六）：连续归一化流与 Neural ODE</title><link>https://www.chenk.top/zh/pde-ml/06-%E8%BF%9E%E7%BB%AD%E5%BD%92%E4%B8%80%E5%8C%96%E6%B5%81%E4%B8%8Eneural-ode/</link><pubDate>Mon, 15 Jul 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/06-%E8%BF%9E%E7%BB%AD%E5%BD%92%E4%B8%80%E5%8C%96%E6%B5%81%E4%B8%8Eneural-ode/</guid><description>&lt;p>怎么把一团各向同性的高斯噪声“吹”成一张猫的照片？&lt;/p>
&lt;p>&lt;figure class="article-figure">
 &lt;img src="https://blog-pic-ck.oss-cn-beijing.aliyuncs.com/posts/zh/pde-ml/06-Continuous-Normalizing-Flows/illustration_1.png" alt="偏微分方程与机器学习（六）：连续归一化流与 Neural ODE — 章节概览图" loading="lazy" decoding="async" class="content-image">
 
&lt;/figure>
&lt;/p>
&lt;p>归一化流给的答案很直接：用一系列可逆变换，一步步把简单分布推到复杂分布。这一篇要讲的连续归一化流（CNF）把“一系列变换”推到极限——让步长趋于零，离散变换链就变成一个 ODE，可逆性自动满足，密度变化由瞬时换元公式控制。&lt;/p></description></item><item><title>偏微分方程与机器学习（五）：辛几何与保结构网络</title><link>https://www.chenk.top/zh/pde-ml/05-%E8%BE%9B%E5%87%A0%E4%BD%95%E4%B8%8E%E4%BF%9D%E7%BB%93%E6%9E%84%E7%BD%91%E7%BB%9C/</link><pubDate>Sun, 30 Jun 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/05-%E8%BE%9B%E5%87%A0%E4%BD%95%E4%B8%8E%E4%BF%9D%E7%BB%93%E6%9E%84%E7%BD%91%E7%BB%9C/</guid><description>&lt;p>钟摆能摆很久而不慢慢停下来——能量守恒。地球绕太阳转十亿年也不会突然飞走——角动量守恒。这种“某个量恒定不变”的性质背后，藏着一种叫&lt;strong>辛结构&lt;/strong>的几何。&lt;/p></description></item><item><title>偏微分方程与机器学习（三）：变分原理与优化</title><link>https://www.chenk.top/zh/pde-ml/03-%E5%8F%98%E5%88%86%E5%8E%9F%E7%90%86%E4%B8%8E%E4%BC%98%E5%8C%96/</link><pubDate>Fri, 31 May 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/03-%E5%8F%98%E5%88%86%E5%8E%9F%E7%90%86%E4%B8%8E%E4%BC%98%E5%8C%96/</guid><description>&lt;p>训练神经网络的本质是什么？当我们在高维参数空间中运行梯度下降时，背后是否存在某种更深刻的连续时间动力学？当网络宽度趋于无穷时，离散的参数更新是否会收敛到某个优雅的偏微分方程？这些问题的答案，正位于变分法、最优传输与 PDE 理论的交汇处。&lt;/p></description></item></channel></rss>