机器学习数学推导（十八）：聚类算法

Fri, 06 Feb 2026 09:00:00 +0000

本文要解决什么#

面对一百万条没有标签的客户记录，能否自动找出有意义的分组？这就是聚类——无监督学习中最基础的任务。与分类不同，聚类首先要回答一个棘手的问题：“相似”到底是什么意思？每种聚类算法本质上都是对这个问题的不同回答：它们从几何、概率或图论的角度，对“群组”施加了不同的先验假设。

机器学习数学推导（十三）：EM 算法与 GMM

Sun, 01 Feb 2026 09:00:00 +0000

数据中常隐含难以观测的结构：样本所属的簇未知，某些特征的真实值缺失，文本背后的潜在主题也不明确。这些隐变量让最大似然估计变得棘手——似然函数变成“对数里面套求和”的形式，既没有闭式解，梯度方法也容易被隐变量困住。EM 算法用一个看似简单的思路巧妙绕开这一难题：交替进行两步操作——先基于当前参数下的隐变量后验分布计算期望（E 步），再将这些期望当作真实值来更新模型参数（M 步）。每次迭代都严格保证对数似然值不减。本文将从第一性原理出发推导 EM 算法，利用 Jensen 不等式证明其单调上升性质，并将其应用于最经典的场景——高斯混合模型（GMM），即 K-means 的软化、椭球化推广。

GMM on Chen Kai Blog

机器学习数学推导（十八）：聚类算法

本文要解决什么#

机器学习数学推导（十三）：EM 算法与 GMM