<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GMM on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/gmm/</link><description>Recent content in GMM on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 06 Feb 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/gmm/index.xml" rel="self" type="application/rss+xml"/><item><title>机器学习数学推导（十八）：聚类算法</title><link>https://www.chenk.top/zh/ml-math-derivations/18-%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/</link><pubDate>Fri, 06 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/18-%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/</guid><description>&lt;h2 id="本文要解决什么" class="heading-anchor">本文要解决什么&lt;a href="#%e6%9c%ac%e6%96%87%e8%a6%81%e8%a7%a3%e5%86%b3%e4%bb%80%e4%b9%88" class="heading-link" aria-label="Permalink to this section" title="Copy link to this section">#&lt;/a>
&lt;/h2>&lt;p>面对一百万条没有标签的客户记录，能否自动找出有意义的分组？这就是 &lt;strong>聚类&lt;/strong>——无监督学习中最基础的任务。与分类不同，聚类首先要回答一个棘手的问题：“相似”到底是什么意思？每种聚类算法本质上都是对这个问题的不同回答：它们从几何、概率或图论的角度，对“群组”施加了不同的先验假设。&lt;/p></description></item><item><title>机器学习数学推导（十三）：EM 算法与 GMM</title><link>https://www.chenk.top/zh/ml-math-derivations/13-em%E7%AE%97%E6%B3%95%E4%B8%8Egmm/</link><pubDate>Sun, 01 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/ml-math-derivations/13-em%E7%AE%97%E6%B3%95%E4%B8%8Egmm/</guid><description>&lt;p>数据中常隐含难以观测的结构：样本所属的簇未知，某些特征的真实值缺失，文本背后的潜在主题也不明确。这些隐变量让最大似然估计变得棘手——似然函数变成“对数里面套求和”的形式，既没有闭式解，梯度方法也容易被隐变量困住。&lt;strong>EM 算法&lt;/strong>用一个看似简单的思路巧妙绕开这一难题：交替进行两步操作——先基于当前参数下的隐变量后验分布计算期望（E 步），再将这些期望当作真实值来更新模型参数（M 步）。每次迭代都严格保证对数似然值不减。本文将从第一性原理出发推导 EM 算法，利用 Jensen 不等式证明其单调上升性质，并将其应用于最经典的场景——&lt;strong>高斯混合模型（GMM）&lt;/strong>，即 K-means 的软化、椭球化推广。&lt;/p></description></item></channel></rss>