Machine Learning
阿里云全栈实战(十一):PAI 打造机器学习平台
阿里云完整 ML 平台:PAI-DSW 笔记本、PAI-DLC 分布式训练、PAI-EAS 模型服务、Designer 可视化工作流、Model Gallery。端到端训练和部署自定义模型。
阿里云 PAI(二):DSW Notebook 避坑指南
PAI-DSW 实战:选对 GPU 镜像、把 OSS 挂好不丢权重、把官方 Quick Start 的 MNIST 完整跑通。再附上一些只在淘宝场景里踩过才知道的坑。
阿里云 PAI(一):平台概览与产品地图
基于官方文档梳理 2026 年阿里云 PAI 的四层服务架构、你真正会用到的五个子产品(DSW、DLC、EAS、Designer、Model Gallery),它们和 ECS、OSS 的关系,以及一套干净的账号/区域/工作空间初始化流程。
机器学习数学推导(二十):正则化与模型选择
系列收官:从偏差-方差分解出发,沿着 L1/L2 几何、Dropout 子网络采样、K 折交叉验证、AIC/BIC、VC 维到现代的双下降现象,回答机器学习理论中最深的一个问题——为什么模型能泛化。
机器学习数学推导(十九):神经网络与反向传播
神经网络如何学习?本文推导前向传播的矩阵形式、反向传播的链式法则逐层推导、梯度消失/爆炸的数学分析、以及 Xavier 和 He 初始化的方差保持策略。
机器学习数学推导(十八):聚类算法
如何在无标签数据中发现群组结构?本文从数学基础出发推导 K-means(Lloyd 算法与 K-means++)、层次聚类、DBSCAN 密度聚类、谱聚类与高斯混合模型,配以七张图直观展现每种算法背后的不同假设。
机器学习数学推导(十七):降维与主成分分析
高维空间对基于距离的算法极其不友好。本文从最大方差与最小重构误差两个等价视角推导 PCA,并依次扩展到核 PCA、LDA、t-SNE 与 ICA——配套图示直接展示同一份数据上各方法到底干了什么。
机器学习数学推导(十六):条件随机场
CRF 为什么在序列标注任务上压 HMM 一头?本文从零推导线性链 CRF——势函数与特征函数、前向后向算法、对数似然梯度(经验期望减模型期望)、Viterbi 解码,以及现代 BiLSTM-CRF 的整合方式。
机器学习数学推导(十五):隐马尔可夫模型
从一个原理推出 HMM 的三大经典算法:把联合分布按时间因子化,再用动态规划复用跨时间的子计算。覆盖前向后向的边缘与平滑、Viterbi 的 MAP 解码,以及 Baum-Welch(EM)的参数学习。
机器学习数学推导(十四):变分推断与变分 EM
从一行恒等式出发推导变分推断:ELBO 分解、平均场假设、坐标上升 CAVI、变分 EM,以及让 VAE 得以训练的重参数化技巧。
机器学习数学推导(十三):EM 算法与 GMM
从 Jensen 不等式与 ELBO 出发推导 EM 算法,证明其单调上升性,并完整给出高斯混合模型(GMM)的 E 步、M 步更新公式、模型选择以及与 K-means 的关系。
机器学习数学推导(十二):XGBoost 与 LightGBM
从 XGBoost 的二阶泰勒展开到 LightGBM 的直方图加速,本文系统推导两大工业级梯度提升框架——正则化目标函数、分裂增益闭式解、GOSS 单边采样与 EFB 互斥特征绑定的数学原理。
机器学习数学推导(十一):集成学习
推导一群平庸分类器为何能压过单个高手。涵盖偏差-方差分解、Bagging 与随机森林的方差缩减、AdaBoost 的指数损失、以及 GBDT 在函数空间中的梯度下降。
机器学习数学推导(十):半朴素贝叶斯与贝叶斯网络
从 SPODE、TAN、AODE 到完整的贝叶斯网络:通过单依赖树、超父集成与图结构学习,把朴素贝叶斯和全联合分布之间的鸿沟逐级填平。
机器学习数学推导(九):朴素贝叶斯
从贝叶斯定理与条件独立假设出发,完整推导朴素贝叶斯分类器:参数估计、拉普拉斯平滑、三种模型变体,以及为什么这个看似过于简单的模型在实践中如此有效。
机器学习数学推导(八):支持向量机
从最大间隔到核技巧,完整推导 SVM 的理论框架——拉格朗日对偶、KKT 条件、SMO 算法与核函数构造。
机器学习数学推导(七):决策树
从信息熵到基尼指数,从 ID3 到 CART——系统推导决策树的数学原理:分裂准则、连续特征与缺失值处理、剪枝策略、特征重要性,所有图都用 sklearn 验证。
机器学习数学推导(六):逻辑回归与分类
从 Sigmoid 到 Softmax,完整推导逻辑回归——交叉熵损失、梯度计算、正则化与多分类扩展,附 Python 验证。
机器学习数学推导(五):线性回归
从代数(正规方程)、几何(正交投影)、概率(最大似然)三个角度完整推导线性回归,再延伸到 Ridge、Lasso、梯度下降与诊断方法,全部结论与 scikit-learn 互验。
机器学习数学推导(四):凸优化理论
从凸集与凸函数出发,严格推导梯度下降、牛顿法、BFGS、KKT 条件与 ADMM——机器学习优化的数学基石。
机器学习数学推导(三):概率论与统计推断
从 Kolmogorov 公理到最大似然估计,从贝叶斯推断到信息论——一篇文章打通机器学习背后的概率与统计语言。
机器学习数学推导(二):线性代数与矩阵论
机器学习的语言是线性代数。本文从第一性原理推导向量空间、特征值分解、SVD 与矩阵求导——ML 优化所需的全部工具。
机器学习数学推导(一):绪论与数学基础
机器为什么能从有限的数据中学到普适的规律?本章从第一性原理出发,系统推导学习理论的数学骨架——问题形式化、损失函数、PAC 框架、VC 维、偏差-方差分解与无免费午餐定理。
辛几何与结构保持神经网络:让模型学会守恒
理解能保持能量与辛结构的物理感知神经网络。涵盖 HNN、LNN、SympNet、辛积分器,以及四个经典物理系统实验。
迁移学习(一):基础与核心概念
迁移学习入门指南:为什么迁移有效、形式化定义、分类体系、负迁移,以及一个基于 MMD 域适应的完整特征迁移实现。
线性代数(十五):机器学习中的线性代数——从 PCA 到推荐系统
线性代数是机器学习的'母语'。本章深入 PCA、LDA、SVM 核方法、矩阵分解推荐系统、线性回归的矩阵形式,以及神经网络中的线性层与注意力机制背后的线性代数原理。
概率与统计(八):贝叶斯统计——先验、后验,以及频率学派为何争论不休
从第一性原理出发的贝叶斯推断:后验分布、共轭先验、Beta-二项模型与正态-正态模型、可信区间、预测分布、MCMC 直观理解,以及与机器学习正则化的深层联系。
偏微分方程与机器学习(八):反应扩散系统与 GNN
深层 GNN 之所以崩溃,是因为它就是图上的扩散方程;图灵 1952 年的反应扩散理论告诉我们如何修好它——也为整个八章 PDE+ML 系列收尾。
偏微分方程与机器学习(七):扩散模型与 Score Matching
从 PDE 视角统一理解扩散模型:热方程、Fokker-Planck、score matching、DDPM/DDIM、Latent Diffusion,配可视化。
偏微分方程与机器学习(六):连续归一化流与 Neural ODE
如何把高斯变成数据分布?本文从 ODE/PDE 理论出发,系统推导 Neural ODE、伴随方法、连续归一化流(FFJORD)与 Flow Matching,并用 7 张图把核心机制画清楚。
偏微分方程与机器学习(五):辛几何与保结构网络
保结构神经网络的几何起点:相空间、辛形式、Liouville 定理、辛积分器,以及 HNN / LNN / SympNet 三种把守恒律烧进网络结构里的方法。
偏微分方程与机器学习(三):变分原理与优化
变分原理与 PDE 求解:Euler-Lagrange 方程、Wasserstein 梯度流、Mean-Field 理论,以及完整数值实验。






























