迁移学习（五）：知识蒸馏

Sun, 25 May 2025 09:00:00 +0000

我训练了一个 340M 参数的 BERT 模型，准确率达到 95%，但产品团队希望将其部署到手机上，而手机只能容纳约 10M 参数。如果从头训练一个 10M 的小模型，准确率只能达到 85%；这时，知识蒸馏几乎可以弥补大部分差距——通过让小模型学习大模型的输出分布，而不仅仅是硬标签，最终准确率可以提升到 92%。

Soft Labels on Chen Kai Blog

迁移学习（五）：知识蒸馏