<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Soft Labels on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/soft-labels/</link><description>Recent content in Soft Labels on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sun, 25 May 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/soft-labels/index.xml" rel="self" type="application/rss+xml"/><item><title>迁移学习（五）：知识蒸馏</title><link>https://www.chenk.top/zh/transfer-learning/05-%E7%9F%A5%E8%AF%86%E8%92%B8%E9%A6%8F/</link><pubDate>Sun, 25 May 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/transfer-learning/05-%E7%9F%A5%E8%AF%86%E8%92%B8%E9%A6%8F/</guid><description>&lt;p>我训练了一个 340M 参数的 BERT 模型，准确率达到 95%，但产品团队希望将其部署到手机上，而手机只能容纳约 10M 参数。如果从头训练一个 10M 的小模型，准确率只能达到 85%；这时，知识蒸馏几乎可以弥补大部分差距——通过让小模型学习大模型的输出分布，而不仅仅是硬标签，最终准确率可以提升到 92%。&lt;/p></description></item></channel></rss>