大模型工程（十）：LLM-as-Judge 与评估

Sun, 05 Apr 2026 09:00:00 +0000

评估是大模型技术栈中争议最多、信心最弱的一环——榜单被刷分、公开基准遭污染，我参与过的多数团队甚至在初期连自己的评估集都没有。本章将聚焦五个关键问题：评估真正能揭示什么、基准暗藏的陷阱、无人修复的 LLM-as-judge 偏差、多数团队忽略的校准指标，以及能在客户感知前捕获回归的生产级评估模式。

Benchmarks on Chen Kai Blog