<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Benchmarks on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/benchmarks/</link><description>Recent content in Benchmarks on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sun, 05 Apr 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/benchmarks/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（十）：LLM-as-Judge 与评估</title><link>https://www.chenk.top/zh/llm-engineering/10-evaluation/</link><pubDate>Sun, 05 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/10-evaluation/</guid><description>&lt;p>评估是大模型技术栈中争议最多、信心最弱的一环——榜单被刷分、公开基准遭污染，我参与过的多数团队甚至在初期连自己的评估集都没有。本章将聚焦五个关键问题：评估真正能揭示什么、基准暗藏的陷阱、无人修复的 LLM-as-judge 偏差、多数团队忽略的校准指标，以及能在客户感知前捕获回归的生产级评估模式。&lt;/p></description></item></channel></rss>