<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Alignment on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/alignment/</link><description>Recent content in Alignment on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 06 Apr 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/alignment/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（十一）：安全与 Alignment</title><link>https://www.chenk.top/zh/llm-engineering/11-safety/</link><pubDate>Mon, 06 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/11-safety/</guid><description>&lt;p>安全是 LLM 工程中信噪比最低的话题：哲学讨论泛滥、营销话术盛行，而真正可落地的工程细节却十分稀缺。本章只讲工程细节——RLHF 名义上强调“安全”，实际优化目标是什么？拒绝校准为何失效？真实的红队测试长什么样？哪些幻觉评估指标能切实预测对客户的影响？此外，2024–2026 年间的一些不起眼但至关重要的论文（如 &lt;em>Sleeper Agents&lt;/em>、refusal as a feature direction、weak-to-strong generalization）将重塑你对生产环境中对齐实践的理解。&lt;/p></description></item></channel></rss>