<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Safety on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/safety/</link><description>Recent content in Safety on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 22 Apr 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/safety/index.xml" rel="self" type="application/rss+xml"/><item><title>Claude Code 实战（五）：Hooks 与 Yolo 安全网</title><link>https://www.chenk.top/zh/claude-code-learn/05-hooks/</link><pubDate>Wed, 22 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/claude-code-learn/05-hooks/</guid><description>&lt;p>如果说 MCP 是 Claude 向外扩展能力的机制，那么 Hooks 就是你向内施加约束的手段——它强制执行你真正关心的规则，而不只是寄托于模型的自觉。&lt;/p>
&lt;p>&lt;figure class="article-figure">
 &lt;img src="https://blog-pic-ck.oss-cn-beijing.aliyuncs.com/posts/zh/claude-code-learn/05-hooks/illustration_1.png" alt="Claude Code 实战 (5)：Hooks，或如何不再担心 Yolo 模式 —— 图解" loading="lazy" decoding="async" class="content-image">
 
&lt;/figure>
&lt;/p></description></item><item><title>大模型工程（十一）：安全与 Alignment</title><link>https://www.chenk.top/zh/llm-engineering/11-safety/</link><pubDate>Mon, 06 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/11-safety/</guid><description>&lt;p>安全是 LLM 工程中信噪比最低的话题：哲学讨论泛滥、营销话术盛行，而真正可落地的工程细节却十分稀缺。本章只讲工程细节——RLHF 名义上强调“安全”，实际优化目标是什么？拒绝校准为何失效？真实的红队测试长什么样？哪些幻觉评估指标能切实预测对客户的影响？此外，2024–2026 年间的一些不起眼但至关重要的论文（如 &lt;em>Sleeper Agents&lt;/em>、refusal as a feature direction、weak-to-strong generalization）将重塑你对生产环境中对齐实践的理解。&lt;/p></description></item></channel></rss>