Claude Code 实战（五）：Hooks 与 Yolo 安全网

Wed, 22 Apr 2026 09:00:00 +0000

如果说 MCP 是 Claude 向外扩展能力的机制，那么 Hooks 就是你向内施加约束的手段——它强制执行你真正关心的规则，而不只是寄托于模型的自觉。

大模型工程（十一）：安全与 Alignment

Mon, 06 Apr 2026 09:00:00 +0000

安全是 LLM 工程中信噪比最低的话题：哲学讨论泛滥、营销话术盛行，而真正可落地的工程细节却十分稀缺。本章只讲工程细节——RLHF 名义上强调“安全”，实际优化目标是什么？拒绝校准为何失效？真实的红队测试长什么样？哪些幻觉评估指标能切实预测对客户的影响？此外，2024–2026 年间的一些不起眼但至关重要的论文（如 Sleeper Agents、refusal as a feature direction、weak-to-strong generalization）将重塑你对生产环境中对齐实践的理解。

Safety on Chen Kai Blog

Claude Code 实战（五）：Hooks 与 Yolo 安全网

大模型工程（十一）：安全与 Alignment