标签
Safety
Claude Code 实战(五):Hooks 与 Yolo 安全网
Hooks 是每次工具调用前后跑的 shell 脚本。PreToolUse 可以阻止。PostToolUse 可以格式化、Lint、记日志。我每个 Repo 都用的 5 个 Hook,加上一个把所有人都坑过的反模式。
大模型工程(十一):安全与 Alignment
对齐在工程上意味什么、拒绝校准、红队分类、幻觉指标、Sleeper Agents、refusal 作为特征向量、constitutional AI,以及 2026 年安全上线实际需要什么。

