大模型工程
现代大模型端到端工程:架构、后训练、推理、RAG、评估、安全与上线。
大模型工程(十二):生产落地与监控
服务栈选型细化、给 LLM 做 autoscaling、延迟预算、prompt+completion 成本跟踪、多模型路由、FrugalGPT 级联、第一天就要的可观测性,以及能用的 on-call 模式。
大模型工程(十一):安全与 Alignment
对齐在工程上意味什么、拒绝校准、红队分类、幻觉指标、Sleeper Agents、refusal 作为特征向量、constitutional AI,以及 2026 年安全上线实际需要什么。
大模型工程(十):LLM-as-Judge 与评估
为什么 MMLU 坏了、污染问题、LLM-as-judge 偏置、位置偏置缓解、校准、生产里真正能在客户之前抓到回归的 A/B 测试模式。
大模型工程(九):生产级 Prompt 工程
什么时候 chain-of-thought 真有用、self-consistency、prompt caching 经济学、jailbreak 分类、prompt injection 防御,以及生产里活下来的 prompt。
大模型工程(八):RAG 架构与落地
切分策略、dense vs sparse vs 混合检索、reranker 选型、2026 年长上下文 vs RAG 的取舍,以及 10 万文档以上才会冒头的失败模式。
大模型工程(七):Function Calling 实战
JSON 模式 vs function 模式 vs 自由格式、并行工具调用、用文法保证结构化输出、错误恢复模式,以及在真实负载里活下来的 agent loop。
大模型工程(六):长上下文与 RoPE、YaRN
RoPE 怎么编码位置、为什么朴素扩展会崩、NTK-aware 和 YaRN 缩放、ALiBi vs RoPE、流式生成的 attention sinks,以及 1M 上下文承诺为什么常在检索测试上崩盘。
大模型工程(五):推理优化核心技法
KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化,以及 vLLM、SGLang、TensorRT-LLM 的取舍。
大模型工程(四):SFT、DPO 与 RLHF
SFT、DPO、RLHF、RLAIF 各自具体在优化什么,奖励模型在哪里失败,KL 约束的作用,LoRA vs 全量微调那场争论,以及 2026 年生产里实际跑的 post-training 配方。
大模型工程(三):预训练的规模之道
数据混合、去重、benchmark 污染、μP,FSDP / ZeRO-3 / Pipeline 并行,实战意义上的 200B token 悬崖,以及 1000 卡以上才会出现的失败模式。
大模型工程(二):Tokenization 深度解析
BPE、SentencePiece、WordPiece 的差别,byte-level fallback,CJK token 膨胀问题,扩词表的真实代价,以及悄悄塑造每个模型行为的 chat template 特殊 token。
大模型工程(一):Transformer 到 MoE
MHA、GQA、MQA 的取舍,Mixtral 与 Qwen3-MoE 的稀疏路由,滑动窗口注意力,以及 Mamba、RWKV 这条非注意力路径——每条路的代价和适用场景。











