分类

大模型工程

Apr 7, 2026 大模型工程 30 分钟

大模型工程(十二):生产落地与监控

服务栈选型细化、给 LLM 做 autoscaling、延迟预算、prompt+completion 成本跟踪、多模型路由、FrugalGPT 级联、第一天就要的可观测性,以及能用的 on-call 模式。

Apr 6, 2026 大模型工程 34 分钟

大模型工程(十一):安全与 Alignment

对齐在工程上意味什么、拒绝校准、红队分类、幻觉指标、Sleeper Agents、refusal 作为特征向量、constitutional AI,以及 2026 年安全上线实际需要什么。

Apr 5, 2026 大模型工程 34 分钟

大模型工程(十):LLM-as-Judge 与评估

为什么 MMLU 坏了、污染问题、LLM-as-judge 偏置、位置偏置缓解、校准、生产里真正能在客户之前抓到回归的 A/B 测试模式。

Apr 4, 2026 大模型工程 36 分钟

大模型工程(九):生产级 Prompt 工程

什么时候 chain-of-thought 真有用、self-consistency、prompt caching 经济学、jailbreak 分类、prompt injection 防御,以及生产里活下来的 prompt。

Apr 3, 2026 大模型工程 30 分钟

大模型工程(八):RAG 架构与落地

切分策略、dense vs sparse vs 混合检索、reranker 选型、2026 年长上下文 vs RAG 的取舍,以及 10 万文档以上才会冒头的失败模式。

Apr 2, 2026 大模型工程 30 分钟

大模型工程(七):Function Calling 实战

JSON 模式 vs function 模式 vs 自由格式、并行工具调用、用文法保证结构化输出、错误恢复模式,以及在真实负载里活下来的 agent loop。

Apr 1, 2026 大模型工程 28 分钟

大模型工程(六):长上下文与 RoPE、YaRN

RoPE 怎么编码位置、为什么朴素扩展会崩、NTK-aware 和 YaRN 缩放、ALiBi vs RoPE、流式生成的 attention sinks,以及 1M 上下文承诺为什么常在检索测试上崩盘。

Mar 31, 2026 大模型工程 40 分钟

大模型工程(五):推理优化核心技法

KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化,以及 vLLM、SGLang、TensorRT-LLM 的取舍。

Mar 30, 2026 大模型工程 46 分钟

大模型工程(四):SFT、DPO 与 RLHF

SFT、DPO、RLHF、RLAIF 各自具体在优化什么,奖励模型在哪里失败,KL 约束的作用,LoRA vs 全量微调那场争论,以及 2026 年生产里实际跑的 post-training 配方。

Mar 29, 2026 大模型工程 36 分钟

大模型工程(三):预训练的规模之道

数据混合、去重、benchmark 污染、μP,FSDP / ZeRO-3 / Pipeline 并行,实战意义上的 200B token 悬崖,以及 1000 卡以上才会出现的失败模式。

Mar 28, 2026 大模型工程 38 分钟

大模型工程(二):Tokenization 深度解析

BPE、SentencePiece、WordPiece 的差别,byte-level fallback,CJK token 膨胀问题,扩词表的真实代价,以及悄悄塑造每个模型行为的 chat template 特殊 token。

Mar 27, 2026 大模型工程 50 分钟

大模型工程(一):Transformer 到 MoE

MHA、GQA、MQA 的取舍,Mixtral 与 Qwen3-MoE 的稀疏路由,滑动窗口注意力,以及 Mamba、RWKV 这条非注意力路径——每条路的代价和适用场景。