标签

LLM

May 7, 2026 阿里云全栈实战 36 分钟

阿里云全栈实战（十）：DashScope 与大模型层

阿里云完整 LLM 工具包：Qwen 模型系列、DashScope API（兼容 OpenAI）、万象图像/视频生成、Qwen TTS、异步任务模式、微调。构建多模态 AI 流水线。

Apr 7, 2026 大模型工程 30 分钟

大模型工程（十二）：生产落地与监控

服务栈选型细化、给 LLM 做 autoscaling、延迟预算、prompt+completion 成本跟踪、多模型路由、FrugalGPT 级联、第一天就要的可观测性，以及能用的 on-call 模式。

Apr 6, 2026 大模型工程 34 分钟

大模型工程（十一）：安全与 Alignment

对齐在工程上意味什么、拒绝校准、红队分类、幻觉指标、Sleeper Agents、refusal 作为特征向量、constitutional AI，以及 2026 年安全上线实际需要什么。

Apr 5, 2026 大模型工程 34 分钟

大模型工程（十）：LLM-as-Judge 与评估

为什么 MMLU 坏了、污染问题、LLM-as-judge 偏置、位置偏置缓解、校准、生产里真正能在客户之前抓到回归的 A/B 测试模式。

Apr 4, 2026 大模型工程 36 分钟

大模型工程（九）：生产级 Prompt 工程

什么时候 chain-of-thought 真有用、self-consistency、prompt caching 经济学、jailbreak 分类、prompt injection 防御，以及生产里活下来的 prompt。

Apr 3, 2026 大模型工程 34 分钟

大模型工程（八）：RAG 架构与落地

切分策略、dense vs sparse vs 混合检索、reranker 选型、2026 年长上下文 vs RAG 的取舍，以及 10 万文档以上才会冒头的失败模式。

Apr 2, 2026 大模型工程 30 分钟

大模型工程（七）：Function Calling 实战

JSON 模式 vs function 模式 vs 自由格式、并行工具调用、用文法保证结构化输出、错误恢复模式，以及在真实负载里活下来的 agent loop。

Apr 1, 2026 大模型工程 28 分钟

大模型工程（六）：长上下文与 RoPE、YaRN

RoPE 怎么编码位置、为什么朴素扩展会崩、NTK-aware 和 YaRN 缩放、ALiBi vs RoPE、流式生成的 attention sinks，以及 1M 上下文承诺为什么常在检索测试上崩盘。

Mar 31, 2026 大模型工程 40 分钟

大模型工程（五）：推理优化核心技法

KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化，以及 vLLM、SGLang、TensorRT-LLM 的取舍。

Mar 30, 2026 大模型工程 50 分钟

大模型工程（四）：SFT、DPO 与 RLHF

SFT、DPO、RLHF、RLAIF 各自具体在优化什么，奖励模型在哪里失败，KL 约束的作用，LoRA vs 全量微调那场争论，以及 2026 年生产里实际跑的 post-training 配方。

Mar 29, 2026 大模型工程 36 分钟

大模型工程（三）：预训练的规模之道

数据混合、去重、benchmark 污染、μP，FSDP / ZeRO-3 / Pipeline 并行，实战意义上的 200B token 悬崖，以及 1000 卡以上才会出现的失败模式。

Mar 28, 2026 大模型工程 38 分钟

大模型工程（二）：Tokenization 深度解析

BPE、SentencePiece、WordPiece 的差别，byte-level fallback，CJK token 膨胀问题，扩词表的真实代价，以及悄悄塑造每个模型行为的 chat template 特殊 token。

Mar 27, 2026 大模型工程 50 分钟

大模型工程（一）：Transformer 到 MoE

MHA、GQA、MQA 的取舍，Mixtral 与 Qwen3-MoE 的稀疏路由，滑动窗口注意力，以及 Mamba、RWKV 这条非注意力路径——每条路的代价和适用场景。

Mar 22, 2026 Terraform 实战 28 分钟

Terraform 实战（六）：LLM Gateway 与密钥管理

把所有 LLM 访问收敛到一个网关：按 Agent 限流、请求落 SLS 日志、KMS 之外不留密钥。Terraform 配 API Gateway + ECS 上自托管 LiteLLM，DashScope/OpenAI/Anthropic 的 key 通过 KMS Secrets Manager 自动轮转。

Mar 7, 2026 阿里云 PAI 22 分钟

阿里云 PAI（三）：DLC 分布式训练

在 PAI-DLC 上提交真实多卡训练任务、看懂三种资源池（灵骏、通用、抢占）、用好 AIMaster + EasyCKPT，让一台抽风节点不会让你白干一天。

Feb 26, 2026 阿里云百炼 20 分钟

阿里云百炼（二）：Qwen API 生产接入

怎么按延迟和成本挑 Qwen 变体、function calling 写对、JSON mode 不再哭，以及 enable_thinking 必须配流式这条文档没明说的事。

Feb 25, 2026 阿里云百炼 24 分钟

阿里云百炼（一）：平台概览与第一个请求

一个工程师视角的阿里云百炼（DashScope）导览——模型目录里真正能用的那几个、两种 endpoint 形态、异步任务模式，外加一个入门示例请求把后续文章的基础铺好。

Jan 19, 2026 单点深潜 34 分钟

AI Agent 完全指南：从理论到工业实践

面向工程师的 AI Agent 实战指南：规划（CoT/ReAct/ToT）、记忆体系、工具调用、自我反思、多 Agent 协作、主流框架（LangChain、LangGraph、AutoGen、CrewAI）、评估方法与生产部署的全部坑。

Jan 3, 2026 推荐系统 32 分钟

自然语言处理（十二）：前沿技术与实战应用

系列收官：Agent 与工具调用（Function Calling、ReAct）、代码生成（Code Llama、Codex）、长上下文（Longformer、Infini-attention）、推理模型（o1、R1）、安全对齐、评估体系，以及基于 FastAPI + vLLM + Docker 的生产级部署。

Nov 20, 2025 NLP 技术前沿 32 分钟

自然语言处理（十一）：多模态大模型

多模态大模型深度解析：CLIP 的对比学习、BLIP-2 的 Q-Former 桥接架构、LLaVA 的视觉指令微调、Whisper 语音识别、GPT-4V 能力图谱以及 MMBench/MME/MMMU 评测体系——配可运行代码。

Nov 15, 2025 NLP 技术前沿 28 分钟

自然语言处理（十）：RAG 与知识增强系统

从第一性原理构建生产级 RAG 系统：retrieve-then-generate 概率分解、向量索引（FAISS / Milvus / Chroma / Weaviate / Pinecone）、稠密+稀疏混合检索与 RRF 融合、Cross-encoder 重排、切块策略、查询改写、HyDE，以及 Self-RAG / Corrective-RAG。

Nov 10, 2025 NLP 技术前沿 30 分钟

自然语言处理（九）：大语言模型架构深度解析

拆解现代 LLM 的内部结构：Pre-norm + RMSNorm + SwiGLU + RoPE + GQA、KV Cache 机制、FlashAttention 的 IO 调度、稀疏 MoE，以及 INT8/INT4 量化。

Nov 5, 2025 NLP 技术前沿 16 分钟

自然语言处理（八）：模型微调与 PEFT

深入参数高效微调：LoRA 为什么用低秩更新就够、QLoRA 把 7B 模型塞进 6GB 显存的内存账本、Adapter 与 Prefix-Tuning 的取舍，以及生产环境怎么选。

Oct 31, 2025 NLP 技术前沿 36 分钟

自然语言处理（七）：提示工程与 In-Context Learning

从提示结构、思维链到 Self-Consistency 与 ReAct：一套关于 In-Context Learning 的工作原理、必须正面应对的方差问题，以及能扩展到生产系统的提示模式。

Sep 30, 2025 单点深潜 26 分钟

提示词工程完全指南：从零基础到高级优化

从零样本基础到思维树、DSPy 和自动化优化，掌握提示词工程。包含基准测试、代码示例和调试工具箱。

Jul 31, 2025 单点深潜 26 分钟

LLM 工作流与应用架构：企业级实战指南

从一次 API 调用到一个生产级 LLM 平台：工作流模式、RAG、模型路由、部署拓扑、成本杠杆、可观测性、企业集成——以及那些真正决定成败的取舍。

Jun 30, 2023 单点深潜 18 分钟

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

系统梳理 Transformer 位置编码：为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳，以及如何为新模型选型。

Jan 22, 2023 单点深潜 22 分钟

论文精读：将大语言模型融入图结构会话推荐（LLMGR）

LLMGR 用混合编码层把 64 维 ID 映射到 4096 维 LLM 空间，两阶段 prompt tuning，冷启动 HR@20 提升 8.68%。

Sep 16, 2022 优化理论 20 分钟

优化理论（三）：梯度下降族——从 SGD 到 AdamW

一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW，再到 Lion / Sophia / Schedule-Free 的完整脉络：每一步解决了前一步的什么痛点？为什么大模型几乎都在用 AdamW？以及 2023 年之后我们究竟走到了哪里。

Apr 9, 2022 单点深潜 36 分钟

多模态大模型与下游任务研究

梳理多模态大模型的核心技术：视觉-语言对齐、跨模态融合、多模态预训练，以及 LLM 在传统 NLP 任务中的应用与优化（提示/微调/蒸馏/检索增强）。