LLM
阿里云全栈实战(十):DashScope 与大模型层
阿里云完整 LLM 工具包:Qwen 模型系列、DashScope API(兼容 OpenAI)、万象图像/视频生成、Qwen TTS、异步任务模式、微调。构建多模态 AI 流水线。
大模型工程(十二):生产落地与监控
服务栈选型细化、给 LLM 做 autoscaling、延迟预算、prompt+completion 成本跟踪、多模型路由、FrugalGPT 级联、第一天就要的可观测性,以及能用的 on-call 模式。
大模型工程(十一):安全与 Alignment
对齐在工程上意味什么、拒绝校准、红队分类、幻觉指标、Sleeper Agents、refusal 作为特征向量、constitutional AI,以及 2026 年安全上线实际需要什么。
大模型工程(十):LLM-as-Judge 与评估
为什么 MMLU 坏了、污染问题、LLM-as-judge 偏置、位置偏置缓解、校准、生产里真正能在客户之前抓到回归的 A/B 测试模式。
大模型工程(九):生产级 Prompt 工程
什么时候 chain-of-thought 真有用、self-consistency、prompt caching 经济学、jailbreak 分类、prompt injection 防御,以及生产里活下来的 prompt。
大模型工程(八):RAG 架构与落地
切分策略、dense vs sparse vs 混合检索、reranker 选型、2026 年长上下文 vs RAG 的取舍,以及 10 万文档以上才会冒头的失败模式。
大模型工程(七):Function Calling 实战
JSON 模式 vs function 模式 vs 自由格式、并行工具调用、用文法保证结构化输出、错误恢复模式,以及在真实负载里活下来的 agent loop。
大模型工程(六):长上下文与 RoPE、YaRN
RoPE 怎么编码位置、为什么朴素扩展会崩、NTK-aware 和 YaRN 缩放、ALiBi vs RoPE、流式生成的 attention sinks,以及 1M 上下文承诺为什么常在检索测试上崩盘。
大模型工程(五):推理优化核心技法
KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化,以及 vLLM、SGLang、TensorRT-LLM 的取舍。
大模型工程(四):SFT、DPO 与 RLHF
SFT、DPO、RLHF、RLAIF 各自具体在优化什么,奖励模型在哪里失败,KL 约束的作用,LoRA vs 全量微调那场争论,以及 2026 年生产里实际跑的 post-training 配方。
大模型工程(三):预训练的规模之道
数据混合、去重、benchmark 污染、μP,FSDP / ZeRO-3 / Pipeline 并行,实战意义上的 200B token 悬崖,以及 1000 卡以上才会出现的失败模式。
大模型工程(二):Tokenization 深度解析
BPE、SentencePiece、WordPiece 的差别,byte-level fallback,CJK token 膨胀问题,扩词表的真实代价,以及悄悄塑造每个模型行为的 chat template 特殊 token。
大模型工程(一):Transformer 到 MoE
MHA、GQA、MQA 的取舍,Mixtral 与 Qwen3-MoE 的稀疏路由,滑动窗口注意力,以及 Mamba、RWKV 这条非注意力路径——每条路的代价和适用场景。
Terraform 实战(六):LLM Gateway 与密钥管理
把所有 LLM 访问收敛到一个网关:按 Agent 限流、请求落 SLS 日志、KMS 之外不留密钥。Terraform 配 API Gateway + ECS 上自托管 LiteLLM,DashScope/OpenAI/Anthropic 的 key 通过 KMS Secrets Manager 自动轮转。
阿里云 PAI(三):DLC 分布式训练
在 PAI-DLC 上提交真实多卡训练任务、看懂三种资源池(灵骏、通用、抢占)、用好 AIMaster + EasyCKPT,让一台抽风节点不会让你白干一天。
阿里云百炼(二):Qwen API 生产接入
怎么按延迟和成本挑 Qwen 变体、function calling 写对、JSON mode 不再哭,以及 enable_thinking 必须配流式这条文档没明说的事。
阿里云百炼(一):平台概览与第一个请求
一个工程师视角的阿里云百炼(DashScope)导览——模型目录里真正能用的那几个、两种 endpoint 形态、异步任务模式,外加一个 入门示例 请求把后续文章的基础铺好。
AI Agent 完全指南:从理论到工业实践
面向工程师的 AI Agent 实战指南:规划(CoT/ReAct/ToT)、记忆体系、工具调用、自我反思、多 Agent 协作、主流框架(LangChain、LangGraph、AutoGen、CrewAI)、评估方法与生产部署的全部坑。
推荐系统(十二)—— 大语言模型与推荐系统
LLM 如何重塑推荐系统:增强器(P5、M6Rec)、预测器(TallRec、GenRec)、智能体(LlamaRec、ChatREC)三种角色,混合管线、冷启动突破、Prompt 设计与成本/质量帕累托前沿。
自然语言处理(十二):前沿技术与实战应用
系列收官:Agent 与工具调用(Function Calling、ReAct)、代码生成(Code Llama、Codex)、长上下文(Longformer、Infini-attention)、推理模型(o1、R1)、安全对齐、评估体系,以及基于 FastAPI + vLLM + Docker 的生产级部署。
自然语言处理(十一):多模态大模型
多模态大模型深度解析:CLIP 的对比学习、BLIP-2 的 Q-Former 桥接架构、LLaVA 的视觉指令微调、Whisper 语音识别、GPT-4V 能力图谱以及 MMBench/MME/MMMU 评测体系——配可运行代码。
自然语言处理(十):RAG 与知识增强系统
从第一性原理构建生产级 RAG 系统:retrieve-then-generate 概率分解、向量索引(FAISS / Milvus / Chroma / Weaviate / Pinecone)、稠密+稀疏混合检索与 RRF 融合、Cross-encoder 重排、切块策略、查询改写、HyDE,以及 Self-RAG / Corrective-RAG。
自然语言处理(九):大语言模型架构深度解析
拆解现代 LLM 的内部结构:Pre-norm + RMSNorm + SwiGLU + RoPE + GQA、KV Cache 机制、FlashAttention 的 IO 调度、稀疏 MoE,以及 INT8/INT4 量化。
自然语言处理(八):模型微调与 PEFT
深入参数高效微调:LoRA 为什么用低秩更新就够、QLoRA 把 7B 模型塞进 6GB 显存的内存账本、Adapter 与 Prefix-Tuning 的取舍,以及生产环境怎么选。
自然语言处理(七):提示工程与 In-Context Learning
从提示结构、思维链到 Self-Consistency 与 ReAct:一套关于 In-Context Learning 的工作原理、必须正面应对的方差问题,以及能扩展到生产系统的提示模式。
提示词工程完全指南:从零基础到高级优化
从零样本基础到思维树、DSPy 和自动化优化,掌握提示词工程。包含基准测试、代码示例和调试工具箱。
LLM 工作流与应用架构:企业级实战指南
从一次 API 调用到一个生产级 LLM 平台:工作流模式、RAG、模型路由、部署拓扑、成本杠杆、可观测性、企业集成——以及那些真正决定成败的取舍。
浅谈位置编码:从 Sinusoidal 到 RoPE 与 ALiBi
系统梳理 Transformer 位置编码:为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳,以及如何为新模型选型。
Integrating Large Language Models with Graphical Session-Based Recommendation
LLMGR 用混合编码层把 64 维 ID 映射到 4096 维 LLM 空间,两阶段 prompt tuning,冷启动 HR@20 提升 8.68%。
优化理论(三):梯度下降族——从 SGD 到 AdamW
一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW,再到 Lion / Sophia / Schedule-Free 的完整脉络:每一步解决了前一步的什么痛点?为什么大模型几乎都在用 AdamW?以及 2023 年之后我们究竟走到了哪里。
多模态大模型与下游任务研究
梳理多模态大模型的核心技术:视觉-语言对齐、跨模态融合、多模态预训练,以及 LLM 在传统 NLP 任务中的应用与优化(提示/微调/蒸馏/检索增强)。
























