标签

RoPE

Apr 1, 2026 大模型工程 28 分钟

大模型工程(六):长上下文与 RoPE、YaRN

RoPE 怎么编码位置、为什么朴素扩展会崩、NTK-aware 和 YaRN 缩放、ALiBi vs RoPE、流式生成的 attention sinks,以及 1M 上下文承诺为什么常在检索测试上崩盘。

Nov 10, 2025 NLP 技术前沿 30 分钟

自然语言处理(九):大语言模型架构深度解析

拆解现代 LLM 的内部结构:Pre-norm + RMSNorm + SwiGLU + RoPE + GQA、KV Cache 机制、FlashAttention 的 IO 调度、稀疏 MoE,以及 INT8/INT4 量化。