<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Mamba on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/mamba/</link><description>Recent content in Mamba on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 27 Mar 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/mamba/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（一）：Transformer 到 MoE</title><link>https://www.chenk.top/zh/llm-engineering/01-architectures/</link><pubDate>Fri, 27 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/01-architectures/</guid><description>&lt;p>2017 年提出的 Transformer 模块，到 2026 年依然是所有生产级大语言模型（LLM）的骨架，但其内部组件几乎已被全面替换、稀疏化或专业化。本系列将端到端覆盖现代 LLM 技术栈——架构、训练、推理、检索增强、评估、安全与部署。第一章聚焦模块本身：2026 年注意力机制的实际形态、MoE 如何打破参数量与计算量（FLOPs）的绑定关系，以及 Mamba、RWKV 等非注意力架构在哪些场景下真正优于 Transformer。&lt;/p></description></item></channel></rss>