数学与机器学习是我的底色,这几年完全转到云原生与长周期 Agent 这一侧——那种要连续跑几小时、几天、有时几周,全程都得自洽的系统。
写出来的代码大半是粘合层:控制平面调度子 Agent、harness 把失败压成可复用 Skill、共享记忆不在 session 之间漂移、以及从一个跑得通的 demo 到敢留它过夜的生产链路之间,那一段不光鲜的工程地带。
不写代码的时候我在写文章。已发布 346 篇中文 + 346 篇英文原创长文(共 692 篇),覆盖 33 个系列,中英两种语言各自从零起笔——中文重凝练,英文重展开,不是互译。完整作品集见 /projects 。
这些文章不是写完就存档的——我会定期回顾、修订已有内容,补充最新的工具链、论文结论和工程实践,确保每篇的技术判断跟得上当下而非停留在落笔那一刻。
最近这阵子在做什么
AI4Marketing — 一句话变一场跨境营销
热点追踪 → AI 文案 → 配图生成 → 短视频(口播 / 解说 / 短剧)→ TTS 配音 → 多平台定时发布,全流程 120+ API 端点驱动。内含内容原子化拆解、多视角 AI 辩论选稿、GEO(生成式引擎优化)、故事板编排、内容日历与数据看板,128K 行 TypeScript,集成 11 款阿里云产品。
AI4Science — 不停歇的科研 Agent 循环
三条流水线 + 六个 systemd 服务 7×24 不间断运行。已读 41,000+ 篇论文、生成 4,000+ 个研究想法、完成 268 次实验、产出 1,100+ 篇手稿。知识图谱维护 + 信号评估 + 对抗辩论筛选想法 + FSM 驱动实验全流程:设计 → 执行 → 统计分析 → 失败诊断 → 写作 → 三轮审稿。
DaaS — 把整家公司的文档压成 Agent Skill
给它一个产品文档目录,LLM 读完所有内容,自动生成 detail skill(每个能力怎么用)和 intent skill(多条路径怎么选)。11 个产品工作区、670+ 个自动 Skill、96% 对抗召回率。附带 MCP Server 自动生成、D3 知识图谱、漂移检测、实时遥测与双币种订阅计费。
MiniGameForge — 30 分钟把想法变成可上架小游戏
选模板、选风格、点生成,AI 全自动产出代码、美术、过场视频。底层是 elevator agent 三段式(planner → executor → verifier)+ 7 类异常护栏 + 视觉自调试(看运行画面发现错误自己修),6 家 17 把 key 自适应路由。已上线 llm4marketing.asia。
llm-elevator — 让国产模型自主编码
78 个核心模块的编排系统,让通义千问、DeepSeek、Kimi 等国产模型稳定完成长程软件工程任务。核心循环:Planner → Critic → Executor → Reviewer → Verifier → Git → Lesson。跨家族模型审查防自我满足,Tripwire 硬阻断防死循环,失败自动升档模型重试,每次成功沉淀 Skill。
chenk.top — 中英双语长文
你现在看的这块地方。中英两版各自从零起笔——非翻译,中文重凝练,英文重展开。截至目前 30+ 主题系列、700+ 篇深稿、2200+ 张原创图表,全部由我一个人写、配图、审校。定期回顾修订已有内容,确保技术判断跟得上当下。
LLM App Security — AI Coding 时代的安全工程
正在写的一本开源书。拆解 LLM 驱动应用的真实攻击面(Prompt 注入、权限逃逸、供应链投毒),从线上事故中提炼工程化防御方案。每一章对应一个安全维度,附带可复现的攻防实验和完整的代码守卫脚本。
长周期系统如何在出错、模型切换、成本压缩与环境迁移的扰动下保持韧性?
落地路径很具体:跨 Provider 的动态预算分配、把失败压缩成可复用 Skill、共享记忆的类型收敛、从 demo 到上线之间可观测、可回放、可降级的真实交付鸿沟。
写代码时遵循的几条朴素准则
- i
工具会过时,判断力不会。
- ii
文档比代码更值得投入时间。
- iii
过早抽象,是工程师最昂贵的本能。
- iv
稳跑三十天的小系统,胜过演示三十分钟的炫 Demo。
- v
把 Agent 当真实系统对待——有显性成本、明确故障域、需运维——而不是"会说话的 Prompt"。