<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Monitoring on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/monitoring/</link><description>Recent content in Monitoring on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 07 Apr 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/monitoring/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（十二）：生产落地与监控</title><link>https://www.chenk.top/zh/llm-engineering/12-production/</link><pubDate>Tue, 07 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/12-production/</guid><description>&lt;p>这是最后一章。前面的章节涵盖了模型构建、提示工程、检索和评估，而本章聚焦于如何在不烧钱的前提下维持系统稳定运行。生产环境中的 LLM 服务更像一个高流量 Web 服务，而非传统机器学习服务——每次请求都会产生成本，且响应时间甚至可能长达两分钟。&lt;/p></description></item><item><title>数据库（八）：实战中的数据库——迁移、监控与故障案例</title><link>https://www.chenk.top/zh/databases/08-database-in-practice/</link><pubDate>Tue, 30 Apr 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/databases/08-database-in-practice/</guid><description>&lt;p>理解数据库内部原理只是成功的一半；另一半是在生产环境中持续稳定运行它——不丢数据、不掉可用性，更别在凌晨三点被警报叫醒。本文聚焦于那些只能靠实战积累的运维知识：没人会在出事前告诉你，但一旦出事，你立刻就需要它们。&lt;/p></description></item><item><title>云计算（七）：运维与 DevOps 实践</title><link>https://www.chenk.top/zh/cloud-computing/operations-devops/</link><pubDate>Fri, 26 May 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/cloud-computing/operations-devops/</guid><description>&lt;p>2017 年，GitLab 丢失了六个小时的数据库状态。一位疲惫不堪的工程师在处理事故时，误对生产服务器执行了 &lt;code>rm -rf&lt;/code> 命令。更糟的是，备份流程其实早已静默失效数月之久，却无人察觉——因为从来没人真正尝试过从备份恢复数据。这次事件的教训绝非“用 &lt;code>rm&lt;/code> 要小心”，而是：&lt;strong>运维是一个系统&lt;/strong>——它由工具、运行手册、监控、自动化以及围绕它们建立的协作仪式共同构成。当这个系统健康运转时，再疲惫的工程师也无法单枪匹马搞垮生产环境；而一旦系统腐朽，每一次深夜救火都可能因一次误操作滑向深渊。&lt;/p></description></item></channel></rss>