<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>SRE on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/sre/</link><description>Recent content in SRE on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 26 May 2023 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/sre/index.xml" rel="self" type="application/rss+xml"/><item><title>云计算（七）：运维与 DevOps 实践</title><link>https://www.chenk.top/zh/cloud-computing/operations-devops/</link><pubDate>Fri, 26 May 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/cloud-computing/operations-devops/</guid><description>&lt;p>2017 年，GitLab 丢失了六个小时的数据库状态。一位疲惫不堪的工程师在处理事故时，误对生产服务器执行了 &lt;code>rm -rf&lt;/code> 命令。更糟的是，备份流程其实早已静默失效数月之久，却无人察觉——因为从来没人真正尝试过从备份恢复数据。这次事件的教训绝非“用 &lt;code>rm&lt;/code> 要小心”，而是：&lt;strong>运维是一个系统&lt;/strong>——它由工具、运行手册、监控、自动化以及围绕它们建立的协作仪式共同构成。当这个系统健康运转时，再疲惫的工程师也无法单枪匹马搞垮生产环境；而一旦系统腐朽，每一次深夜救火都可能因一次误操作滑向深渊。&lt;/p></description></item></channel></rss>