标签

Monitoring

Apr 7, 2026 大模型工程 30 分钟

大模型工程(十二):生产落地与监控

服务栈选型细化、给 LLM 做 autoscaling、延迟预算、prompt+completion 成本跟踪、多模型路由、FrugalGPT 级联、第一天就要的可观测性,以及能用的 on-call 模式。

Apr 30, 2024 数据库原理与实践 32 分钟

数据库(八):实战中的数据库——迁移、监控与故障案例

数据库的运维实践——模式迁移、连接池、监控、备份策略、托管数据库选型,以及来自生产环境的血泪教训。

May 26, 2023 云计算 48 分钟

云计算(七):运维与 DevOps 实践

工程师视角的 DevOps 实战:能把控质量的 CI/CD、可复现的 Terraform 基础设施、Prometheus + Grafana 监控、ELK / EFK 日志、SRE 错误预算,以及凌晨三点能撑住的运维习惯。