指标专栏导览
专栏定位
指标(Metrics)是可观测性四大支柱中成本最低、覆盖面最广的信号。一条指标时间序列只需要极少的存储空间(每个数据点约 1~2 字节),却能持续记录系统的健康状态——CPU 使用率、请求延迟分位数、错误率、队列深度。Prometheus 凭借其拉取(Pull)模型、强大的 PromQL 查询语言和活跃的 CNCF 生态,已成为云原生时代指标监控的事实标准。
本专栏从指标的本质出发,深入剖析 Prometheus 的数据模型、采集机制、PromQL 查询引擎、TSDB 存储引擎,再延伸到高可用方案、Grafana 仪表盘工程化,以及基于指标构建 SLO 体系的工程实践。
目录
| 序号 | 文章 | 核心内容 |
|---|---|---|
| 01 | 01 为什么需要指标 | 指标的定义与分类、四种指标类型(Counter/Gauge/Histogram/Summary)的语义与选型、USE/RED 方法论 |
| 02 | 02 Prometheus 数据模型与采集原理 | 时间序列数据模型、标签体系、Pull vs Push、Service Discovery、scrape 机制 |
| 03 | 03 PromQL 深度解析 | 即时向量与范围向量、rate/irate/increase、聚合操作、直方图分位数计算、常见查询模式 |
| 04 | 04 Prometheus TSDB 深度解析 | Head Block、WAL、Compaction、Chunk 编码(XOR + Gorilla)、索引结构、删除与保留 |
| 05 | 05 Prometheus 高可用与长期存储 | 联邦集群、Thanos/Mimir/VictoriaMetrics 架构对比、Remote Write 协议 |
| 06 | 06 Grafana 仪表盘与告警工程化 | 仪表盘设计原则、变量与模板化、告警规则、通知渠道、Alertmanager 路由与静默 |
| 07 | 07 指标工程落地与 SLO 体系 | SLI/SLO/Error Budget、基于指标的告警策略、Burn Rate 告警、指标治理与成本控制 |
推荐阅读路径
- 快速上手:01 → 02 → 03 → 06
- 深度理解存储:02 → 04 → 05
- SRE 实践:01 → 03 → 06 → 07