指标专栏导览

专栏定位

指标(Metrics)是可观测性四大支柱中成本最低、覆盖面最广的信号。一条指标时间序列只需要极少的存储空间(每个数据点约 1~2 字节),却能持续记录系统的健康状态——CPU 使用率、请求延迟分位数、错误率、队列深度。Prometheus 凭借其拉取(Pull)模型、强大的 PromQL 查询语言和活跃的 CNCF 生态,已成为云原生时代指标监控的事实标准。

本专栏从指标的本质出发,深入剖析 Prometheus 的数据模型、采集机制、PromQL 查询引擎、TSDB 存储引擎,再延伸到高可用方案、Grafana 仪表盘工程化,以及基于指标构建 SLO 体系的工程实践。

目录

序号文章核心内容
0101 为什么需要指标指标的定义与分类、四种指标类型(Counter/Gauge/Histogram/Summary)的语义与选型、USE/RED 方法论
0202 Prometheus 数据模型与采集原理时间序列数据模型、标签体系、Pull vs Push、Service Discovery、scrape 机制
0303 PromQL 深度解析即时向量与范围向量、rate/irate/increase、聚合操作、直方图分位数计算、常见查询模式
0404 Prometheus TSDB 深度解析Head Block、WAL、Compaction、Chunk 编码(XOR + Gorilla)、索引结构、删除与保留
0505 Prometheus 高可用与长期存储联邦集群、Thanos/Mimir/VictoriaMetrics 架构对比、Remote Write 协议
0606 Grafana 仪表盘与告警工程化仪表盘设计原则、变量与模板化、告警规则、通知渠道、Alertmanager 路由与静默
0707 指标工程落地与 SLO 体系SLI/SLO/Error Budget、基于指标的告警策略、Burn Rate 告警、指标治理与成本控制

推荐阅读路径

  • 快速上手:01 → 02 → 03 → 06
  • 深度理解存储:02 → 04 → 05
  • SRE 实践:01 → 03 → 06 → 07

关联专栏