指标专栏导览

专栏定位

指标（Metrics）是可观测性四大支柱中成本最低、覆盖面最广的信号。一条指标时间序列只需要极少的存储空间（每个数据点约 1~2 字节），却能持续记录系统的健康状态——CPU 使用率、请求延迟分位数、错误率、队列深度。Prometheus 凭借其拉取（Pull）模型、强大的 PromQL 查询语言和活跃的 CNCF 生态，已成为云原生时代指标监控的事实标准。

本专栏从指标的本质出发，深入剖析 Prometheus 的数据模型、采集机制、PromQL 查询引擎、TSDB 存储引擎，再延伸到高可用方案、Grafana 仪表盘工程化，以及基于指标构建 SLO 体系的工程实践。

序号	文章	核心内容
01	01 为什么需要指标	指标的定义与分类、四种指标类型（Counter/Gauge/Histogram/Summary）的语义与选型、USE/RED 方法论
02	02 Prometheus 数据模型与采集原理	时间序列数据模型、标签体系、Pull vs Push、Service Discovery、scrape 机制
03	03 PromQL 深度解析	即时向量与范围向量、rate/irate/increase、聚合操作、直方图分位数计算、常见查询模式
04	04 Prometheus TSDB 深度解析	Head Block、WAL、Compaction、Chunk 编码（XOR + Gorilla）、索引结构、删除与保留
05	05 Prometheus 高可用与长期存储	联邦集群、Thanos/Mimir/VictoriaMetrics 架构对比、Remote Write 协议
06	06 Grafana 仪表盘与告警工程化	仪表盘设计原则、变量与模板化、告警规则、通知渠道、Alertmanager 路由与静默
07	07 指标工程落地与 SLO 体系	SLI/SLO/Error Budget、基于指标的告警策略、Burn Rate 告警、指标治理与成本控制

关联专栏

链路追踪：指标与追踪的 Exemplar 联动
日志体系：指标告警触发后的日志下钻
Profiler：指标发现异常后的性能剖析
K8s 生产实践：K8s 集群的 Prometheus 监控
服务网格：Istio 的 Prometheus 指标采集
Redis 进阶：Redis 的 Prometheus 指标监控

汀的知识碎片

文章导航

00 专栏导览

指标专栏导览

专栏定位

目录

推荐阅读路径

关联专栏

On this page

Backlinks