Kubernetes 生产实践与集群管理专栏导览

专栏定位

前四个专栏从原理层面解构了 Kubernetes 的架构、API、控制器、调度器、Pod 生命周期和服务发现。本专栏是整个 K8s 系列的收官——聚焦”怎么在生产环境中用好 K8s”。

一个 K8s 集群从”能跑”到”跑好”之间有巨大的鸿沟：存储如何持久化（PV/PVC/StorageClass/CSI）？配置和密钥如何管理（ConfigMap/Secret/外部密钥管理）？多租户如何隔离（Namespace/ResourceQuota/NetworkPolicy/Pod Security）？集群如何可观测（Metrics Server/Prometheus/日志/事件）？应用如何持续交付（Helm/Kustomize/GitOps）？这些都是生产环境中绕不开的工程问题。

前置知识：前四个 Kubernetes 专栏的核心内容。本专栏可按需跳读，每篇文章相对独立。

序号	文章	核心内容
01	01 持久化存储——PV PVC StorageClass 与 CSI	存储的核心抽象（PV/PVC 的绑定模型、StorageClass 动态供给）、Volume 类型（emptyDir/hostPath/NFS/云盘）、CSI 接口规范、存储拓扑感知、卷快照与克隆
02	02 配置管理——ConfigMap Secret 与外部密钥	ConfigMap 的注入方式（环境变量/卷挂载）、Secret 的编码与加密（etcd 加密/KMS Provider）、配置变更的热加载问题、外部密钥管理集成（Vault/Sealed Secrets/External Secrets Operator）
03	03 多租户隔离与资源治理	Namespace 级别的逻辑隔离、ResourceQuota 与 LimitRange、NetworkPolicy 的网络隔离、Pod Security Standards（Privileged/Baseline/Restricted）、多租户架构模式（Namespace 级 / vCluster / 独立集群）
04	04 集群可观测性与故障排查	Metrics Server 与资源指标、Prometheus 在 K8s 中的集成（ServiceMonitor/PodMonitor）、日志采集（节点级/Sidecar 级）、K8s 事件（Events）的价值与局限、常见故障排查 SOP（Pod 异常/Node 不可用/网络不通）
05	05 应用交付——Helm Kustomize 与 GitOps	Helm 的模板化与 Chart 管理、Kustomize 的无模板叠加方式、Helm vs Kustomize 的选型、GitOps 理念（ArgoCD/Flux）、持续交付的完整流水线设计
06	06 集群升级备份与容灾	K8s 版本升级策略（原地升级/蓝绿升级）、etcd 备份与恢复、控制平面高可用架构、灾难恢复方案、集群生命周期管理工具（kubeadm/Cluster API）

关联专栏

etcd：etcd 备份与恢复是集群容灾的核心
指标体系：K8s 集群的 Prometheus 监控体系
日志体系：集群日志采集与分析
K8s 架构：架构基础与组件职责
安全认证：RBAC 与 Kerberos 的安全体系对比

汀的知识碎片

文章导航

00 专栏导览

Kubernetes 生产实践与集群管理专栏导览

专栏定位

目录

推荐阅读路径

关联专栏

On this page

Backlinks