Kubernetes 生产实践与集群管理专栏导览

专栏定位

前四个专栏从原理层面解构了 Kubernetes 的架构、API、控制器、调度器、Pod 生命周期和服务发现。本专栏是整个 K8s 系列的收官——聚焦”怎么在生产环境中用好 K8s”。

一个 K8s 集群从”能跑”到”跑好”之间有巨大的鸿沟:存储如何持久化(PV/PVC/StorageClass/CSI)?配置和密钥如何管理(ConfigMap/Secret/外部密钥管理)?多租户如何隔离(Namespace/ResourceQuota/NetworkPolicy/Pod Security)?集群如何可观测(Metrics Server/Prometheus/日志/事件)?应用如何持续交付(Helm/Kustomize/GitOps)?这些都是生产环境中绕不开的工程问题。

前置知识:前四个 Kubernetes 专栏的核心内容。本专栏可按需跳读,每篇文章相对独立。

目录

序号文章核心内容
0101 持久化存储——PV PVC StorageClass 与 CSI存储的核心抽象(PV/PVC 的绑定模型、StorageClass 动态供给)、Volume 类型(emptyDir/hostPath/NFS/云盘)、CSI 接口规范、存储拓扑感知、卷快照与克隆
0202 配置管理——ConfigMap Secret 与外部密钥ConfigMap 的注入方式(环境变量/卷挂载)、Secret 的编码与加密(etcd 加密/KMS Provider)、配置变更的热加载问题、外部密钥管理集成(Vault/Sealed Secrets/External Secrets Operator)
0303 多租户隔离与资源治理Namespace 级别的逻辑隔离、ResourceQuota 与 LimitRange、NetworkPolicy 的网络隔离、Pod Security Standards(Privileged/Baseline/Restricted)、多租户架构模式(Namespace 级 / vCluster / 独立集群)
0404 集群可观测性与故障排查Metrics Server 与资源指标、Prometheus 在 K8s 中的集成(ServiceMonitor/PodMonitor)、日志采集(节点级/Sidecar 级)、K8s 事件(Events)的价值与局限、常见故障排查 SOP(Pod 异常/Node 不可用/网络不通)
0505 应用交付——Helm Kustomize 与 GitOpsHelm 的模板化与 Chart 管理、Kustomize 的无模板叠加方式、Helm vs Kustomize 的选型、GitOps 理念(ArgoCD/Flux)、持续交付的完整流水线设计
0606 集群升级 备份与容灾K8s 版本升级策略(原地升级/蓝绿升级)、etcd 备份与恢复、控制平面高可用架构、灾难恢复方案、集群生命周期管理工具(kubeadm/Cluster API)

推荐阅读路径

  • 存储与配置:01 → 02(运行有状态应用的基础)
  • 安全与隔离:03(多租户环境必读)
  • 运维体系:04 → 06(可观测 + 升级容灾)
  • 交付效率:05(CI/CD 相关)

关联专栏