Spark 容错与状态管理深度解析

专栏简介

分布式计算的本质是与失败共存。一个在数百台机器上运行数小时的 Spark 作业，注定会遭遇节点宕机、网络抖动、磁盘满、JVM OOM——任何一次失败都可能让整个作业前功尽弃。Spark 能成为主流大数据引擎，很大程度上得益于其精心设计的容错体系：从 RDD Lineage 的血缘重算，到 Task/Stage 的多级重试，再到 Checkpoint 截断过长的计算链，以及 Structured Streaming 中精确一次语义（Exactly-once）的完整实现。

本专栏聚焦 Spark 的容错机制与有状态计算的状态管理，不涉及 Spark SQL 优化器、调度算法等其他模块。

专栏目录

第一部分：基础容错体系

序号	文件名	核心摘要
01	`01 RDD Lineage 血缘容错：分布式计算的重建之道.md`	RDD 为什么能容错？窄依赖与宽依赖在容错代价上的根本差异，Lineage 的数据结构与重算触发机制
02	`02 Task 与 Stage 的多级重试机制.md`	Task 重试（speculative execution）与 Stage 重试的触发条件、重试上限、FetchFailedException 引发的 Stage 级别回滚原理
03	`03 RDD Checkpoint：截断 Lineage 的工程权衡.md`	Checkpoint 的设计动机（Lineage 过长的代价），可靠 Checkpoint（HDFS）vs 本地 Checkpoint 的区别，何时该 Checkpoint、何时不该

第二部分：Structured Streaming 的容错基础

序号	文件名	核心摘要
04	`04 Structured Streaming 容错模型：Offset 与 Checkpoint.md`	Structured Streaming 的 Epoch（微批）模型，Offset 的持久化与提交，Checkpoint 目录的完整结构（offsets/commits/metadata/state），端到端精确一次的前提条件
05	`05 WAL 与幂等写出：Exactly-once 的两道保险.md`	Write-Ahead Log（WAL）的作用与性能代价，Sink 的幂等性设计（为什么 Kafka Sink 能做到 Exactly-once 而 HDFS Sink 很难），Source 可重放性的要求

第三部分：有状态计算的状态管理

序号	文件名	核心摘要
06	`06 State Store 内幕：HDFSBackedStateStore 的读写路径.md`	Structured Streaming 中 State Store 的定位，HDFSBackedStateStore 的内存结构（HashMap delta）、快照（Snapshot）写出、状态版本管理与回滚
07	`07 RocksDB State Store：为超大状态而生.md`	为什么 HashMap State Store 在大状态场景下会 OOM，RocksDB State Store 的架构（LSM Tree + 堆外存储），与 HDFSBackedStateStore 的性能与资源对比，生产配置要点
08	`08 状态过期与 TTL：避免状态无限膨胀.md`	状态数据不清理会怎样，withEventTimeWatermark + dropDuplicates 的去重原理，mapGroupsWithState/flatMapGroupsWithState 的 GroupState TTL 机制，生产中状态大小的监控与告警

第四部分：容错的边界与生产实践

序号	文件名	核心摘要
09	`09 Structured Streaming 故障恢复全流程拆解.md`	从 Driver 崩溃到作业重启，Spark 如何利用 Checkpoint 恢复 Offset、状态和执行进度；State Store 的版本对齐；不兼容的 Schema/Query 变更导致恢复失败的根因
10	`10 生产容错调优手册：从参数到架构.md`	Task 重试相关参数，Checkpoint 频率与延迟的权衡，State Store 磁盘/内存配置，Kafka Source 的 Offset 管理，多源多 Sink 的事务保证边界

阅读路径建议

批处理开发者（关注 RDD/DataFrame 作业的稳定性）：01 → 02 → 03 → 10

流处理开发者（关注 Structured Streaming 生产稳定性）：01 → 02 → 04 → 05 → 06 → 09 → 10

深度研究者（希望理解完整机制）：按序 01 → 10 完整阅读

与上一专栏的关系

本专栏是 Spark Shuffle 与内存管理机制深度解析的姊妹篇。理解 Shuffle 机制（特别是 FetchFailedException 触发 Stage 重试）和内存管理（OOM 触发 Executor 失败）有助于更深入理解本专栏的容错机制。建议先阅读 Shuffle 专栏再阅读本专栏。

关联专栏

Spark Shuffle 与内存管理：姊妹专栏，Shuffle 与内存失败触发容错
Structured Streaming：流处理的状态管理与 Checkpoint
Spark RDD：Lineage 容错机制的基础
HDFS：Checkpoint 数据存储在 HDFS

汀的知识碎片

文章导航

00 专栏导览