汀的知识碎片
Search
Search
Dark mode
Light mode
文章导航
Home
❯
大数据
❯
Spark
❯
Spark 容错与状态管理深度解析
Folder: 大数据/Spark/Spark-容错与状态管理深度解析
11 items under this folder.
Feb 28, 2026
Spark 容错与状态管理深度解析 —— 专栏导览
Spark
容错
状态管理
Checkpoint
Lineage
Structured-Streaming
State-Store
Feb 28, 2026
RDD Lineage 血缘容错:分布式计算的重建之道
Spark
RDD
Lineage
容错
窄依赖
宽依赖
DAGScheduler
分区重算
Feb 28, 2026
Task 与 Stage 的多级重试机制
Spark
容错
Task重试
Stage重试
推测执行
FetchFailedException
TaskScheduler
DAGScheduler
Feb 28, 2026
RDD Checkpoint:截断 Lineage 的工程权衡
Spark
RDD
Checkpoint
Lineage
容错
迭代算法
HDFS
localCheckpoint
persist
Feb 28, 2026
Structured Streaming 容错模型:Offset 与 Checkpoint
Spark
Structured-Streaming
容错
Checkpoint
Offset
Epoch
Exactly-once
StreamExecution
Feb 28, 2026
WAL 与幂等写出:Exactly-once 的两道保险
Spark
Structured-Streaming
WAL
幂等
Exactly-once
Kafka-Sink
Delta-Lake
ForeachBatch
事务
Feb 28, 2026
State Store 内幕:HDFSBackedStateStore 的读写路径
Spark
Structured-Streaming
State-Store
HDFSBackedStateStore
有状态计算
状态快照
增量文件
StateStoreProvider
Feb 28, 2026
RocksDB State Store:为超大状态而生
Spark
Structured-Streaming
RocksDB
State-Store
LSM-Tree
堆外内存
大状态
Spark-3.2
Feb 28, 2026
状态过期与 TTL:让 State Store 不再无限膨胀
Spark
Structured-Streaming
Watermark
TTL
状态过期
GroupState
dropDuplicates
事件时间
Feb 28, 2026
故障恢复全流程拆解:从宕机到续跑
Spark
容错
故障恢复
Executor崩溃
Driver重启
Structured-Streaming
YARN
全流程
Feb 28, 2026
生产容错调优手册:从告警到根因的系统性诊断
Spark
容错
生产调优
故障诊断
Task失败
Stage回滚
State-Store-OOM
Watermark
FetchFailedException