12 生产调优手册：吞吐量、延迟、背压与资源配置全攻略

摘要

本篇是「Spark Structured Streaming 流处理深度解析」专栏的收官之作，汇集前 11 篇的核心知识，给出一份可直接用于生产的调优手册。流查询的性能问题归根结底是三类矛盾：吞吐量与延迟的权衡（批次大则吞吐高但延迟大，批次小则延迟低但调度开销占比升高）、State Store 大小与查询功能的权衡（状态越丰富，内存越贵，State I/O 越慢）、数据完整性与及时性的权衡（Watermark 越宽松，迟到数据覆盖越完整，但状态清理越慢、输出越延迟）。本文以”从症状到根因”的诊断思路，逐一拆解积压增长、批次时间不稳定、State 持续膨胀、OOM、Checkpoint 超时五大典型问题，给出每类问题的根因分析方法和参数配置方案，最后附上一份可直接部署的生产基础配置模板。

第 1 章调优的前提：建立性能基线

在调优任何参数之前，必须先建立性能基线——记录流查询在”正常负载下”的关键指标值，以便调优时判断优化是否有效、问题是否改善。

1.1 必须记录的基线指标

正常状态下的基线值（在第 11 篇的 StreamingQueryListener 中记录）：

1. 平均输入速率（inputRowsPerSecond）：如 5000 行/秒
2. 平均处理速率（processedRowsPerSecond）：如 8000 行/秒（应 >= 输入速率）
3. 平均批次时间（batchDuration）：如 800ms（应 < 批次间隔）
4. 批次时间的 P95/P99：如 P95=1200ms, P99=2000ms
5. State 稳定后的大小（numRowsTotal）：如 200 万行（稳定不再增长）
6. Watermark 与 maxEventTime 的差值：应约等于设定的延迟阈值

基线确立后，任何生产变更（数据量增加、代码更新、参数调整）都以基线为参照判断影响。

1.2 调优的核心认知：批次时间是总线

流查询的所有性能问题，最终都反映在**批次时间（batchDuration）**上：

batchDuration = 等待Trigger时间 + 获取Offset时间 + 查询规划时间
              + 执行Spark Job时间 + State更新时间 + 写Commit时间

其中"执行Spark Job时间"（addBatch）占主导，通常 > 80%

当 batchDuration 接近或超过批次间隔时，系统进入”追赶模式”，积压开始增长。因此，调优的核心目标是：降低 addBatch 的时间，确保 batchDuration < 批次间隔 × 0.8（留 20% 余量）。

第 2 章积压增长：最常见的生产问题

2.1 症状识别

症状：
  processedRowsPerSecond < inputRowsPerSecond（持续多批次）
  Spark UI → Streaming 页 → 批次时间时间线图：批次时间越来越长
  Kafka Consumer Lag 持续增大

2.2 根因定位流程

Step 1：确认是计算瓶颈还是 I/O 瓶颈

查看 durationMs 各阶段的时间分布：

# 在 StreamingQueryListener 中打印各阶段时间
print(f"getBatch: {d.get('getBatch')}ms")      # Source 读取时间
print(f"addBatch: {d.get('addBatch')}ms")      # 主要计算时间
print(f"commitOffsets: {d.get('commitOffsets')}ms")  # Checkpoint 写入时间

getBatch 很大（> 5 秒）→ Source 连接慢（Kafka 网络问题，或 maxOffsetsPerTrigger 太大导致单次 Fetch 太多数据）
addBatch 很大（> 批次间隔）→ 计算本身慢（Shuffle、State Store I/O、GC）
commitOffsets 很大（> 2 秒）→ Checkpoint 目录（HDFS/S3）写入慢

Step 2：addBatch 慢时，进入 Spark UI 的 Job/Stage 页面

在 addBatch 阶段，Spark 执行一个普通的 Batch Job。进入该 Job 的 Stage 详情：

是否有 Shuffle（Shuffle Write/Read 时间过长）→ 增大 shuffle.partitions，或检查数据倾斜
是否有 Task 倾斜（某个 Task 比其他 Task 慢 10 倍以上）→ 数据倾斜问题，参考 SQL 专栏第 10 篇
是否有 GC 时间过长（Task 的 GC Time 列）→ 内存不足，增大 executor.memory

Step 3：控制每批次数据量（背压）

如果计算速度本身没问题，但单批次数据太多：

# Kafka Source：限制每批次每分区最多读取的 Offset 数量
.option("maxOffsetsPerTrigger", 500000)   # 全局限制（所有分区合计）
 
# 效果：将"海量积压的一次性处理"变为"可控批次的渐进消费"

2.3 参数调优方案

根因	调优方向	关键参数
Shuffle 过慢	增大分区数	`spark.sql.shuffle.partitions=500`
数据倾斜	开启 AQE Skew Join	`spark.sql.adaptive.skewJoin.enabled=true`
单批数据太多	背压限流	`maxOffsetsPerTrigger`
GC 频繁	增大内存或开启堆外	`executor.memory`, `offHeap.enabled`
Checkpoint 慢	异步 Checkpoint	`spark.sql.streaming.stateStore.providerClass=RocksDB`
Kafka Fetch 慢	增大 Fetch 缓冲	`kafka.fetch.max.bytes`, `kafka.max.partition.fetch.bytes`

第 3 章 State Store 调优

3.1 HDFS State Store vs RocksDB State Store

Structured Streaming 默认使用 HDFS-backed State Store（HDFSBackedStateStoreProvider）：所有状态存储在 Executor JVM 堆内存中，每隔固定批次将增量 Delta 文件写入 HDFS 做持久化。

HDFS State Store 的限制：

状态全量存储在 JVM 堆内存，State 大 → Heap 大 → GC 频繁
Delta 文件积累后需要定期 Compact（合并小文件），Compact 时性能抖动
状态大小受 Executor 内存限制，通常上限 10-20GB/Executor

RocksDB State Store（Spark 3.2 引入，生产推荐）：状态存储在本地 SSD（RocksDB），只有热点数据在内存缓存，冷数据透明溢出到磁盘。

# 开启 RocksDB State Store
spark.conf.set(
    "spark.sql.streaming.stateStore.providerClass",
    "org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider"
)
 
# RocksDB 相关配置
spark.conf.set("spark.sql.streaming.stateStore.rocksdb.compactOnCommit", "false")  # 关闭每批次 Compact（性能优先）
spark.conf.set("spark.sql.streaming.stateStore.rocksdb.blockSizeKB", "32")         # 数据块大小
spark.conf.set("spark.sql.streaming.stateStore.rocksdb.memtableSizeMB", "64")      # 内存写缓冲大小

切换 RocksDB 的收益：

State 大小不再受 JVM Heap 限制（SSD 容量通常 TB 级）
GC 压力大幅降低（State 不在 JVM Heap）
State I/O 更稳定（RocksDB 的 Compaction 在后台进行，不阻塞批次）

生产避坑

从 HDFS State Store 切换到 RocksDB State Store 是不兼容的变更——两者的 Checkpoint 格式不同，无法从旧的 HDFS State Checkpoint 恢复 RocksDB 格式的状态。切换时必须：①删除或换用新的 Checkpoint 目录；②接受状态从零开始（或从历史数据重放）。建议在新业务上线时直接用 RocksDB，避免迁移代价。

3.2 State Checkpoint 频率调优

State Store 的持久化（Delta 文件写入 HDFS）在每个批次都发生，但 State 的 Snapshot（全量快照）可以配置频率：

# 每 10 批次做一次全量 Snapshot（默认每批次）
spark.conf.set("spark.sql.streaming.stateStore.minDeltasForSnapshot", "10")
# 减少全量 Snapshot 频率，降低 HDFS 写入压力，但故障恢复时需要更多时间重建状态

第 4 章延迟优化

4.1 端到端延迟的分解

端到端延迟 = 数据在 Kafka 中的停留时间（Source 积压延迟）
           + 等待 Trigger 时间（最多一个批次间隔）
           + 批次执行时间（addBatch 耗时）
           + Sink 写出延迟

降低延迟的优先级排序（ROI 从高到低）：

减小批次间隔（最直接）：processingTime="1 second" → 等待时间降至 1 秒
降低批次执行时间：减少 Shuffle、开启 CodeGen、避免 UDF
减小 Source 积压：确保 processRate > inputRate，消除积压
优化 Sink 写出：Kafka Sink 比 FileSink 延迟低（文件关闭才可见 vs 消息立即可消费）

4.2 毫秒级延迟的配置（MicroBatch 能做到的下限）

# 追求最低延迟的配置组合
spark.conf.set("spark.sql.shuffle.partitions", "50")  # 小分区数，减少 Shuffle 开销
spark.conf.set("spark.sql.adaptive.enabled", "false")  # 关闭 AQE（AQE 有额外协调开销）
 
query = df.writeStream \
    .trigger(processingTime="100 milliseconds") \  # 100ms 批次间隔
    .option("maxOffsetsPerTrigger", "10000") \      # 限制每批次数据量（保证批次 < 100ms 完成）
    .format("kafka") \
    .start()

实测 MicroBatch 模式的最低端到端延迟约 200-500ms（批次间隔 100ms + 批次执行 100-400ms）。低于 100ms 需要 Continuous Processing（但功能受限）。

第 5 章 OOM 问题的诊断与预防

5.1 流查询 OOM 的三大来源

来源一：State Store 内存溢出

症状：java.lang.OutOfMemoryError: GC overhead limit exceeded 或 Java heap space，发生在 State 相关操作中

解决：切换 RocksDB State Store；确保 Watermark 配置正确（防止状态无限增长）；检查 dropDuplicates 是否配合了 Watermark

来源二：广播变量过大

症状：SparkException: Task not serializable 或 Driver 端 OOM，发生在广播维表时

解决：减小广播阈值（autoBroadcastJoinThreshold）；超过阈值的维表用 SortMergeJoin；增大 Driver 内存（spark.driver.memory）

来源三：单批次数据量过大

症状：Executor OOM，发生在 Shuffle 或 Join 期间

解决：增大 maxOffsetsPerTrigger 限制；增大 spark.sql.shuffle.partitions（小分区减少单分区数据量）；增大 Executor 内存

5.2 OOM 预防清单

□ 所有 dropDuplicates 都配合了 withWatermark
□ 所有聚合查询（非 Complete 模式）都配合了 withWatermark
□ 广播维表大小 < executor.memory * 0.2
□ 有状态查询使用 RocksDB State Store（不依赖 JVM Heap）
□ 设置了 maxOffsetsPerTrigger（防止积压突增导致单批次超大）
□ executor.memoryOverhead >= executor.memory * 0.2（堆外内存足够）

第 6 章 Checkpoint 超时的处理

6.1 Checkpoint 慢的原因

Checkpoint 操作在每个批次的 commitOffsets 阶段发生，写入 offsets/ 和 commits/ 文件到 HDFS/S3。慢的原因：

S3 高延迟：S3 的 PUT 操作延迟约 50-200ms，多个小文件并发写入时累积延迟大
HDFS NameNode 压力：大量小文件（每批次 2 个文件 + State Delta 文件）导致 NameNode 元数据操作瓶颈
State Delta 文件过多：State 大、批次频繁时，Delta 文件数量多，写入 HDFS 慢

6.2 Checkpoint 目录管理

# 使用 HDFS（而不是 S3）存储 Checkpoint（HDFS 的 rename 是原子操作，S3 不是）
checkpoint_dir = "hdfs://nameservice/spark-checkpoints/my-stream/"
 
# 定期清理旧的 Checkpoint 文件（Spark 不自动清理）
# Spark 的默认保留策略：保留最近 2 个完整的 Snapshot + 所有后续 Delta
spark.conf.set("spark.sql.streaming.minBatchesToRetain", "10")
# 减少保留的最小批次数（默认 100），旧的 offsets/commits 文件更快被清理

第 7 章生产基础配置模板

以下是一套适合中等规模流处理作业（100 条/秒～ 10 万条/秒）的基础配置，按场景分两档：

7.1 低延迟场景（秒级延迟）

# 低延迟流处理配置
spark = SparkSession.builder \
    .config("spark.executor.memory", "4g") \
    .config("spark.executor.memoryOverhead", "1g") \
    .config("spark.executor.cores", "4") \
    .config("spark.sql.shuffle.partitions", "100") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \
    .config("spark.sql.streaming.stateStore.providerClass",
            "org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider") \
    .getOrCreate()
 
query = stream_df.writeStream \
    .trigger(processingTime="2 seconds") \         # 2 秒批次间隔
    .option("checkpointLocation", "hdfs:///ckpt/stream/") \
    .format("kafka") \
    .start()

7.2 高吞吐场景（分钟级延迟，优先吞吐量）

# 高吞吐流处理配置
spark = SparkSession.builder \
    .config("spark.executor.memory", "8g") \
    .config("spark.executor.memoryOverhead", "2g") \
    .config("spark.executor.cores", "5") \
    .config("spark.sql.shuffle.partitions", "500") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.advisoryPartitionSizeInBytes", "128MB") \
    .config("spark.sql.adaptive.skewJoin.enabled", "true") \
    .config("spark.sql.streaming.stateStore.providerClass",
            "org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider") \
    .config("spark.sql.streaming.stateStore.minDeltasForSnapshot", "20") \
    .getOrCreate()
 
query = stream_df.writeStream \
    .trigger(processingTime="1 minute") \           # 1 分钟批次间隔
    .option("maxOffsetsPerTrigger", "5000000") \    # 每批最多 500 万条
    .option("checkpointLocation", "hdfs:///ckpt/stream/") \
    .format("delta") \
    .start()

第 8 章常见问题快速诊断手册

症状	第一排查点	常见根因	快速解决
`processRate < inputRate` 持续	Spark UI → Stage 页	Shuffle 慢 / 数据倾斜 / GC	增大分区数；开 AQE；增内存
`batchDuration` 突然变大	`durationMs` 各阶段	State I/O 慢 / Checkpoint 慢	切 RocksDB；Checkpoint 迁 HDFS
Watermark 不推进	Source 数据量	某分区空 / 时间戳 NULL	过滤异常时间戳；检查 Source
State 行数只增不减	Watermark 配置	无 Watermark / 阈值过大	添加 `withWatermark`；缩小阈值
Executor OOM	GC 日志	State 过大 / 广播过大	切 RocksDB；减小广播阈值
查询 TERMINATED（异常）	Listener 的 exception	代码 Bug / 序列化失败	检查 Task 日志；修复序列化
Append 模式无输出	Watermark 值	Watermark 未推进	见”Watermark 停滞”处理
Checkpoint 写入超时	`commitOffsets` 时间	S3 慢 / HDFS NN 压力	迁 HDFS；减少保留批次数

小结

专栏一「Spark Structured Streaming 流处理深度解析」至此全部完成。12 篇文章构建了完整的流处理知识体系：

执行模型（01）：MicroBatch 的触发循环与 Continuous Processing 的 Epoch 机制
数据接口（02）：Kafka Source 的 Offset 管理与 Sink 的 Exactly-once 等级
输出语义（03）：三种输出模式的适用边界与查询兼容矩阵
时间语义（04）：Watermark 的推进算法、多 Source 对齐、停滞诊断
触发控制（05）：四种 Trigger 的语义与 AvailableNow 的工程价值
窗口计算（06）：三种窗口的 State 存储模型与内存压力控制
自定义状态（07）：flatMapGroupsWithState + GroupState + 超时机制
流-流 Join（08）：双侧 State Buffer + Watermark 控制清理 + Buffer 膨胀防控
精确去重（09）：有界 dropDuplicates + 三层 Exactly-once 保障
流批一体（10）：流-批 Join 的广播缓存策略与维表刷新机制
可观测性（11）：StreamingQueryListener + Prometheus/Grafana 监控体系
调优手册（12）：五大问题诊断 + 参数调优 + 生产配置模板

思考题

流处理调优存在一个基本的”延迟 vs 吞吐量”权衡：批次间隔越短，延迟越低，但每批次的启动开销占比越高，吞吐量越低；批次间隔越长，吞吐量越高，但延迟越高。在实际生产中，如何量化”启动开销”，从而找到延迟与吞吐量的帕累托最优点？

Structured Streaming 没有内置的”背压”（Backpressure）机制（不像 Spark Streaming 的 spark.streaming.backpressure.enabled）。当消费速率低于生产速率时，积压会持续增长。maxOffsetsPerTrigger 是唯一的流量控制手段，但它是静态的。在生产中，如何实现一套”动态 maxOffsetsPerTrigger”机制，根据当前积压量自动调整每批次拉取量？

State Store 的 Checkpoint 会在每个批次结束时将内存中的状态增量写入 HDFS/S3。随着运行时间增长，Checkpoint 目录会积累大量的历史快照文件。State Store 的维护成本（写入延迟、存储空间）会随着 State 大小增长而线性增加。在超大状态场景下（如数十亿 Key），有哪些工程手段可以控制 State 的 Checkpoint 开销？RocksDB State Store 在这个场景下相比默认的 HDFS State Store 有什么优势？

参考资料

Apache Spark 官方文档：Structured Streaming Performance Tuning
Apache Spark 源码：org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider
Optimizing Apache Spark Structured Streaming（Databricks Summit 2021）
《Learning Spark, 2nd Edition》（O’Reilly，Jules Damji 等，2020）- Chapter 8: Structured Streaming

汀的知识碎片

文章导航

12 生产调优手册：吞吐量、延迟、背压与资源配置全攻略

12 生产调优手册：吞吐量、延迟、背压与资源配置全攻略

摘要

第 1 章调优的前提：建立性能基线

1.1 必须记录的基线指标

1.2 调优的核心认知：批次时间是总线

第 2 章积压增长：最常见的生产问题

2.1 症状识别

2.2 根因定位流程

2.3 参数调优方案

第 3 章 State Store 调优

3.1 HDFS State Store vs RocksDB State Store

3.2 State Checkpoint 频率调优

第 4 章延迟优化

4.1 端到端延迟的分解

4.2 毫秒级延迟的配置（MicroBatch 能做到的下限）

第 5 章 OOM 问题的诊断与预防

5.1 流查询 OOM 的三大来源

5.2 OOM 预防清单

第 6 章 Checkpoint 超时的处理

6.1 Checkpoint 慢的原因

6.2 Checkpoint 目录管理

第 7 章生产基础配置模板

7.1 低延迟场景（秒级延迟）

7.2 高吞吐场景（分钟级延迟，优先吞吐量）

第 8 章常见问题快速诊断手册

小结

参考资料

On this page

汀的知识碎片

文章导航

12 生产调优手册：吞吐量、延迟、背压与资源配置全攻略

12 生产调优手册：吞吐量、延迟、背压与资源配置全攻略

摘要

第 1 章 调优的前提：建立性能基线

1.1 必须记录的基线指标

1.2 调优的核心认知：批次时间是总线

第 2 章 积压增长：最常见的生产问题

2.1 症状识别

2.2 根因定位流程

2.3 参数调优方案

第 3 章 State Store 调优

3.1 HDFS State Store vs RocksDB State Store

3.2 State Checkpoint 频率调优

第 4 章 延迟优化

4.1 端到端延迟的分解

4.2 毫秒级延迟的配置（MicroBatch 能做到的下限）

第 5 章 OOM 问题的诊断与预防

5.1 流查询 OOM 的三大来源

5.2 OOM 预防清单

第 6 章 Checkpoint 超时的处理

6.1 Checkpoint 慢的原因

6.2 Checkpoint 目录管理

第 7 章 生产基础配置模板

7.1 低延迟场景（秒级延迟）

7.2 高吞吐场景（分钟级延迟，优先吞吐量）

第 8 章 常见问题快速诊断手册

小结

参考资料

On this page

第 1 章调优的前提：建立性能基线

第 2 章积压增长：最常见的生产问题

第 4 章延迟优化

第 7 章生产基础配置模板

第 8 章常见问题快速诊断手册