汀的知识碎片
Search
Search
Dark mode
Light mode
文章导航
Tag: Spark
82 items with this tag.
Mar 05, 2026
04 JuiceFS 在大数据场景的应用
JuiceFS
Hadoop
Spark
Flink
AI训练
数据湖
HDFS替代
大数据存储
Mar 03, 2026
08 分布式事务在大数据场景下的实践
分布式事务
大数据
Hive
Spark
Flink
Delta-Lake
Iceberg
数据湖
幂等写入
Feb 28, 2026
Spark SQL 深度解析与性能调优——专栏导览
Spark
SparkSQL
Catalyst
AQE
CodeGen
向量化
性能调优
专栏
Feb 28, 2026
Spark SQL 全局架构:从 SQL 文本到 RDD 执行的完整旅程
Spark
SparkSQL
Catalyst
DataFrame
Dataset
LogicalPlan
PhysicalPlan
RDD
架构
Feb 28, 2026
Catalyst 解析与分析:从 AST 到 Analyzed LogicalPlan
Spark
SparkSQL
Catalyst
Parser
Analyzer
AST
LogicalPlan
Catalog
Antlr4
Resolution
Feb 28, 2026
Catalyst 逻辑优化:Rule-Based Optimizer 的核心规则
Spark
SparkSQL
Catalyst
Optimizer
RBO
谓词下推
列裁剪
常量折叠
子查询优化
LogicalPlan
Feb 28, 2026
CBO 代价模型:统计信息驱动的执行计划选择
Spark
SparkSQL
CBO
代价模型
统计信息
Join-Reordering
直方图
ANALYZE-TABLE
基数估算
Feb 28, 2026
Physical Planning:从逻辑计划到物理算子的策略选择
Spark
SparkSQL
Physical-Planning
Join策略
BroadcastHashJoin
SortMergeJoin
ShuffleHashJoin
BucketJoin
SparkPlan
Exchange
Feb 28, 2026
AQE:运行时自适应查询优化
Spark
SparkSQL
AQE
AdaptiveQueryExecution
动态分区合并
Skew-Join
动态Join策略
QueryStage
Spark3.0
Feb 28, 2026
Whole-Stage CodeGen:JVM 字节码级别的性能飞跃
Spark
SparkSQL
CodeGen
Whole-Stage-CodeGen
Volcano模型
JVM
字节码
Tungsten
性能优化
Feb 28, 2026
向量化执行引擎:列式处理与 SIMD 的力量
Spark
SparkSQL
向量化执行
Vectorized-Execution
ColumnarBatch
Arrow
SIMD
Parquet向量化读取
列式存储
Feb 28, 2026
数据源与 IO 优化:让数据少读、快读、不重读
Spark
SparkSQL
IO优化
Parquet
分区裁剪
谓词下推
布隆过滤器
列裁剪
文件合并
DataSource-V2
缓存
Feb 28, 2026
数据倾斜:诊断、根因与系统性解决方案
Spark
SparkSQL
数据倾斜
Skew
Salting
AQE
两阶段聚合
Broadcast
Join倾斜
长尾Task
Feb 28, 2026
Spark SQL 调优实战:从慢查询到根因的诊断方法论
Spark
SparkSQL
调优
性能诊断
慢查询
SparkUI
EXPLAIN
Join调优
OOM
调优方法论
Feb 28, 2026
全参数速查手册:Spark SQL 核心配置一览
Spark
SparkSQL
配置参数
调优参数
速查手册
AQE
CBO
Join
Shuffle
内存
IO
Feb 28, 2026
Remote Shuffle Service:解耦计算与 Shuffle 存储
Spark
RSS
Remote-Shuffle-Service
Apache-Celeborn
Uber-RSS
Linkedin-Magnet
云原生
Push-based-Shuffle
Feb 28, 2026
Spark Structured Streaming 流处理深度解析:专栏导览
Spark
Structured-Streaming
流处理
实时计算
Watermark
有状态算子
Feb 28, 2026
微批执行模型:MicroBatch 与 Continuous Processing 的本质差异
Spark
Structured-Streaming
MicroBatch
Continuous-Processing
流处理
执行模型
触发器
Feb 28, 2026
Source 与 Sink:DataSource V2 的流式读写接口
Spark
Structured-Streaming
Source
Sink
Kafka
DataSource-V2
Exactly-once
Offset管理
Feb 28, 2026
输出模式深度解析:Append、Update 与 Complete 的适用边界
Spark
Structured-Streaming
输出模式
Append
Update
Complete
聚合
Watermark
Feb 28, 2026
Watermark 全解:事件时间语义与延迟数据处理
Spark
Structured-Streaming
Watermark
事件时间
乱序数据
延迟数据
水位线
窗口
State清理
Feb 28, 2026
触发器 Trigger:ProcessingTime、Once、AvailableNow 与 Continuous
Spark
Structured-Streaming
Trigger
ProcessingTime
AvailableNow
Once
Continuous
微批
延迟
Feb 28, 2026
窗口聚合:滚动窗口、滑动窗口与会话窗口的实现机制
Spark
Structured-Streaming
窗口聚合
滚动窗口
滑动窗口
会话窗口
Tumbling-Window
Sliding-Window
Session-Window
State-Store
Feb 28, 2026
flatMapGroupsWithState:任意有状态逻辑的终极武器
Spark
Structured-Streaming
flatMapGroupsWithState
mapGroupsWithState
GroupState
有状态算子
状态机
超时机制
欺诈检测
Feb 28, 2026
流-流 Join:两条流如何在时间维度上对齐
Spark
Structured-Streaming
流-流Join
Stream-Stream-Join
Watermark
Join-Buffer
State-Store
时间对齐
Feb 28, 2026
dropDuplicates 与精确去重:Exactly-once 的应用层保障
Spark
Structured-Streaming
dropDuplicates
去重
Exactly-once
Watermark
State-Store
幂等
Feb 28, 2026
流批一体查询:Static DataFrame 与 Streaming DataFrame 的混合使用
Spark
Structured-Streaming
流批一体
流批Join
Static-DataFrame
Streaming-DataFrame
维表关联
广播Join
Feb 28, 2026
监控与可观测性:StreamingQueryListener 与生产指标体系
Spark
Structured-Streaming
监控
可观测性
StreamingQueryListener
Metrics
Spark-UI
Watermark
告警
Prometheus
Feb 28, 2026
生产调优手册:吞吐量、延迟、背压与资源配置全攻略
Spark
Structured-Streaming
调优
吞吐量
延迟
背压
资源配置
State-Store
RocksDB
生产实践
Feb 28, 2026
Spark on Kubernetes 工程实践 - 专栏导览
Spark
Kubernetes
K8s
云原生
工程实践
专栏导览
Feb 28, 2026
Spark on K8s 架构全景:与 YARN 模式的本质差异
Spark
Kubernetes
K8s
YARN
架构
Driver
Executor
Pod
云原生
Feb 28, 2026
镜像构建与依赖管理:如何打包一个可复用的 Spark 镜像
Spark
Kubernetes
Docker
镜像构建
依赖管理
Python
JAR
镜像分层
云原生
Feb 28, 2026
RBAC 与资源配额:K8s 权限模型在 Spark 中的应用
Spark
Kubernetes
RBAC
ServiceAccount
ResourceQuota
LimitRange
权限
多租户
命名空间
Feb 28, 2026
Driver 与 Executor Pod 的生命周期管理
Spark
Kubernetes
Pod
生命周期
Driver
Executor
动态资源分配
DRA
PriorityClass
心跳
Feb 28, 2026
Spark UI 访问:Ingress、NodePort 与 History Server 部署
Spark
Kubernetes
Spark-UI
Ingress
NodePort
History-Server
可观测性
网络
EventLog
Feb 28, 2026
存储与 Shuffle:PVC、HostPath 与 Remote Shuffle Service
Spark
Kubernetes
Shuffle
PVC
HostPath
Remote-Shuffle-Service
Uniffle
RSS
存储
动态资源分配
Feb 28, 2026
Spark Operator:声明式作业管理与 CI/CD 集成
Spark
Kubernetes
Spark-Operator
CRD
SparkApplication
Argo-Workflow
CI/CD
声明式
作业编排
Feb 28, 2026
资源优化:Spot 实例、Gang Scheduling 与容量规划
Spark
Kubernetes
Spot实例
Gang-Scheduling
Volcano
Yunikorn
容量规划
资源优化
抢占
Feb 28, 2026
安全加固:Secrets 管理、网络策略与镜像安全
Spark
Kubernetes
安全
Secrets
Kerberos
NetworkPolicy
镜像安全
RBAC
TLS
最小权限
Feb 28, 2026
故障排查手册:从 Pod 状态到性能瓶颈的诊断链路
Spark
Kubernetes
故障排查
OOMKilled
Executor丢失
ImagePullBackOff
性能
诊断
调试
Feb 28, 2026
Spark 容错与状态管理深度解析 —— 专栏导览
Spark
容错
状态管理
Checkpoint
Lineage
Structured-Streaming
State-Store
Feb 28, 2026
RDD Lineage 血缘容错:分布式计算的重建之道
Spark
RDD
Lineage
容错
窄依赖
宽依赖
DAGScheduler
分区重算
Feb 28, 2026
Task 与 Stage 的多级重试机制
Spark
容错
Task重试
Stage重试
推测执行
FetchFailedException
TaskScheduler
DAGScheduler
Feb 28, 2026
RDD Checkpoint:截断 Lineage 的工程权衡
Spark
RDD
Checkpoint
Lineage
容错
迭代算法
HDFS
localCheckpoint
persist
Feb 28, 2026
Structured Streaming 容错模型:Offset 与 Checkpoint
Spark
Structured-Streaming
容错
Checkpoint
Offset
Epoch
Exactly-once
StreamExecution
Feb 28, 2026
WAL 与幂等写出:Exactly-once 的两道保险
Spark
Structured-Streaming
WAL
幂等
Exactly-once
Kafka-Sink
Delta-Lake
ForeachBatch
事务
Feb 28, 2026
State Store 内幕:HDFSBackedStateStore 的读写路径
Spark
Structured-Streaming
State-Store
HDFSBackedStateStore
有状态计算
状态快照
增量文件
StateStoreProvider
Feb 28, 2026
RocksDB State Store:为超大状态而生
Spark
Structured-Streaming
RocksDB
State-Store
LSM-Tree
堆外内存
大状态
Spark-3.2
Feb 28, 2026
状态过期与 TTL:让 State Store 不再无限膨胀
Spark
Structured-Streaming
Watermark
TTL
状态过期
GroupState
dropDuplicates
事件时间
Feb 28, 2026
故障恢复全流程拆解:从宕机到续跑
Spark
容错
故障恢复
Executor崩溃
Driver重启
Structured-Streaming
YARN
全流程
Feb 28, 2026
生产容错调优手册:从告警到根因的系统性诊断
Spark
容错
生产调优
故障诊断
Task失败
Stage回滚
State-Store-OOM
Watermark
FetchFailedException
Feb 27, 2026
ApplicationMaster 机制——以 Spark on YARN 为例
YARN
ApplicationMaster
Spark
SparkOnYARN
DynamicAllocation
Executor
资源谈判
Feb 27, 2026
01 什么是 RDD:从数据流到工作集,分布式计算的代际变革与抽象本质
Spark
RDD
分布式计算
架构设计
源码分析
Feb 27, 2026
02 RDD 的五大核心属性:深入剖析分布式对象的灵魂接口
Spark
RDD
源码分析
架构设计
Feb 27, 2026
03 算子转换逻辑:惰性求值与 DAG 构建的底层机制
Spark
RDD
算子
惰性求值
DAG
Feb 27, 2026
04 依赖关系的本质:宽依赖与窄依赖的结构定义与性能边界
Spark
RDD
依赖关系
Shuffle
DAGScheduler
Feb 27, 2026
05 血缘(Lineage)与容错:以计算重构换取存储可靠性的权衡艺术
Spark
RDD
容错机制
血缘
Checkpoint
Feb 27, 2026
06 RDD 迭代器模型:流水线计算(Pipeline)与内存迭代器的实现深度分析
Spark
RDD
迭代器
流水线计算
JVM-GC
Feb 27, 2026
07 分区器(Partitioner):分布式数据布局的数学逻辑与数据倾斜攻坚
Spark
RDD
Partitioner
数据倾斜
Shuffle
Feb 27, 2026
08 缓存与持久化:StorageLevel 策略、BlockManager 协作与堆外内存实践
Spark
RDD
缓存
持久化
BlockManager
堆外内存
Feb 27, 2026
09 范式演进与回归:从 RDD 到 DataFrame & Dataset 的结构化跃迁
Spark
RDD
DataFrame
Dataset
Catalyst
Tungsten
架构演进
Feb 27, 2026
Spark Shuffle 与内存管理机制深度解析 · 专栏导览
Spark
Shuffle
内存管理
UnifiedMemoryManager
RSS
Feb 27, 2026
为什么 Shuffle 是分布式计算的命门
Spark
Shuffle
分布式计算
MapReduce
性能优化
Feb 27, 2026
Hash Shuffle 的设计与致命缺陷
Spark
Shuffle
HashShuffle
File-Consolidation
性能优化
Feb 27, 2026
Sort Shuffle 的崛起:统一写出模型
Spark
Shuffle
SortShuffleManager
BypassMergeSortShuffleWriter
UnsafeShuffleWriter
SortShuffleWriter
Feb 27, 2026
Shuffle Write 深度解剖:排序、合并与索引文件
Spark
Shuffle
ExternalSorter
PartitionedAppendOnlyMap
Spill
索引文件
Feb 27, 2026
Shuffle Read 深度解剖:拉取、聚合与排序
Spark
Shuffle
BlockStoreShuffleReader
MapOutputTracker
ExternalAppendOnlyMap
网络拉取
Feb 27, 2026
Spark 统一内存管理模型
Spark
内存管理
UnifiedMemoryManager
StaticMemoryManager
Execution-Memory
Storage-Memory
Feb 27, 2026
Execution 与 Storage 的动态边界
Spark
内存管理
UnifiedMemoryManager
Execution-Memory
Storage-Memory
RDD-Cache
动态借用
Feb 27, 2026
Spill 机制:从内存到磁盘的安全阀
Spark
Spill
内存管理
ExternalSorter
磁盘IO
性能调优
MemoryConsumer
Feb 27, 2026
堆外内存与 Tungsten Unsafe 内存世界
Spark
Tungsten
UnsafeRow
堆外内存
MemoryBlock
sun.misc.Unsafe
GC优化
二进制格式
Feb 27, 2026
生产调优手册:从症状到根因的系统性诊断
Spark
调优
生产实践
数据倾斜
Spill
OOM
Shuffle
内存配置
Feb 27, 2026
01 任务提交全链路:从用户代码到 RDD 动作的触发细节
Spark
调度系统
任务提交
源码分析
Feb 27, 2026
02 DAGScheduler 核心逻辑:Stage 划分算法与逻辑计划生成
Spark
调度系统
DAGScheduler
Stage
源码分析
Feb 27, 2026
03 TaskScheduler 架构解析:任务编排与调度后端的协作机制
Spark
调度系统
TaskScheduler
TaskSetManager
源码分析
Feb 27, 2026
04 调度后端(SchedulerBackend):Spark 与资源管理器(YARN/K8s)的对接细节
Spark
调度系统
SchedulerBackend
YARN
Kubernetes
源码分析
Feb 27, 2026
05 调度算法深度剖析:FIFO 与 FAIR 策略的实现原理与应用场景
Spark
调度算法
FIFO
FAIR
源码分析
Feb 27, 2026
06 Task 运行生命周期:从 TaskSetManager 分发到 Executor 端执行
Spark
Task
TaskSetManager
Executor
调度系统
TaskRunner
Feb 27, 2026
07 执行器(Executor)底层机制:任务运行环境、线程池管理与资源隔离
Spark
Executor
线程池
内存模型
资源隔离
BlockManager
Feb 27, 2026
08 推测执行(Speculative Execution):分布式环境下长尾任务的自动修复机制
Spark
推测执行
长尾任务
TaskSetManager
调度系统
Feb 27, 2026
09 本地化调度(Locality-Aware Scheduling):移动计算而非移动数据的实现细节
Spark
本地化调度
数据本地性
TaskScheduler
性能优化
Feb 27, 2026
10 动态资源申请(Dynamic Resource Allocation):弹性计算的资源调度逻辑
Spark
动态资源分配
Dynamic-Allocation
YARN
K8s
弹性计算