汀的知识碎片
Search
Search
Dark mode
Light mode
文章导航
Tag: RDD
12 items with this tag.
Feb 28, 2026
Spark SQL 全局架构:从 SQL 文本到 RDD 执行的完整旅程
Spark
SparkSQL
Catalyst
DataFrame
Dataset
LogicalPlan
PhysicalPlan
RDD
架构
Feb 28, 2026
RDD Lineage 血缘容错:分布式计算的重建之道
Spark
RDD
Lineage
容错
窄依赖
宽依赖
DAGScheduler
分区重算
Feb 28, 2026
RDD Checkpoint:截断 Lineage 的工程权衡
Spark
RDD
Checkpoint
Lineage
容错
迭代算法
HDFS
localCheckpoint
persist
Feb 27, 2026
01 什么是 RDD:从数据流到工作集,分布式计算的代际变革与抽象本质
Spark
RDD
分布式计算
架构设计
源码分析
Feb 27, 2026
02 RDD 的五大核心属性:深入剖析分布式对象的灵魂接口
Spark
RDD
源码分析
架构设计
Feb 27, 2026
03 算子转换逻辑:惰性求值与 DAG 构建的底层机制
Spark
RDD
算子
惰性求值
DAG
Feb 27, 2026
04 依赖关系的本质:宽依赖与窄依赖的结构定义与性能边界
Spark
RDD
依赖关系
Shuffle
DAGScheduler
Feb 27, 2026
05 血缘(Lineage)与容错:以计算重构换取存储可靠性的权衡艺术
Spark
RDD
容错机制
血缘
Checkpoint
Feb 27, 2026
06 RDD 迭代器模型:流水线计算(Pipeline)与内存迭代器的实现深度分析
Spark
RDD
迭代器
流水线计算
JVM-GC
Feb 27, 2026
07 分区器(Partitioner):分布式数据布局的数学逻辑与数据倾斜攻坚
Spark
RDD
Partitioner
数据倾斜
Shuffle
Feb 27, 2026
08 缓存与持久化:StorageLevel 策略、BlockManager 协作与堆外内存实践
Spark
RDD
缓存
持久化
BlockManager
堆外内存
Feb 27, 2026
09 范式演进与回归:从 RDD 到 DataFrame & Dataset 的结构化跃迁
Spark
RDD
DataFrame
Dataset
Catalyst
Tungsten
架构演进