汀的知识碎片
Search
Search
Dark mode
Light mode
文章导航
Home
❯
大数据
❯
Spark
❯
Spark RDD核心原理解析
Folder: 大数据/Spark/Spark-RDD核心原理解析
10 items under this folder.
Mar 05, 2026
00 专栏导览
Feb 27, 2026
01 什么是 RDD:从数据流到工作集,分布式计算的代际变革与抽象本质
Spark
RDD
分布式计算
架构设计
源码分析
Feb 27, 2026
02 RDD 的五大核心属性:深入剖析分布式对象的灵魂接口
Spark
RDD
源码分析
架构设计
Feb 27, 2026
03 算子转换逻辑:惰性求值与 DAG 构建的底层机制
Spark
RDD
算子
惰性求值
DAG
Feb 27, 2026
04 依赖关系的本质:宽依赖与窄依赖的结构定义与性能边界
Spark
RDD
依赖关系
Shuffle
DAGScheduler
Feb 27, 2026
05 血缘(Lineage)与容错:以计算重构换取存储可靠性的权衡艺术
Spark
RDD
容错机制
血缘
Checkpoint
Feb 27, 2026
06 RDD 迭代器模型:流水线计算(Pipeline)与内存迭代器的实现深度分析
Spark
RDD
迭代器
流水线计算
JVM-GC
Feb 27, 2026
07 分区器(Partitioner):分布式数据布局的数学逻辑与数据倾斜攻坚
Spark
RDD
Partitioner
数据倾斜
Shuffle
Feb 27, 2026
08 缓存与持久化:StorageLevel 策略、BlockManager 协作与堆外内存实践
Spark
RDD
缓存
持久化
BlockManager
堆外内存
Feb 27, 2026
09 范式演进与回归:从 RDD 到 DataFrame & Dataset 的结构化跃迁
Spark
RDD
DataFrame
Dataset
Catalyst
Tungsten
架构演进