汀的知识碎片

Home

❯

大数据

❯

Spark

❯

Spark RDD核心原理解析

Folder: 大数据/Spark/Spark-RDD核心原理解析

10 items under this folder.

  • Mar 05, 2026

    00 专栏导览

    • Feb 27, 2026

      01 什么是 RDD:从数据流到工作集,分布式计算的代际变革与抽象本质

      • Spark
      • RDD
      • 分布式计算
      • 架构设计
      • 源码分析
    • Feb 27, 2026

      02 RDD 的五大核心属性:深入剖析分布式对象的灵魂接口

      • Spark
      • RDD
      • 源码分析
      • 架构设计
    • Feb 27, 2026

      03 算子转换逻辑:惰性求值与 DAG 构建的底层机制

      • Spark
      • RDD
      • 算子
      • 惰性求值
      • DAG
    • Feb 27, 2026

      04 依赖关系的本质:宽依赖与窄依赖的结构定义与性能边界

      • Spark
      • RDD
      • 依赖关系
      • Shuffle
      • DAGScheduler
    • Feb 27, 2026

      05 血缘(Lineage)与容错:以计算重构换取存储可靠性的权衡艺术

      • Spark
      • RDD
      • 容错机制
      • 血缘
      • Checkpoint
    • Feb 27, 2026

      06 RDD 迭代器模型:流水线计算(Pipeline)与内存迭代器的实现深度分析

      • Spark
      • RDD
      • 迭代器
      • 流水线计算
      • JVM-GC
    • Feb 27, 2026

      07 分区器(Partitioner):分布式数据布局的数学逻辑与数据倾斜攻坚

      • Spark
      • RDD
      • Partitioner
      • 数据倾斜
      • Shuffle
    • Feb 27, 2026

      08 缓存与持久化:StorageLevel 策略、BlockManager 协作与堆外内存实践

      • Spark
      • RDD
      • 缓存
      • 持久化
      • BlockManager
      • 堆外内存
    • Feb 27, 2026

      09 范式演进与回归:从 RDD 到 DataFrame & Dataset 的结构化跃迁

      • Spark
      • RDD
      • DataFrame
      • Dataset
      • Catalyst
      • Tungsten
      • 架构演进

    Created with Quartz v4.5.2 © 2026

    • GitHub
    • Discord Community