Delta Lake:Lakehouse 架构深度解析 · 专栏导览

专栏定位

Delta Lake 是 Databricks 开源的存储层框架,它在 Parquet 文件之上引入了事务日志(Transaction Log),赋予数据湖 ACID 事务语义、Schema Evolution、Time Travel 等数仓级能力,开创了 Lakehouse 架构范式——在一份存储上同时满足 BI 查询和 ML 训练的需求,消除数据仓库与数据湖之间的架构割裂。

本专栏适合以下读者:

  • 正在使用 Spark + Hive/Iceberg/Parquet 的大数据工程师,希望迁移到 Lakehouse 架构
  • 需要在数据湖上实现可靠 UPSERT/DELETE 操作的数据工程师
  • 希望深入理解 Delta Lake 内部机制(事务日志、Checkpoint、MVCC)的架构师
  • 使用 Structured Streaming 写入 Delta Lake 的流式计算工程师

技术版本:Delta Lake 3.x(对应 Apache Spark 3.3/3.4/3.5)


专栏目录

篇序文章标题核心主题
01为什么需要 Lakehouse:数据仓库与数据湖的架构演进数仓 vs 数据湖的割裂,Lakehouse 解决的问题
02事务日志 Delta Log:ACID 保证的基石_delta_log 目录结构,JSON Action,Checkpoint
03MVCC 与快照隔离:并发读写的正确性保证乐观并发控制,冲突检测,隔离级别
04DML 操作深度解析:MERGE、UPDATE 与 DELETE 的实现机制Copy-on-Write vs Merge-on-Read,Change Data Feed
05Schema Evolution 与 Schema Enforcement:模式管理全解Schema 变更的合并规则,强制约束,Column Mapping
06Time Travel:数据版本管理与回溯查询VERSION AS OFTIMESTAMP AS OF,数据恢复,VACUUM
07Z-Order 与数据跳过:查询加速的核心机制多维数据布局,Min/Max 统计,Data Skipping,Bloom Filter
08流批一体:Structured Streaming 写入与读取 Delta LakeExactly-once 写入,Delta 作为 Source,ChangeDataFeed 增量读
09Delta Live Tables:声明式流批一体管道DLT 的期望(Expectations)、物化视图、流式表
10性能调优:小文件合并、缓存与统计信息维护OPTIMIZE ZORDER,AUTO OPTIMIZE,Delta Cache,ANALYZE
11多引擎生态:Spark、Presto、Flink 与 Hive 的互操作Delta 协议,UniForm,Apache Iceberg 互通
12生产运维手册:监控、数据质量与灾难恢复元数据监控,数据质量约束,备份还原,Delta Sharing

与其他专栏的关系

基础层:《Spark SQL 深度解析与性能调优》
  ↓ 依赖 Spark 计划器与执行引擎
流处理层:《Structured Streaming 流处理深度解析》
  ↓ Streaming 写入 Delta Lake
存储层:《Delta Lake:Lakehouse 架构深度解析》(本专栏)
  提供 ACID 存储语义,是 Lakehouse 的基础
计算层:《Spark on Kubernetes 工程实践》
  ↑ Spark on K8s 读写 Delta Lake 的工程落地

推荐阅读路径

入门路径(理解 Lakehouse 价值):01 → 02 → 06 → 10

工程落地路径(生产使用 Delta Lake):01 → 02 → 04 → 05 → 08 → 10 → 12

深度原理路径(理解内部机制):02 → 03 → 04 → 07 → 08 → 11


关联专栏