Delta Lake:Lakehouse 架构深度解析 · 专栏导览
专栏定位
Delta Lake 是 Databricks 开源的存储层框架,它在 Parquet 文件之上引入了事务日志(Transaction Log),赋予数据湖 ACID 事务语义、Schema Evolution、Time Travel 等数仓级能力,开创了 Lakehouse 架构范式——在一份存储上同时满足 BI 查询和 ML 训练的需求,消除数据仓库与数据湖之间的架构割裂。
本专栏适合以下读者:
- 正在使用 Spark + Hive/Iceberg/Parquet 的大数据工程师,希望迁移到 Lakehouse 架构
- 需要在数据湖上实现可靠 UPSERT/DELETE 操作的数据工程师
- 希望深入理解 Delta Lake 内部机制(事务日志、Checkpoint、MVCC)的架构师
- 使用 Structured Streaming 写入 Delta Lake 的流式计算工程师
技术版本:Delta Lake 3.x(对应 Apache Spark 3.3/3.4/3.5)
专栏目录
| 篇序 | 文章标题 | 核心主题 |
|---|---|---|
| 01 | 为什么需要 Lakehouse:数据仓库与数据湖的架构演进 | 数仓 vs 数据湖的割裂,Lakehouse 解决的问题 |
| 02 | 事务日志 Delta Log:ACID 保证的基石 | _delta_log 目录结构,JSON Action,Checkpoint |
| 03 | MVCC 与快照隔离:并发读写的正确性保证 | 乐观并发控制,冲突检测,隔离级别 |
| 04 | DML 操作深度解析:MERGE、UPDATE 与 DELETE 的实现机制 | Copy-on-Write vs Merge-on-Read,Change Data Feed |
| 05 | Schema Evolution 与 Schema Enforcement:模式管理全解 | Schema 变更的合并规则,强制约束,Column Mapping |
| 06 | Time Travel:数据版本管理与回溯查询 | VERSION AS OF,TIMESTAMP AS OF,数据恢复,VACUUM |
| 07 | Z-Order 与数据跳过:查询加速的核心机制 | 多维数据布局,Min/Max 统计,Data Skipping,Bloom Filter |
| 08 | 流批一体:Structured Streaming 写入与读取 Delta Lake | Exactly-once 写入,Delta 作为 Source,ChangeDataFeed 增量读 |
| 09 | Delta Live Tables:声明式流批一体管道 | DLT 的期望(Expectations)、物化视图、流式表 |
| 10 | 性能调优:小文件合并、缓存与统计信息维护 | OPTIMIZE ZORDER,AUTO OPTIMIZE,Delta Cache,ANALYZE |
| 11 | 多引擎生态:Spark、Presto、Flink 与 Hive 的互操作 | Delta 协议,UniForm,Apache Iceberg 互通 |
| 12 | 生产运维手册:监控、数据质量与灾难恢复 | 元数据监控,数据质量约束,备份还原,Delta Sharing |
与其他专栏的关系
基础层:《Spark SQL 深度解析与性能调优》
↓ 依赖 Spark 计划器与执行引擎
流处理层:《Structured Streaming 流处理深度解析》
↓ Streaming 写入 Delta Lake
存储层:《Delta Lake:Lakehouse 架构深度解析》(本专栏)
提供 ACID 存储语义,是 Lakehouse 的基础
计算层:《Spark on Kubernetes 工程实践》
↑ Spark on K8s 读写 Delta Lake 的工程落地
推荐阅读路径
入门路径(理解 Lakehouse 价值):01 → 02 → 06 → 10
工程落地路径(生产使用 Delta Lake):01 → 02 → 04 → 05 → 08 → 10 → 12
深度原理路径(理解内部机制):02 → 03 → 04 → 07 → 08 → 11
关联专栏
- Spark SQL:Delta Lake 与 Spark SQL 的深度集成
- Structured Streaming:Delta Lake 作为流批一体的 Sink
- Spark on K8s:Spark on K8s 读写 Delta Lake
- Iceberg、Hudi、Paimon:数据湖表格式的对比选型
- 分布式事务:Delta Lake 的 ACID 事务保证