Delta Lake：Lakehouse 架构深度解析 · 专栏导览

专栏定位

Delta Lake 是 Databricks 开源的存储层框架，它在 Parquet 文件之上引入了事务日志（Transaction Log），赋予数据湖 ACID 事务语义、Schema Evolution、Time Travel 等数仓级能力，开创了 Lakehouse 架构范式——在一份存储上同时满足 BI 查询和 ML 训练的需求，消除数据仓库与数据湖之间的架构割裂。

本专栏适合以下读者：

正在使用 Spark + Hive/Iceberg/Parquet 的大数据工程师，希望迁移到 Lakehouse 架构
需要在数据湖上实现可靠 UPSERT/DELETE 操作的数据工程师
希望深入理解 Delta Lake 内部机制（事务日志、Checkpoint、MVCC）的架构师
使用 Structured Streaming 写入 Delta Lake 的流式计算工程师

技术版本：Delta Lake 3.x（对应 Apache Spark 3.3/3.4/3.5）

专栏目录

篇序	文章标题	核心主题
01	为什么需要 Lakehouse：数据仓库与数据湖的架构演进	数仓 vs 数据湖的割裂，Lakehouse 解决的问题
02	事务日志 Delta Log：ACID 保证的基石	`_delta_log` 目录结构，JSON Action，Checkpoint
03	MVCC 与快照隔离：并发读写的正确性保证	乐观并发控制，冲突检测，隔离级别
04	DML 操作深度解析：MERGE、UPDATE 与 DELETE 的实现机制	Copy-on-Write vs Merge-on-Read，Change Data Feed
05	Schema Evolution 与 Schema Enforcement：模式管理全解	Schema 变更的合并规则，强制约束，Column Mapping
06	Time Travel：数据版本管理与回溯查询	`VERSION AS OF`，`TIMESTAMP AS OF`，数据恢复，VACUUM
07	Z-Order 与数据跳过：查询加速的核心机制	多维数据布局，Min/Max 统计，Data Skipping，Bloom Filter
08	流批一体：Structured Streaming 写入与读取 Delta Lake	Exactly-once 写入，Delta 作为 Source，ChangeDataFeed 增量读
09	Delta Live Tables：声明式流批一体管道	DLT 的期望（Expectations）、物化视图、流式表
10	性能调优：小文件合并、缓存与统计信息维护	OPTIMIZE ZORDER，AUTO OPTIMIZE，Delta Cache，`ANALYZE`
11	多引擎生态：Spark、Presto、Flink 与 Hive 的互操作	Delta 协议，UniForm，Apache Iceberg 互通
12	生产运维手册：监控、数据质量与灾难恢复	元数据监控，数据质量约束，备份还原，Delta Sharing

与其他专栏的关系

基础层：《Spark SQL 深度解析与性能调优》
  ↓ 依赖 Spark 计划器与执行引擎
流处理层：《Structured Streaming 流处理深度解析》
  ↓ Streaming 写入 Delta Lake
存储层：《Delta Lake：Lakehouse 架构深度解析》（本专栏）
  提供 ACID 存储语义，是 Lakehouse 的基础
计算层：《Spark on Kubernetes 工程实践》
  ↑ Spark on K8s 读写 Delta Lake 的工程落地

关联专栏

Spark SQL：Delta Lake 与 Spark SQL 的深度集成
Structured Streaming：Delta Lake 作为流批一体的 Sink
Spark on K8s：Spark on K8s 读写 Delta Lake
Iceberg、Hudi、Paimon：数据湖表格式的对比选型
分布式事务：Delta Lake 的 ACID 事务保证

汀的知识碎片

文章导航

00 专栏导览

Delta Lake：Lakehouse 架构深度解析 · 专栏导览

专栏定位

专栏目录

与其他专栏的关系

推荐阅读路径

关联专栏

On this page

Backlinks