12 生产运维手册：监控、数据质量与灾难恢复

摘要

将 Delta Lake 从开发环境带入生产，需要建立完整的运维体系：如何判断一张 Delta 表是否”健康”（文件数量、碎片化程度、统计信息新鲜度、事务冲突率）；如何声明式地定义数据质量约束（Constraints）并在写入时强制验证；当灾难发生时（误删数据、ETL Bug、存储事故）如何快速恢复；以及如何通过 Delta Sharing 安全地将数据共享给外部合作伙伴——而无需数据复制。本文从真实生产场景出发，给出每个问题的诊断方法、处理流程和预防措施，最终形成一份可直接参考的 Delta Lake 生产运维 SOP（Standard Operating Procedure）。

第 1 章 Delta 表健康度监控

1.1 健康度的四个维度

一张 Delta Lake 表的健康度可以从四个维度量化评估：

维度一：文件碎片化程度

-- 评估文件碎片化
SELECT 
    count(*) AS total_files,
    sum(size) / 1024 / 1024 / 1024 AS total_size_gb,
    avg(size) / 1024 / 1024 AS avg_file_size_mb,
    min(size) / 1024 / 1024 AS min_file_size_mb,
    max(size) / 1024 / 1024 AS max_file_size_mb,
    sum(CASE WHEN size < 10 * 1024 * 1024 THEN 1 ELSE 0 END) AS tiny_files_count,  -- < 10MB
    sum(CASE WHEN size < 128 * 1024 * 1024 THEN 1 ELSE 0 END) AS small_files_count  -- < 128MB
FROM (
    SELECT explode(files) AS file_info
    FROM (DESCRIBE DETAIL orders)
)
-- 告警阈值：
-- tiny_files_count / total_files > 20%  → 严重碎片化，立即 OPTIMIZE
-- avg_file_size_mb < 100                → 中度碎片化，计划 OPTIMIZE
-- total_files > 50000                   → 元数据压力大，影响 Driver 性能

维度二：Delta Log 版本增长速率

# 计算最近 7 天的版本增长速率
from delta.tables import DeltaTable
import pandas as pd
 
dt = DeltaTable.forPath(spark, "s3://bucket/delta/orders/")
history = dt.history(1000).toPandas()
 
# 按天统计版本数
history['date'] = pd.to_datetime(history['timestamp']).dt.date
daily_commits = history.groupby('date').size().reset_index(name='commit_count')
 
# 告警阈值：
# commit_count > 10000/day → 版本增长过快，Checkpoint 可能不够频繁
print(daily_commits)

维度三：事务冲突率

# 统计最近事务的冲突重试情况（从 commitInfo 中读取）
conflict_events = spark.sql("""
    SELECT 
        date(timestamp) AS date,
        count(*) AS total_commits,
        sum(CASE WHEN operationMetrics['numConflictRetries'] > '0' THEN 1 ELSE 0 END) AS conflict_commits,
        avg(CAST(operationMetrics['numConflictRetries'] AS INT)) AS avg_retries
    FROM (DESCRIBE HISTORY orders)
    WHERE timestamp > current_timestamp() - INTERVAL 7 DAYS
    GROUP BY 1
    ORDER BY 1 DESC
""")
conflict_events.show()
# 告警阈值：
# conflict_commits / total_commits > 10%  → 并发写入冲突率过高，需要优化并发策略
# avg_retries > 3                          → 重试代价高，作业执行时间显著增加

维度四：Deletion Vector 密度

-- 检查哪些文件的 DV 删除比例过高（需要 OPTIMIZE 清理）
SELECT 
    path,
    deletionVector.cardinality AS deleted_rows,
    stats:numRecords AS total_rows,
    ROUND(deletionVector.cardinality / stats:numRecords * 100, 1) AS deletion_pct
FROM delta.`s3://bucket/delta/orders/`._delta_log
WHERE add IS NOT NULL 
  AND deletionVector IS NOT NULL
  AND deletionVector.cardinality / stats:numRecords > 0.2  -- DV 删除超过 20% 的行
ORDER BY deletion_pct DESC;
-- 这些文件应当通过 OPTIMIZE 重写（清理 DV，释放存储空间）

1.2 健康度监控的自动化

# 自动化健康度检查脚本（每日运行）
def check_delta_table_health(table_path: str, table_name: str) -> dict:
    """
    返回 Delta 表的健康度报告
    """
    detail = spark.sql(f"DESCRIBE DETAIL delta.`{table_path}`").collect()[0]
    
    health_report = {
        "table": table_name,
        "check_time": datetime.now().isoformat(),
        "total_files": detail["numFiles"],
        "size_gb": detail["sizeInBytes"] / 1024**3,
        "avg_file_size_mb": detail["sizeInBytes"] / max(detail["numFiles"], 1) / 1024**2,
        "alerts": []
    }
    
    # 检查文件数量
    if detail["numFiles"] > 100000:
        health_report["alerts"].append({
            "severity": "HIGH",
            "message": f"文件数量 {detail['numFiles']} 超过 10 万，Driver 内存压力严重",
            "action": f"OPTIMIZE {table_name}"
        })
    elif detail["numFiles"] > 50000:
        health_report["alerts"].append({
            "severity": "MEDIUM",
            "message": f"文件数量 {detail['numFiles']} 超过 5 万，建议执行 OPTIMIZE",
            "action": f"OPTIMIZE {table_name}"
        })
    
    # 检查平均文件大小
    avg_mb = health_report["avg_file_size_mb"]
    if avg_mb < 10:
        health_report["alerts"].append({
            "severity": "HIGH",
            "message": f"平均文件大小 {avg_mb:.1f}MB，严重碎片化",
            "action": f"OPTIMIZE {table_name}"
        })
    
    return health_report
 
# 每日通过 Airflow/Argo 触发，将报告发送到 Slack/钉钉/企业微信
tables_to_monitor = [
    ("s3://bucket/delta/orders/", "fact_orders"),
    ("s3://bucket/delta/users/", "dim_users"),
    ("s3://bucket/delta/products/", "dim_products"),
]
 
for path, name in tables_to_monitor:
    report = check_delta_table_health(path, name)
    if report["alerts"]:
        send_alert(report)  # 发送告警

第 2 章数据质量约束（Constraints）

2.1 Delta Lake 的三种数据质量约束

Delta Lake 提供了三种级别的数据质量约束，从被动到主动依次增强：

约束一：NOT NULL

-- 禁止某列写入 NULL 值
ALTER TABLE orders ALTER COLUMN order_id SET NOT NULL;
 
-- 尝试写入 NULL 时报错：
-- DeltaInvariantViolationException: NOT NULL constraint violated for column: order_id

约束二：CHECK Constraint

-- 自定义业务规则约束
ALTER TABLE orders ADD CONSTRAINT valid_amount CHECK (amount >= 0);
ALTER TABLE orders ADD CONSTRAINT valid_status CHECK (status IN ('open', 'paid', 'cancelled', 'refunded'));
 
-- 约束命名规范：使用业务含义的名称（便于告警定位）
ALTER TABLE orders ADD CONSTRAINT order_date_not_future 
  CHECK (order_date <= current_date());
 
-- 查看当前约束
SHOW TBLPROPERTIES orders;
-- 约束存储在 TBLPROPERTIES 中：
-- delta.constraints.valid_amount = amount >= 0
-- delta.constraints.valid_status = status IN ('open', 'paid', 'cancelled', 'refunded')

约束三：Generated Columns（生成列约束）

-- 生成列：值由表达式自动计算，写入时验证一致性
CREATE TABLE orders (
    order_id BIGINT,
    amount DOUBLE,
    tax_rate DOUBLE,
    tax_amount DOUBLE GENERATED ALWAYS AS (amount * tax_rate),  -- 自动生成
    order_date DATE,
    order_year INT GENERATED ALWAYS AS (year(order_date))       -- 用于分区
) USING DELTA
PARTITIONED BY (order_year);

生成列特别适合分区优化场景：用 order_date 的年份作为分区列，避免每个分区只有一天数据导致的分区过细问题。

2.2 约束的实施与生产建议

-- 对已有数据添加约束时的注意事项
-- Delta Lake 会在添加约束时验证现有数据（历史数据必须满足约束）
ALTER TABLE orders ADD CONSTRAINT valid_amount CHECK (amount >= 0);
-- 如果历史数据中有 amount < 0 的记录，这个命令会失败：
-- AnalysisException: Cannot add constraint 'valid_amount' because existing data violates it
 
-- 处理方式：先修复历史数据，再添加约束
UPDATE orders SET amount = 0 WHERE amount < 0;  -- 修复历史脏数据
ALTER TABLE orders ADD CONSTRAINT valid_amount CHECK (amount >= 0);  -- 再添加约束

生产避坑

约束违反不会静默失败：Delta Lake 的 CHECK 约束在写入时强制验证——任何包含违反约束记录的写入批次会被整体拒绝（事务回滚）。这意味着一条坏记录会阻断整个批次的写入。在添加约束前，必须充分评估上游数据质量，或者结合 DLT Expectations 的 expect_or_drop 模式，在进入受约束的表之前就过滤掉坏数据。

2.3 约束与 DLT Expectations 的分工

机制	层次	违规处理	适用场景
Delta Constraints	存储层（Delta Log 强制）	整个写入批次回滚	绝对不能接受的数据错误（主键完整性、非负金额）
DLT Expectations（expect_or_fail）	管道层（ETL 阶段）	管道停止	关键业务规则，发现后需人工介入
DLT Expectations（expect_or_drop）	管道层（ETL 阶段）	过滤坏行，管道继续	可容忍的数据质量问题（过滤后继续）
DLT Expectations（expect）	管道层（ETL 阶段）	记录警告，继续	监控数据质量趋势，不阻断管道

最佳实践：在 ETL 管道（DLT/Spark）层用 Expectations 过滤坏数据，在存储层（Delta Constraints）设置最后一道防线。双层保障确保进入 Delta 表的数据满足最低质量要求。

第 3 章灾难恢复方案

3.1 常见的数据灾难类型

生产中 Delta Lake 数据灾难通常来自以下几类：

类型一：ETL Bug 写入错误数据（最常见）

症状：报表数据异常，SUM(amount) 结果翻倍
根因：ETL 作业有 Bug，向 fact_orders 表重复写入了同一天的数据

类型二：误操作 DELETE/TRUNCATE

症状：某张表的数据量突然变为 0 或大幅减少
根因：工程师误执行了 DELETE FROM orders 或 TRUNCATE TABLE orders

类型三：VACUUM 过度清理

症状：Time Travel 查询失败（FileNotFoundException）
根因：VACUUM RETAIN 0 HOURS 删除了所有历史文件

类型四：存储故障（S3 存储桶误删）

症状：所有 Delta 表不可访问
根因：S3 存储桶被误删，或被攻击（勒索软件）

3.2 数据恢复的分级 SOP

Level 1（轻微）：ETL Bug 写入错误数据，需要回滚最近几个版本

-- Step 1：确认问题版本
DESCRIBE HISTORY orders LIMIT 20;
-- 找到错误写入的 version（如 version=50）
 
-- Step 2：验证回滚目标版本的数据正确性
SELECT COUNT(*), SUM(amount) FROM orders VERSION AS OF 49;  -- 回滚前的正确版本
 
-- Step 3：执行 RESTORE（原子性回滚）
RESTORE TABLE orders TO VERSION AS OF 49;
 
-- Step 4：验证恢复结果
SELECT COUNT(*), SUM(amount) FROM orders;  -- 应与 version=49 一致
 
-- Step 5：记录事故（用于事后分析）
-- DESCRIBE HISTORY orders 查看 RESTORE 操作的 commitInfo

Level 2（中等）：VACUUM 误清理，需要从备份恢复部分文件

# 如果开启了 S3 版本控制（Versioning），可以从 S3 版本历史恢复
aws s3api list-object-versions \
    --bucket my-delta-bucket \
    --prefix delta/orders/_delta_log/ \
    --query 'Versions[?IsLatest==`false`]' \
    --output json
 
# 找到被删除的历史 Parquet 文件，从 S3 版本历史恢复
aws s3api restore-object \
    --bucket my-delta-bucket \
    --key delta/orders/part-00000-oldfile.snappy.parquet \
    --version-id <version-id>

推荐预防措施：对 Delta Lake 存储桶开启 S3 Object Lock（WORM），设置最短保留期（如 30 天），防止任何人（包括 VACUUM 命令）在保留期内删除文件：

aws s3api put-object-lock-configuration \
    --bucket my-delta-bucket \
    --object-lock-configuration '{
        "ObjectLockEnabled": "Enabled",
        "Rule": {
            "DefaultRetention": {
                "Mode": "GOVERNANCE",
                "Days": 30
            }
        }
    }'

Level 3（严重）：存储桶整体故障，需要从跨区域备份恢复

# 生产预防方案：S3 跨区域复制（Cross-Region Replication，CRR）
# 将 Delta 表数据实时复制到另一个 AWS Region 的备份桶
 
aws s3api put-bucket-replication \
    --bucket my-delta-bucket-primary \
    --replication-configuration '{
        "Role": "arn:aws:iam::123:role/S3ReplicationRole",
        "Rules": [{
            "Status": "Enabled",
            "Destination": {
                "Bucket": "arn:aws:s3:::my-delta-bucket-backup-us-west-2",
                "StorageClass": "STANDARD_IA"
            }
        }]
    }'

恢复 RTO/RPO 目标：

灾难级别	RPO（数据丢失时间）	RTO（恢复时间）	恢复方法
ETL Bug 写错	0（Time Travel）	< 5 分钟	RESTORE TABLE
误删分区	0（Time Travel）	< 10 分钟	RESTORE TABLE
VACUUM 误清理	取决于 S3 版本历史	30-120 分钟	S3 版本恢复
存储桶整体故障	取决于 CRR 延迟（< 1 小时）	1-4 小时	切换到备份桶

3.3 日常备份实践

除了 S3 的版本控制和 CRR，还应该定期做逻辑备份（将关键表的数据导出到独立位置）：

# 每周全量逻辑备份（关键维度表）
def full_backup(source_table: str, backup_path: str):
    df = spark.read.format("delta").table(source_table)
    df.write \
        .format("delta") \
        .mode("overwrite") \
        .option("overwriteSchema", "true") \
        .save(f"{backup_path}/{source_table}/weekly/{datetime.now().strftime('%Y%m%d')}")
 
# 每天增量备份（事实表，利用 CDF）
def incremental_backup(source_table: str, backup_path: str, last_version: int):
    cdf = spark.read.format("delta") \
        .option("readChangeFeed", "true") \
        .option("startingVersion", last_version) \
        .table(source_table)
    
    cdf.write \
        .format("delta") \
        .mode("append") \
        .save(f"{backup_path}/{source_table}/incremental/")

第 4 章 Delta Sharing：跨组织的安全数据共享

在没有 Delta Sharing 之前，向外部合作伙伴共享数据的方式：

复制数据：将数据导出为 CSV/Parquet，发送给对方 → 数据副本无法实时更新，对方看到的是快照
开放 S3 权限：给对方一个 IAM Role 访问 S3 桶 → 安全风险高（对方可以看到所有数据，甚至删除文件）
搭建数据 API：构建 REST API 让对方查询 → 开发和维护成本高

Delta Sharing（2021 年 Databricks 开源）是一个开放协议，允许数据提供者通过 REST API 安全地向数据消费者共享 Delta 表：

消费者不需要访问 S3（不需要 AWS 账号）
数据提供者精细控制共享哪些表、哪些分区、有效期多长
数据始终是实时的（消费者每次查询都读取最新数据）
协议开放，多种客户端实现（Python、Spark、PowerBI、Pandas）

数据提供者（Provider）：
  Delta Lake 表（S3）
    ↓
  Delta Sharing Server（REST API）← 认证授权（JWT Token）
    ↓
  生成预签名 URL（Pre-signed URL）指向 S3 上的 Parquet 文件

数据消费者（Recipient）：
  Delta Sharing Client（Python/Spark/PowerBI）
    ↓ 使用 Token 认证
  调用 Delta Sharing REST API 获取数据
    ↓ 使用预签名 URL
  直接从 S3 读取 Parquet 文件
  （不需要消费者的 AWS 账号，Pre-signed URL 临时有效）

4.3 数据提供者配置

# 使用 delta-sharing-server（开源服务器）
# 配置文件 config.yaml
shares:
  - name: "orders_share"
    schemas:
      - name: "sales"
        tables:
          - name: "monthly_revenue"
            location: "s3://bucket/delta/monthly_revenue/"
            id: "table-uuid-001"
          - name: "product_catalog"
            location: "s3://bucket/delta/products/"
            id: "table-uuid-002"
 
# 生成消费者 Token（有效期 30 天）
import delta_sharing
sharing_client = delta_sharing.SharingClient("https://my-sharing-server.company.com")
token = sharing_client.generate_token(
    recipient="partner-company",
    expiration_days=30
)

4.4 数据消费者使用

# 消费者：使用 Token 访问共享数据（Python）
import delta_sharing
 
# Profile 文件（存储 Server URL 和 Token）
profile_file = "partner.share"  
# 内容：
# {
#   "shareCredentialsVersion": 1,
#   "endpoint": "https://my-sharing-server.company.com",
#   "bearerToken": "eyJhbGc..."
# }
 
# 列出可访问的表
tables = delta_sharing.list_all_tables(profile_file)
for t in tables:
    print(f"{t.share}.{t.schema}.{t.name}")
 
# 读取共享表（返回 Pandas DataFrame）
pdf = delta_sharing.load_as_pandas(
    f"{profile_file}#orders_share.sales.monthly_revenue"
)
 
# 读取为 Spark DataFrame（在消费者自己的 Spark 集群上）
sdf = delta_sharing.load_as_spark(
    f"{profile_file}#orders_share.sales.monthly_revenue"
)
sdf.filter("year = 2026").show()

第 5 章生产运维日历与 SOP 速查

5.1 日常运维日历

每天（凌晨 02:00-04:00，低峰期）：
  ✅ OPTIMIZE（按分区增量，昨日新数据）
  ✅ ANALYZE TABLE（更新统计信息，昨日分区）
  ✅ 健康度检查（文件数量、碎片化程度）
  ✅ Delta Log 版本增长率告警检查

每周（周日凌晨）：
  ✅ VACUUM（清理超过 7 天的历史文件）
  ✅ 全表健康度扫描（覆盖所有 Delta 表）
  ✅ 逻辑备份（关键维度表）
  ✅ 约束验证报告（统计本周数据质量违规情况）

每月：
  ✅ 存储成本审计（各 Delta 表的存储量趋势）
  ✅ 协议版本检查（是否有表需要升级协议版本）
  ✅ 灾难恢复演练（验证 RESTORE 和 S3 版本恢复流程可行性）

5.2 告警阈值参考

# 建议的告警规则（接入 Prometheus/Grafana 或企业告警系统）
alerts:
  delta_table_health:
    - name: "小文件数量过多"
      condition: "tiny_files_count / total_files > 0.3"
      severity: HIGH
      action: "立即执行 OPTIMIZE"
      
    - name: "总文件数超限"
      condition: "total_files > 100000"
      severity: HIGH
      action: "执行 OPTIMIZE 并检查 Auto Compact 配置"
      
    - name: "平均文件大小过小"
      condition: "avg_file_size_mb < 50"
      severity: MEDIUM
      action: "计划 OPTIMIZE"
      
    - name: "Delta Log 版本增长过快"
      condition: "daily_commit_count > 5000"
      severity: MEDIUM
      action: "检查 Checkpoint 频率；考虑合并写入批次"
      
    - name: "事务冲突率高"
      condition: "conflict_rate > 0.1"  # > 10%
      severity: HIGH
      action: "分析并发写入模式；考虑分区隔离或串行化"
      
    - name: "DV 密度过高"
      condition: "avg_deletion_vector_ratio > 0.25"  # > 25% 行被标记删除
      severity: MEDIUM
      action: "执行 OPTIMIZE 清理 DV"
 
  data_quality:
    - name: "约束违规"
      condition: "constraint_violation_count > 0"
      severity: HIGH
      action: "立即排查上游数据质量问题"
      
    - name: "数据量骤降"
      condition: "daily_row_count < yesterday_row_count * 0.5"
      severity: CRITICAL
      action: "检查是否有误操作 DELETE；立即用 DESCRIBE HISTORY 排查"

5.3 故障排查快速参考

故障现象                         → 诊断命令                    → 可能根因
────────────────────────────────────────────────────────────────────
查询变慢（秒→分钟）              → DESCRIBE DETAIL table         → 文件数爆炸，需要 OPTIMIZE
Time Travel 查询失败              → DESCRIBE HISTORY / ls -la     → VACUUM 清理了历史文件
MERGE 失败（冲突）               → DESCRIBE HISTORY              → 并发写入冲突，需要重试策略
写入被拒绝（约束违规）            → 查看写入数据的具体列值         → 违反 CHECK Constraint
数据量骤降                       → DESCRIBE HISTORY + RESTORE    → 误删；执行 RESTORE
Driver OOM（加载 Delta Log）     → DESCRIBE DETAIL（文件数）     → 文件数过多，需要 OPTIMIZE
Streaming 延迟增大               → Spark UI Streaming tab         → Delta Log 增量文件过多（maxFilesPerTrigger 调小）
Delta Sharing 查询失败           → 检查 Token 有效期              → Token 过期，重新生成

小结

专栏三「Delta Lake：Lakehouse 架构深度解析」至此全部完成。12 篇文章构建了完整的 Delta Lake 知识体系：

架构演进（01）：数仓→数据湖→Lakehouse 的三代演进，Delta Lake 解决的根本矛盾
Delta Log（02）：事务日志的物理格式（JSON Action），五种 Action 的语义，ACID 保证基础
MVCC 与 OCC（03）：乐观并发控制的三阶段协议，冲突检测矩阵，快照隔离读写不阻塞
DML 操作（04）：MERGE/UPDATE/DELETE 的 CoW 实现，Deletion Vector 的 MoR 革新，CDF 行级变更捕获
Schema 管理（05）：Enforcement 防止脏数据，Evolution 安全演进，Column Mapping 无重写列重命名
Time Travel（06）：历史版本查询语法，RESTORE 原子回滚，VACUUM 保留期配置，生产数据恢复流程
查询加速（07）：Data Skipping（Min/Max）基础，Z-Order 多维聚类原理，Bloom Filter 字符串等值优化
流批一体（08）：Delta Sink 的三层 Exactly-once，Delta Source 的增量读取，CDF Streaming 行级增量
Delta Live Tables（09）：声明式管道（物化视图/流式表），Expectations 数据质量约束，增量执行引擎
性能调优（10）：小文件治理三件套（Optimize Write + Auto Compaction + 手动 OPTIMIZE），Delta Cache vs Spark Cache，统计信息维护
多引擎生态（11）：Delta Protocol 开放规范，Presto/Flink/Hive 集成，UniForm 打通 Iceberg 协议壁垒
生产运维（12）：健康度四维度监控，Constraints 双层数据质量保障，分级灾难恢复 SOP，Delta Sharing 跨组织共享

思考题

Delta 表健康度可从四个维度衡量：文件数量、数据跳过效率、事务日志大小、已删除文件残留量。如何将这四个维度量化为可监控的 Prometheus 指标，并建立自动化告警体系？告警阈值应如何根据表的读写模式差异化设置？

Delta 的 CHECK 约束在”数据已写入 Parquet 文件后、提交 Delta Log 前”进行校验。约束检查失败时需要删除已写入的文件并标记事务失败。这种”先写后检查”设计与”先检查后写”相比，在高失败率场景下会产生多少额外的写入和删除开销？

如果 S3 上的部分 Parquet 文件被意外删除（误执行 aws s3 rm），但 Delta Log 中仍记录这些文件为”有效”状态，会发生什么？Delta 有没有内置机制检测”Log 记录的文件 vs 实际存在的文件”之间的不一致？

参考资料

Delta Lake 官方文档
Delta Sharing 官方文档
Delta Lake Constraints 文档
Armbrust et al. Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores. VLDB 2020.
Databricks Delta Lake Production Best Practices

汀的知识碎片

文章导航

12 生产运维手册：监控、数据质量与灾难恢复

12 生产运维手册：监控、数据质量与灾难恢复

摘要

第 1 章 Delta 表健康度监控

1.1 健康度的四个维度

1.2 健康度监控的自动化

第 2 章数据质量约束（Constraints）

2.1 Delta Lake 的三种数据质量约束

2.2 约束的实施与生产建议

2.3 约束与 DLT Expectations 的分工

第 3 章灾难恢复方案

3.1 常见的数据灾难类型

3.2 数据恢复的分级 SOP

3.3 日常备份实践

第 4 章 Delta Sharing：跨组织的安全数据共享

4.3 数据提供者配置

4.4 数据消费者使用

第 5 章生产运维日历与 SOP 速查

5.1 日常运维日历

5.2 告警阈值参考

5.3 故障排查快速参考

小结

参考资料

On this page

汀的知识碎片

文章导航

12 生产运维手册：监控、数据质量与灾难恢复

12 生产运维手册：监控、数据质量与灾难恢复

摘要

第 1 章 Delta 表健康度监控

1.1 健康度的四个维度

1.2 健康度监控的自动化

第 2 章 数据质量约束（Constraints）

2.1 Delta Lake 的三种数据质量约束

2.2 约束的实施与生产建议

2.3 约束与 DLT Expectations 的分工

第 3 章 灾难恢复方案

3.1 常见的数据灾难类型

3.2 数据恢复的分级 SOP

3.3 日常备份实践

第 4 章 Delta Sharing：跨组织的安全数据共享

4.1 Delta Sharing 是什么，解决了什么问题

4.2 Delta Sharing 的架构

4.3 数据提供者配置

4.4 数据消费者使用

第 5 章 生产运维日历与 SOP 速查

5.1 日常运维日历

5.2 告警阈值参考

5.3 故障排查快速参考

小结

参考资料

On this page

第 2 章数据质量约束（Constraints）

第 3 章灾难恢复方案

第 5 章生产运维日历与 SOP 速查