专栏简介
本专栏面向希望系统掌握 Apache Flink 实战能力的工程师,聚焦于怎么用 Flink——从第一个 Hello World 程序,到生产级别的 Exactly-Once 流处理作业,再到在 YARN/Kubernetes 上的部署运维,形成完整的实战闭环。
本专栏不追求对底层原理的极致深度(那是姊妹篇 Flink原理深度解析与性能优化专栏导览 的职责),而是聚焦于”用对、用好”:每个 API 为什么这样设计、参数怎么配才合理、生产中会踩哪些坑。
适合人群
- 有 Spark 或其他大数据框架使用经验,想快速切入 Flink 的工程师
- 已经用过 Flink 但对某些概念(Watermark、状态、Checkpoint)仍感模糊的工程师
- 负责 Flink 作业生产部署与运维的 SRE / 平台工程师
技术版本
本专栏基于 Apache Flink 1.18.x / 1.19.x(最新稳定版)。
文章目录
| 序号 | 文章 | 核心内容 |
|---|---|---|
| 01 | 01 Flink 是什么,解决了什么问题 | 流处理演进史、Flink 核心定位、与 Spark Streaming/Storm 的本质差异 |
| 02 | 02 快速上手:第一个 Flink 程序 | 环境搭建、DataStream API 基础、本地调试 |
| 03 | 03 DataStream API 深度使用指南 | Source/Transform/Sink 全景、算子语义、并行度控制 |
| 04 | 04 时间语义与 Watermark 实战 | EventTime/ProcessingTime/IngestionTime、Watermark 配置、迟到数据处理 |
| 05 | 05 窗口完全指南 | 四种窗口类型、触发器、驱逐器、窗口函数 |
| 06 | 06 状态管理与 Checkpoint 实战 | 三种状态类型、状态后端选型、Checkpoint 配置与调优 |
| 07 | 07 Table API 与 Flink SQL 实战 | DDL/DML、Connector 配置(Kafka/JDBC/Hive)、CDC 接入 |
| 08 | 08 Flink 与 Kafka 端到端精确一次实战 | Exactly-Once 语义、两阶段提交、生产配置 |
| 09 | 09 Flink on YARN 与 Kubernetes 生产部署 | 三种部署模式、HA 配置、资源规划 |
| 10 | 10 生产运维:监控、调优与常见问题排查 | Metrics 体系、反压排查、OOM 处理、Savepoint 使用 |
推荐阅读路径
流处理新手:01 → 02 → 03 → 04 → 05 → 06 → 07 → 08 → 09 → 10(顺序阅读)
有经验的工程师:直接跳到感兴趣的章节,每篇文章独立可读
运维工程师:重点阅读 06、09、10
与姊妹专栏的关系
本专栏侧重应用层(怎么用),姊妹篇 Flink 原理深度解析与性能优化 侧重原理层(为什么这样运行、如何调优)。建议读完本专栏再深入原理专栏,或者在遇到性能问题时查阅对应的原理章节。
关联专栏
- Flink 原理深度解析:姊妹专栏,深入底层原理
- Kafka:Flink 最常用的 Source/Sink
- YARN:Flink on YARN 部署模式
- Doris、ClickHouse:Flink 实时写入 OLAP 引擎