LLM 原理专栏导览

专栏定位

本专栏聚焦 大语言模型（Large Language Model）的核心原理——从 Transformer 架构的自注意力机制，到预训练（Pre-training）与微调（Fine-tuning）的训练范式，再到 RLHF 人类反馈强化学习、推理优化（KV Cache/量化/投机解码）和模型评估。本专栏不是深度学习入门教程，而是面向已有机器学习基础的工程师，系统性地剖析 GPT/LLaMA/DeepSeek 等模型背后的技术原理。

目标读者

使用 LLM API 但希望理解模型内部工作原理的后端/AI 工程师
需要进行模型微调、部署和推理优化的 MLOps/平台工程师
对 Transformer 架构和大模型训练技术感兴趣的技术爱好者

专栏目录

序号	标题	核心内容
01	01 从 RNN 到 Transformer——注意力机制的革命	序列建模的演进（RNN → LSTM → Attention → Transformer）、Self-Attention 的 Q/K/V 计算、Multi-Head Attention 的并行投影、位置编码（Sinusoidal → RoPE → ALiBi）、Transformer 的编码器-解码器架构
02	02 GPT 架构——Decoder-Only 的自回归语言模型	GPT 的 Decoder-Only 架构（Causal Attention Mask）、自回归生成（next token prediction）、Tokenizer（BPE/SentencePiece）的分词原理、Embedding 层的维度设计、GPT-1 → GPT-2 → GPT-3 → GPT-4 的架构演进
03	03 预训练——数据、算力与 Scaling Law	预训练数据的收集与清洗（Common Crawl/The Pile）、Scaling Law（Chinchilla 定律）的数据-参数-算力最优比、分布式训练（数据并行/张量并行/流水线并行/ZeRO）、混合精度训练（BF16/FP16）、训练稳定性（梯度裁剪/学习率调度）
04	04 指令微调与 RLHF——从基座模型到对话助手	SFT（Supervised Fine-Tuning）的指令数据构造、RLHF 的三阶段（SFT → Reward Model → PPO）、DPO（Direct Preference Optimization）的简化路径、Constitutional AI 的自我改进、Chat 模型 vs Base 模型的本质区别
05	05 参数高效微调——LoRA、QLoRA 与 Adapter	全量微调的显存瓶颈、LoRA 的低秩分解（A·B 矩阵）、QLoRA 的 4-bit 量化 + LoRA、Adapter 的瓶颈层插入、P-Tuning/Prefix-Tuning 的软提示、各方法的对比与适用场景
06	06 推理优化——KV Cache、量化与投机解码	自回归推理的瓶颈（逐 token 生成）、KV Cache 的缓存复用与显存占用、PagedAttention（vLLM）的分页管理、模型量化（INT8/INT4/GPTQ/AWQ）、投机解码（Speculative Decoding）的草稿-验证机制、Flash Attention 的 IO 感知优化
07	07 模型部署与 Serving——vLLM、TensorRT-LLM 与 Triton	LLM Serving 的核心挑战（高延迟/高显存/动态 Batch）、vLLM 的 Continuous Batching + PagedAttention、TensorRT-LLM 的图优化与 Kernel Fusion、Triton Inference Server 的模型编排、推理集群的 GPU 资源管理
08	08 长上下文与多模态——技术前沿	长上下文的挑战（注意力的 O(n²) 复杂度）、稀疏注意力（Sliding Window/Longformer）、RoPE 外推（YaRN/Dynamic NTK）、多模态（Vision-Language Model）的架构（CLIP → LLaVA → GPT-4V）、MoE（Mixture of Experts）的稀疏激活

推荐阅读路径

基础原理路径：01 → 02 → 03

训练与微调路径：04 → 05

推理与部署路径：06 → 07

前沿路径：08

前置知识

机器学习基础（梯度下降、反向传播、损失函数）
线性代数基础（矩阵乘法、向量空间）
Python 和 PyTorch 的基本使用

关联专栏

Agent 开发技术：LLM 原理是 Agent 开发的前置知识
Milvus：Embedding 向量的存储与检索
性能优化：GPU 计算与推理性能优化