LLM 原理 专栏导览

专栏定位

本专栏聚焦 大语言模型(Large Language Model)的核心原理——从 Transformer 架构的自注意力机制,到预训练(Pre-training)与微调(Fine-tuning)的训练范式,再到 RLHF 人类反馈强化学习、推理优化(KV Cache/量化/投机解码)和模型评估。本专栏不是深度学习入门教程,而是面向已有机器学习基础的工程师,系统性地剖析 GPT/LLaMA/DeepSeek 等模型背后的技术原理。

目标读者

  • 使用 LLM API 但希望理解模型内部工作原理的后端/AI 工程师
  • 需要进行模型微调、部署和推理优化的 MLOps/平台工程师
  • 对 Transformer 架构和大模型训练技术感兴趣的技术爱好者

专栏目录

序号标题核心内容
0101 从 RNN 到 Transformer——注意力机制的革命序列建模的演进(RNN → LSTM → Attention → Transformer)、Self-Attention 的 Q/K/V 计算、Multi-Head Attention 的并行投影、位置编码(Sinusoidal → RoPE → ALiBi)、Transformer 的编码器-解码器架构
0202 GPT 架构——Decoder-Only 的自回归语言模型GPT 的 Decoder-Only 架构(Causal Attention Mask)、自回归生成(next token prediction)、Tokenizer(BPE/SentencePiece)的分词原理、Embedding 层的维度设计、GPT-1 → GPT-2 → GPT-3 → GPT-4 的架构演进
0303 预训练——数据、算力与 Scaling Law预训练数据的收集与清洗(Common Crawl/The Pile)、Scaling Law(Chinchilla 定律)的数据-参数-算力最优比、分布式训练(数据并行/张量并行/流水线并行/ZeRO)、混合精度训练(BF16/FP16)、训练稳定性(梯度裁剪/学习率调度)
0404 指令微调与 RLHF——从基座模型到对话助手SFT(Supervised Fine-Tuning)的指令数据构造、RLHF 的三阶段(SFT → Reward Model → PPO)、DPO(Direct Preference Optimization)的简化路径、Constitutional AI 的自我改进、Chat 模型 vs Base 模型的本质区别
0505 参数高效微调——LoRA、QLoRA 与 Adapter全量微调的显存瓶颈、LoRA 的低秩分解(A·B 矩阵)、QLoRA 的 4-bit 量化 + LoRA、Adapter 的瓶颈层插入、P-Tuning/Prefix-Tuning 的软提示、各方法的对比与适用场景
0606 推理优化——KV Cache、量化与投机解码自回归推理的瓶颈(逐 token 生成)、KV Cache 的缓存复用与显存占用、PagedAttention(vLLM)的分页管理、模型量化(INT8/INT4/GPTQ/AWQ)、投机解码(Speculative Decoding)的草稿-验证机制、Flash Attention 的 IO 感知优化
0707 模型部署与 Serving——vLLM、TensorRT-LLM 与 TritonLLM Serving 的核心挑战(高延迟/高显存/动态 Batch)、vLLM 的 Continuous Batching + PagedAttention、TensorRT-LLM 的图优化与 Kernel Fusion、Triton Inference Server 的模型编排、推理集群的 GPU 资源管理
0808 长上下文与多模态——技术前沿长上下文的挑战(注意力的 O(n²) 复杂度)、稀疏注意力(Sliding Window/Longformer)、RoPE 外推(YaRN/Dynamic NTK)、多模态(Vision-Language Model)的架构(CLIP → LLaVA → GPT-4V)、MoE(Mixture of Experts)的稀疏激活

推荐阅读路径

基础原理路径:01 → 02 → 03

训练与微调路径:04 → 05

推理与部署路径:06 → 07

前沿路径:08

前置知识

  • 机器学习基础(梯度下降、反向传播、损失函数)
  • 线性代数基础(矩阵乘法、向量空间)
  • Python 和 PyTorch 的基本使用

关联专栏