LLM 训练全流程教程

关于本教程

定位

本教程面向有一定深度学习基础的算法工程师，系统讲解大语言模型（LLM）训练的完整流程：

预训练：从数据工程到分布式训练，涵盖 Transformer 架构、FlashAttention、MoE、Scaling Laws
监督微调 (SFT)：从指令数据构建到 LoRA/QLoRA 等参数高效方法
强化学习对齐 (RL)：从 RLHF/PPO 到 DPO/GRPO 等最新对齐算法

特色

完整数学推导：每个核心算法都提供从头推导，不跳步骤
可运行代码：所有示例基于 PyTorch + HuggingFace 生态，可直接运行
工程视角：不止于理论，深入讨论训练稳定性、显存优化、调参策略
前沿覆盖：涵盖 DeepSeek-MoE、FlashAttention v3、GRPO 等 2024-2025 年最新工作

前置知识

Python 编程
PyTorch 基础
线性代数、概率论基础
了解 Transformer 基本结构（本教程会详细展开）

技术栈

文档框架：VitePress
代码示例：PyTorch + HuggingFace Transformers/TRL
数学公式：MathJax

许可

本教程基于 MIT 协议开源。