关于本教程
定位
本教程面向有一定深度学习基础的算法工程师,系统讲解大语言模型(LLM)训练的完整流程:
- 预训练:从数据工程到分布式训练,涵盖 Transformer 架构、FlashAttention、MoE、Scaling Laws
- 监督微调 (SFT):从指令数据构建到 LoRA/QLoRA 等参数高效方法
- 强化学习对齐 (RL):从 RLHF/PPO 到 DPO/GRPO 等最新对齐算法
特色
- 完整数学推导:每个核心算法都提供从头推导,不跳步骤
- 可运行代码:所有示例基于 PyTorch + HuggingFace 生态,可直接运行
- 工程视角:不止于理论,深入讨论训练稳定性、显存优化、调参策略
- 前沿覆盖:涵盖 DeepSeek-MoE、FlashAttention v3、GRPO 等 2024-2025 年最新工作
前置知识
- Python 编程
- PyTorch 基础
- 线性代数、概率论基础
- 了解 Transformer 基本结构(本教程会详细展开)
技术栈
- 文档框架:VitePress
- 代码示例:PyTorch + HuggingFace Transformers/TRL
- 数学公式:MathJax
许可
本教程基于 MIT 协议开源。