Skip to content

关于本教程

定位

本教程面向有一定深度学习基础的算法工程师,系统讲解大语言模型(LLM)训练的完整流程:

  1. 预训练:从数据工程到分布式训练,涵盖 Transformer 架构、FlashAttention、MoE、Scaling Laws
  2. 监督微调 (SFT):从指令数据构建到 LoRA/QLoRA 等参数高效方法
  3. 强化学习对齐 (RL):从 RLHF/PPO 到 DPO/GRPO 等最新对齐算法

特色

  • 完整数学推导:每个核心算法都提供从头推导,不跳步骤
  • 可运行代码:所有示例基于 PyTorch + HuggingFace 生态,可直接运行
  • 工程视角:不止于理论,深入讨论训练稳定性、显存优化、调参策略
  • 前沿覆盖:涵盖 DeepSeek-MoE、FlashAttention v3、GRPO 等 2024-2025 年最新工作

前置知识

  • Python 编程
  • PyTorch 基础
  • 线性代数、概率论基础
  • 了解 Transformer 基本结构(本教程会详细展开)

技术栈

  • 文档框架:VitePress
  • 代码示例:PyTorch + HuggingFace Transformers/TRL
  • 数学公式:MathJax

许可

本教程基于 MIT 协议开源。

基于 MIT 协议发布