LLM 训练全流程教程

LLM 训练全流程教程预训练 → SFT → 强化学习对齐

从原理推导到工程实战，覆盖大模型训练的每一个环节

预训练 (Pre-training)

Transformer 架构、FlashAttention、MoE、分布式训练、Scaling Laws — 完整数学推导 + 工程实现

监督微调 (SFT)

指令数据工程、LoRA/QLoRA/DoRA 全系列 PEFT 方法、多轮对话与长文本微调实战

强化学习对齐 (RL)

RLHF/PPO/DPO/GRPO/KTO/ORPO — 从策略梯度到直接偏好优化的完整算法族谱

可运行代码

8 个完整代码示例，基于 PyTorch + HuggingFace，可直接运行验证