主题
从原理推导到工程实战,覆盖大模型训练的每一个环节
Transformer 架构、FlashAttention、MoE、分布式训练、Scaling Laws — 完整数学推导 + 工程实现
指令数据工程、LoRA/QLoRA/DoRA 全系列 PEFT 方法、多轮对话与长文本微调实战
RLHF/PPO/DPO/GRPO/KTO/ORPO — 从策略梯度到直接偏好优化的完整算法族谱
8 个完整代码示例,基于 PyTorch + HuggingFace,可直接运行验证