代码示例

本教程提供 8 个可运行的代码示例，涵盖从注意力机制到强化学习训练的完整流程。

示例列表

#	文件	内容	对应章节
1	attention_variants.py	MHA/GQA/MQA 实现与 FlashAttention 对比	第 3、4 章
2	rope_encoding.py	RoPE 位置编码实现与可视化	第 3 章
3	moe_layer.py	Top-K MoE 层实现（含负载均衡 loss）	第 5 章
4	lora_from_scratch.py	从零实现 LoRA 微调	第 10 章
5	reward_model.py	Bradley-Terry 奖励模型训练	第 12、17 章
6	ppo_training.py	简化版 PPO 训练 LLM	第 13 章
7	dpo_training.py	DPO 训练完整流程	第 14 章
8	grpo_training.py	GRPO 训练实现	第 15 章

bash

pip install torch transformers datasets trl peft accelerate matplotlib

bash

python examples/01_attention_variants.py

所有示例均可在单 GPU（建议 >= 16GB 显存）上运行。部分示例提供 CPU fallback。