代码示例
本教程提供 8 个可运行的代码示例,涵盖从注意力机制到强化学习训练的完整流程。
示例列表
| # | 文件 | 内容 | 对应章节 |
|---|---|---|---|
| 1 | attention_variants.py | MHA/GQA/MQA 实现与 FlashAttention 对比 | 第 3、4 章 |
| 2 | rope_encoding.py | RoPE 位置编码实现与可视化 | 第 3 章 |
| 3 | moe_layer.py | Top-K MoE 层实现(含负载均衡 loss) | 第 5 章 |
| 4 | lora_from_scratch.py | 从零实现 LoRA 微调 | 第 10 章 |
| 5 | reward_model.py | Bradley-Terry 奖励模型训练 | 第 12、17 章 |
| 6 | ppo_training.py | 简化版 PPO 训练 LLM | 第 13 章 |
| 7 | dpo_training.py | DPO 训练完整流程 | 第 14 章 |
| 8 | grpo_training.py | GRPO 训练实现 | 第 15 章 |
环境要求
bash
pip install torch transformers datasets trl peft accelerate matplotlib运行方式
bash
python examples/01_attention_variants.py所有示例均可在单 GPU(建议 >= 16GB 显存)上运行。部分示例提供 CPU fallback。