Skip to content

代码示例

本教程提供 8 个可运行的代码示例,涵盖从注意力机制到强化学习训练的完整流程。

示例列表

#文件内容对应章节
1attention_variants.pyMHA/GQA/MQA 实现与 FlashAttention 对比第 3、4 章
2rope_encoding.pyRoPE 位置编码实现与可视化第 3 章
3moe_layer.pyTop-K MoE 层实现(含负载均衡 loss)第 5 章
4lora_from_scratch.py从零实现 LoRA 微调第 10 章
5reward_model.pyBradley-Terry 奖励模型训练第 12、17 章
6ppo_training.py简化版 PPO 训练 LLM第 13 章
7dpo_training.pyDPO 训练完整流程第 14 章
8grpo_training.pyGRPO 训练实现第 15 章

环境要求

bash
pip install torch transformers datasets trl peft accelerate matplotlib

运行方式

bash
python examples/01_attention_variants.py

所有示例均可在单 GPU(建议 >= 16GB 显存)上运行。部分示例提供 CPU fallback。

基于 MIT 协议发布