训练推理优化
🎯 学习目标
- 了解 DDP、FSDP、DeepSpeed 分工
- 理解 FP16/BF16 与 Flash Attention 的收益
- 应用工程师掌握 GPTQ/AWQ 量化与 vLLM 推理
引言
训练优化多由 ML 平台团队负责;应用工程师应熟悉推理侧量化与批处理降本。
章节正文
第 1 步:训练侧(概念)
- DDP:数据并行
- FSDP / DeepSpeed ZeRO:分片参数降显存
- 混合精度:BF16 训练
- Flash Attention:更快更省显存的 attention kernel
第 2 步:推理优化
| 手段 | 效果 |
|---|---|
| INT8/INT4 量化 | 显存↓、吞吐↑,略损精度 |
| GPTQ / AWQ | 权重量化方案 |
| 连续 batching | vLLM 提高 GPU 利用率 |
| KV Cache | 长对话加速 |
应用层:优先 API 提供的量化模型;自托管用 vLLM + AWQ。
动手练习
- 对比同一模型 fp16 vs awq 的 tokens/s(若有 GPU)
- 列出你项目推理成本占训练成本的比例(通常 100% 推理)
本节小结
训练用分布式+混合精度;应用侧重 vLLM+量化+批处理;不必深入剪枝等研究向优化。